LLMの「30 tokens/s」はどれくらい速いのかを体感できる「tokenspeed」の面白さ
`tokenspeed` は、LLMの tokens-per-second(1秒あたりに出るtoken数) を「数字」ではなく「体感」で理解するためのツール `code` / `text` / `think` / `agent` の4モードがあり、出力内容によって「同じ速度でも速くも遅くも感じる」ことを見せてくれる 5 tok/s から 800 tok/s までのプリセットがあり、実際のモデル速度の感覚をつかみやすい tokenの数え方は各社の厳密なtokenizerではなく、BPE風の近似 「tok/sの数字は同じでも、コードと文章では体感がまるで違う」という点が、このツールの一番おもしろいところ LLMのベンチマークを見ていると、よく出てくるのが「47 tok/s」「180 tok/s」「500 tok/s」といった数字です。 でも正直、こういう数字ってピンと来にくいんですよね。 1秒に30 tokenって、速いの? 遅いの? 生活の中のどの感覚に近いの? となりがちです。 そこで登場するのが `tokenspeed` です。 これは、LLMが出力する to
papoo.work