世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-21

LLMの「30 tokens/s」はどれくらい速いのかを体感できる「tokenspeed」の面白さ

キーポイント

tokenspeed は、LLMの tokens-per-second（1秒あたりに出るtoken数） を「数字」ではなく「体感」で理解するためのツール
code / text / think / agent の4モードがあり、出力内容によって「同じ速度でも速くも遅くも感じる」ことを見せてくれる
5 tok/s から 800 tok/s までのプリセットがあり、実際のモデル速度の感覚をつかみやすい
tokenの数え方は各社の厳密なtokenizerではなく、BPE風の近似
「tok/sの数字は同じでも、コードと文章では体感がまるで違う」という点が、このツールの一番おもしろいところ

本文

LLMのベンチマークを見ていると、よく出てくるのが「47 tok/s」「180 tok/s」「500 tok/s」といった数字です。
でも正直、こういう数字ってピンと来にくいんですよね。
1秒に30 tokenって、速いの？遅いの？生活の中のどの感覚に近いの？ となりがちです。

そこで登場するのが tokenspeed です。
これは、LLMが出力する token の流れを画面上で再現して、「tokens-per-second」を目で見て、なんとなくじゃなく体で感じられるようにしたものです。
発想がかなりよくて、僕はこういう「数字を視覚と体感に変換する」ツールが大好きです。ベンチマークの世界って数字ばかりが独り歩きしやすいので、こういう翻訳装置はかなり価値があると思います。

そもそも tokens-per-second って何？

tok/s は、LLMが1秒間に何 token 生成できるかを表す指標です。
token は、ざっくり言うと 文章やコードを細かく切った部品 です。

たとえば英語なら、短い単語は1 token くらいで済むこともありますが、長い単語は分割されることがあります。
コードならもっと細かくなりやすく、processUserInput のような識別子が process + User + Input のように分かれることもあります。
記号や演算子も token になるので、コードは文章より token が多くなりやすい。
ここが大事で、同じ 30 tok/s でも、コードが流れるのと自然文が流れるのでは体感がかなり違うんです。

tokenspeed はまさにそのズレを見せてくれます。
ベンチマークの数字自体は嘘じゃない。でも、人間がどう感じるか は別問題、というわけです。

4つのモードがけっこう気が利いている

このツールには4つのモードがあります。

code
syntax-highlighted な pseudo-code が流れるモード。
いちばん「LLMが書いてるっぽい」見た目で、コード生成の雰囲気をつかみやすいです。
text
lorem ipsum 風の文章が流れるモード。
ふつうのチャット回答や説明文に近い感覚を見られます。
think
reasoning model が考えているような、薄くイタリックな思考文とコードが交互に出るモード。
「考えながら出してる感」を演出していて、これはかなりそれっぽいです。
agent
tool call と code generation が交互に出て、途中に処理の間も入るモード。
AI coding agent の雰囲気を再現していて、実際のエージェント系UIに近い空気があります。

個人的には、同じ tok/s を code と text で切り替えて比較できるのがいちばん面白いと思います。
数字だけ見ていると見落としがちですが、内容が違うと体感速度はかなり変わるんですよね。
これは「速度の絶対値」だけ見ても、ユーザー体験はわからない、ということのいい例です。

何を試すと面白いのか

元記事では、まずデフォルトの 30 tok/s から読んでみることがすすめられています。
そのうえで、いくつかのプリセットを試すと感覚がつかみやすいです。

1: 5 tok/s
Raspberry Pi 級のローカルモデルのイメージ
5: 60 tok/s
典型的な hosted Claude や GPT のイメージ
7: 200 tok/s
Groq っぽい領域
9: 800 tok/s
Cerebras 級で、もはやボトルネックは人間の目では、という世界

この例えがうまいんですよね。
LLMの速度は、単なる「遅い/速い」ではなく、どの層の体験に属するか で見たほうがしっくり来ます。
5 tok/s だと「あ、待ってるな」と強く感じるし、60 tok/s くらいになると、もうかなり自然に見える。
200 tok/s を超えると、逆に人間の読解速度のほうが追いつかない瞬間が出てきます。
800 tok/s なんて、たしかに「速い」のですが、速すぎて今度は読む側の目が詰まる。この指摘はかなり本質的だと思います。

このツールが面白いのは「速度の錯覚」を見せるところ

tokenspeed の本質は、単にスピードを測ることではありません。
同じ速度でも、出力内容が違うだけで体感は変わる、という当たり前だけど見落としやすい事実を、かなりわかりやすく見せてくれます。

たとえば、

コードは token が詰まりやすいので、同じ tok/s でも「早口」に見えやすい
文章は流れがなめらかなので、同じ tok/s でも「ゆったり」感じやすい
思考風の出力は、間があるだけで「考えている」感が強まる
エージェント風は、処理の待ち時間が入ることで実際の利用感に近づく

つまり、速度の数字は一つでも、ユーザーの体感は一つじゃない。
このズレを見せるのがとても上手いです。

tokenの数え方についてもちゃんと説明している

元記事では、token の数え方は BPE-style tokenization をざっくり近似していると説明されています。
BPE は、文字列を細かい単位に分ける仕組みの一種で、LLMのtokenizerでよく使われる考え方です。

ただしここで大事なのは、各ベンダーの tokenizer を厳密に再現しているわけではない という点です。
たとえば tiktoken や Claude の tokenizer とは、細部が少しずつ違います。
でもこれは欠点というより、体感ツールとしてはむしろ自然です。
厳密な一致より、「だいたいこういう分かれ方をするんだな」 をつかむほうが、このツールの目的に合っています。