世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

Claude Codeの「5xプランなのに1.5時間で枯渇」問題、何が起きていたのか

この記事のキーポイント

Claude CodeのGitHub issueで、「Pro Max 5x」プランのquota（利用上限）が1.5時間で尽きたという報告が上がった
使い方は「重すぎる運用」ではなく、Q&A中心の軽めの利用だったのに枯渇したのが問題
原因として、cache_read tokens が割引率ではなくフルレートで quota 計算されているのではないかという疑いが出ている
さらに、開きっぱなしの別セッションが共有quotaを消費する点も大きい
1M context window は便利だが、context が大きいほど1回の呼び出しコストが膨らむため、quota面ではむしろ不利になりうる
個人的には、これは「AIの性能問題」よりも課金・制限設計のわかりにくさが露呈した話だと思う

何が報告されたのか

GitHubのAnthropic公式リポジトリ claude-code に、かなり気になるバグ報告が投稿されました。タイトルは、

[BUG] Pro Max 5x Quota Exhausted in 1.5 Hours Despite Moderate Usage

ざっくり日本語にすると、「それほど激しく使っていないのに、Pro Max 5x の quota が1.5時間で使い切られた」という意味です。

ここでいう quota は、毎月の「使える上限」や「利用枠」のようなものです。
つまり、まだそんなに使っていないのに、急に“もう使えません”になったという話です。これ、ユーザーとしてはかなり嫌ですよね。私なら普通に「え、バグでは？」となります。

ざっくり言うとどんな状況？

報告者は Claude Code を Opus モデル、しかも 1M context（一度に読める文脈が非常に大きい設定）で使っていました。
作業内容は、前半はかなり重めの開発だったものの、それは quota 的に見ても納得できる範囲だったとのこと。

問題はその後です。

quota のリセット後
使い方は Q&A 中心で比較的軽い
なのに 1.5時間で quota を使い切った

この時点で「さすがにおかしい」となります。

しかも調査すると、原因としてかなり怪しい点が見えてきた。
それが cache_read tokens の扱いです。

cache_read tokens って何？

専門用語なので少し噛み砕きます。

Claude Code のようなツールは、毎回「今までの会話や作業の文脈（context）」をモデルに送って推論させます。
そのとき、以前に見た内容を再利用する仕組みとして prompt caching があります。

その中で出てくるのが cache_read_input_tokens です。
これは一言でいうと、「キャッシュから読み出した分のトークン」です。

トークンは、AIが扱う文字のかたまりのようなものです。
文章量の単位だと思っておけば大丈夫です。

で、報告者の主張はこうです。

本来、cache_read は 割引された扱い になるはず
でも実際には、quota の計算でフルレート扱いされているように見える
そのせいで、キャッシュの恩恵が quota に反映されていないのではないか

これが事実なら、かなり重要です。
なぜなら、「キャッシュで安くなるから大丈夫」が、quota上は大して効いていない可能性があるからです。

数字を見ると、たしかに不穏

報告には、かなり細かい計測結果が載っています。
セッションファイル（~/.claude/projects/*//*.jsonl）から usage を集計したとのことです。

ウィンドウ1: 5時間の重めの開発

API calls: 2,715
Cache read: 1,044M tokens
Cache create: 16.8M tokens
Input tokens: 8.9k tokens
Output tokens: 1.15M tokens
Peak context: 966,078 tokens
Effective input（cache_read を 1/10 とみなした場合）: 121.8M tokens

これはかなり大きな作業です。
Express server や iOS app の実装、knowledge graph pipeline、multi-agent coordination など、重い処理が並んでいます。
ここで quota をかなり使ったのは、まあ納得感があります。

ウィンドウ2: 1.5時間の軽めの利用

メインセッション:

API calls: 222
Cache read: 23.2M tokens
Cache create: 1.4M tokens
Input tokens: 304 tokens
Output tokens: 91k tokens
Peak context: 182,302 tokens
Effective input（cache_read を 1/10 とみなした場合）: 2.8M tokens

さらにバックグラウンドで動いていたセッションもありました。

token-analysis: 296 calls / 57.6M cache read / 6.5M effective input
career-ops: 173 calls / 23.1M cache read / 3.8M effective input

合計すると、
raw tokens では 105.7M tokens くらい使っている計算になります。

ここで面白いのは、報告者が「もし cache_read が 1/10 扱いなら、そこまで quota を食うはずがない」と見ている点です。
逆に、cache_read がフル扱いなら、たしかに quota が吹き飛ぶ。

つまり、この issue の核心は、

キャッシュで安くなっているはずなのに、quota の計算では安くなっていないのでは？

という疑念です。

何がそんなに問題なのか

1. cache_read の割引が quota に反映されていないかもしれない

これが一番の本丸です。
もし本当に cache_read が quota 上はフルカウントなら、prompt caching の意味がかなり薄れます。

報告者の主張では、軽めの利用でも quota が急減しており、
「キャッシュが効いているのに、利用上限の減り方は全然やさしくない」ように見えるわけです。

個人的には、これはかなりイヤな設計ミスっぽさがあります。
ユーザーからすると、「安くなる仕組み」があるなら、少なくとも制限にもそれなりに反映されると思うじゃないですか。
それがされていないなら、かなり混乱します。

2. 開きっぱなしの別セッションが quota を食う

これも見落としがちなポイントです。

Claude Code は複数の terminal でセッションを開いたままにすると、
その裏で compacts、retros、hook processing などを行って、共有 quota を消費することがあるようです。

つまり、ユーザーが「いま触ってないセッション」でも、裏で静かに quota を削っている可能性がある。

これ、地味に怖いです。
人間は「作業していない＝消費していない」と思いがちですが、AI側は止まっていないことがある。
このズレは、かなりトラブルの温床になりそうです。

3. auto-compact が高コストな1発を生む

auto-compact は、context が膨らみすぎたときに、会話内容を圧縮して延命する仕組みです。
便利ではあるのですが、報告によると、圧縮の直前に巨大な context を送る1回のAPI呼び出しが発生します。

ピーク時には約 966k tokens というとんでもない context が載っていたとのこと。
これが quota 面ではかなり重い。

つまり、auto-compact は「便利な裏で、最も高い1回」を生みやすい。
この構造はなかなか皮肉です。
節約のための仕組みが、場合によっては最大の消費源になる。AIツールあるあるではありますが、やっぱり納得しづらいですね。

4. 1M context window が逆に不利になることもある

1M context window は、一見すると「すごい、たくさん覚えてくれる」と感じます。
ただし、context が大きくなるほど毎回送る情報量も増えるので、1回あたりのコストが膨らむという弱点があります。

報告者は、1M window が実際には quota depletion を加速させていると見ています。
これはかなり筋が通っていると思います。

大きい context は確かに強い。
でも「たくさん覚えられる」ことと「たくさん使える」ことは、必ずしも同じではない。
ここを分けて考えないと、ユーザーは「性能は上がったのに、使える時間は短くなった」と感じるかもしれません。

再現方法として挙げられていること

報告では、次のような条件が書かれています。

Claude Code を Opus で使う
~/.claude/rules/ に約30個の rule files を置く
file reads、builds、tests などの tool-heavy な作業をする
/context コマンドで context の増加を見る
200〜300回くらい tool call をすると quota がかなり減る
terminal を2〜3個開いたままにしておく
quota reset 後、軽い利用でも枯渇を確認する

要するに、ちゃんとした開発作業をしていたら普通に踏みそうな条件です。
ここが大事で、「特殊な壊し方」ではなく、かなり現実的な使い方の中で起きている点が問題なんですよね。

この issue が投げかけているもの

この報告の面白いところは、単なる「バグっぽい」では終わらず、
quota の見せ方・計算方法・ユーザー体験そのものに疑問を投げている点です。

報告者は改善案として、たとえば以下を挙げています。

cache_read の quota 計算ルールを明示する
effective tokens ベースで rate limit をかける
idle session が quota を食いすぎないようにする
quota の内訳をリアルタイムで見せる
context サイズに応じた見積もりを出す

これはかなりまっとうな提案だと思います。

特に 「何がどれだけ quota を食っているのか、見える化してほしい」 は強く同意です。
見えない消費は、体感的にいちばんストレスです。
AIツールって、便利な一方で「気づいたら終わってた」が起きやすいので、透明性はかなり重要です。

個人的な感想

個人的には、この issue は「単なる1件のバグ報告」以上の意味があると思います。

理由は2つあります。

キャッシュの節約効果が、利用制限にも素直に反映されていないかもしれない
複数セッション・大規模 context・自動圧縮が絡むと、ユーザーの直感と実際の消費がズレる

このズレが大きいと、ユーザーは「使い方が悪いのか、仕様なのか、バグなのか」を判断できません。
そして、それが一番つらい。
なぜなら、改善しようにも改善ポイントが見えないからです。

Claude Code のような強力なツールは、性能が高いだけでは足りなくて、
“どう使われ、どう消費され、どう制限されるか” の説明責任がかなり大事だと思います。

まとめ

この issue は、Claude Code の Pro Max 5x プランで「moderate usage なのに quota が1.5時間で枯渇した」という報告です。
原因としては、cache_read tokens が想定より重く quota に乗っている可能性や、バックグラウンドセッションの消費、巨大な context を扱うこと自体のコストが疑われています。

つまり、問題は「AIが賢すぎる」ことではなく、
賢く使うほど quota の減り方が読みにくくなることにある、という話です。
これはかなり面白いし、同時にかなり困る問題だと思います。

参考: [BUG] Pro Max 5x Quota Exhausted in 1.5 Hours Despite Moderate Usage · Issue #45756 · anthropics/claude-code

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ