世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-06-05

AnthropicのPrompt CachingでAPI代を70%削減した話をやさしく解説する

キーポイント

AnthropicのPrompt Cachingは、「毎回同じ前半部分を再送しなくてよくする」仕組み
いちばん効くのは system prompt のキャッシュ
tool definitions も別でキャッシュすると、エージェント用途でかなり強い
長い会話では、conversation history のキャッシュが効いてくる
バッチ処理や間隔の空く処理では、1-hour TTL が便利
キャッシュは「前からの連続した一致」が重要で、順番や内容が少しでも変わると壊れやすい
著者は、こうした設計でAPI料金を 70%削減 したと報告している

そもそもPrompt Cachingって何？

この記事は、AnthropicのAPI、つまりClaudeを呼び出すときのPrompt Cachingで料金を大きく下げた、という体験談です。

ざっくり言うと、Prompt Cachingは「前回と同じ部分は、また全部送らなくてもいいようにする仕組み」です。
たとえば、毎回同じ長い説明文やルールを送り続けるのって、地味にムダですよね。そこで、変わらない部分をキャッシュしておくと、次回からはその部分を安く読み込めるわけです。

ここが面白いのは、著者が「モデルを変えたわけではない」のに、プロンプトの切り方だけでAPI代を70%下げたところです。
これはかなり現実的な改善で、AI開発って「モデル選定」ばかりに目が行きがちだけど、実際にはどうリクエストを組み立てるかがめちゃくちゃ重要だとわかります。個人的には、こういう“地味だけど効く”改善がいちばん強いと思います。

この記事の5つのパターン

著者が使っているのは、次の5つのパターンです。

system prompt を最初にキャッシュする
tool definitions を別枠でキャッシュする
conversation history が増えるごとにキャッシュする
5分ではなく1-hour TTLを使う
キャッシュしやすい順番でプロンプト全体を組む

以下、順番に見ていきます。

1. system prompt を最初にキャッシュする

まず一番効くのがこれです。

system prompt とは、AIに対する「役割」や「ルール」を書く部分です。
たとえば、「あなたは丁寧なアシスタントです」「出力はこの形式で」「安全上の注意はこう」みたいな、毎回変わらない指示ですね。

著者のケースでは、この system prompt が 4,000 tokens もあったそうです。
tokens は文字数そのものではなく、AIが文章を細かく分けて数える単位だと思えばOKです。長文ほど増えます。

これを毎回フルで送ると、会話が30回続くだけで、同じ4,000 tokensを30回分払うことになります。
そりゃ高い。かなり高いです。

そこで、system prompt の最後の部分に cache_control を置いて、type: "ephemeral" にする。
すると、最初の1回はキャッシュを書き込むため少し高くなりますが、2回目以降はその部分をかなり安く読めます。

重要なのは、キャッシュされる部分が 1,024 tokens 以上必要だという点です。
Claude Sonnet ではこれを満たさないと、キャッシュが効かないらしいです。
つまり、短い system prompt には向きません。200 tokens くらいの短文なら、正直あまり意味がないでしょう。

また、順番もかなり大事です。
キャッシュは先頭からの連続した一致で効くので、固定の指示は上に、毎回変わる情報は下に置く必要があります。
たとえば、日付やユーザー入力を先に混ぜると、毎回違うprefixになってしまい、キャッシュが壊れます。

著者は、ドキュメント分類の仕事で system prompt をキャッシュしたところ、1日あたり680万 input tokens くらい削減できたと書いています。
これはさすがにインパクトが大きいです。
正直、AIコスト最適化の“最初の一本目”はこれでいい、という話だと思います。

2. tool definitions を別枠でキャッシュする

次に効くのが tool definitions です。

これは、Claudeに「外部ツールを使わせる」ための定義のことです。
たとえば、検索、DB参照、関数実行などをAIにやらせるとき、その使い方をJSON schemaで渡します。
このJSONが、意外とでかい。

著者の例では、14個のツール定義だけで 9,200 tokens もあるそうです。
しかもこれ、毎回ほぼ同じ。
なら、当然キャッシュしたくなります。

面白いのは、tool definitions と system prompt を別々にキャッシュできる点です。
Anthropicでは、1リクエストあたり最大4つまで breakpoint を置けるので、

ツールの終わりで1回
system prompt の終わりで1回
のように分ける使い方ができます。

これがなぜ便利かというと、A/Bテストみたいに system prompt だけ変える場面でも、tool cache を生かせるからです。
全部ひとまとめにしてしまうと、system prompt を変えた瞬間にツール側まで再計算になりがちですが、分けておけば無駄が減ります。

ただし注意点もあります。
ツール定義を動的に生成していると、JSONのキー順が毎回変わるだけでキャッシュが壊れます。
著者はそこにハマって、キーをソートして解決したそうです。
この話、すごくわかります。AIまわりって、アルゴリズムよりも「完全一致しないせいでキャッシュが死ぬ」問題に時間を溶かされがちなんですよね。

3. conversation history を増えるごとにキャッシュする

3つ目は、長い会話で効くパターンです。

conversation history は、今までのやり取りの履歴です。
チャットが長くなるほど、この履歴はどんどん伸びます。

キャッシュなしだと、10ターン目にはかなり長くなった履歴を毎回まるごと送ることになり、料金が膨らみます。
そこで、著者はmoving breakpoint、つまり会話が進むたびにキャッシュの境界をずらす方法を使っています。

考え方としては、

ここまでは前回までの確定済みの履歴
ここから先は今回の新しい入力
という境界を作って、前半をキャッシュするイメージです。

ただし、ここはかなり繊細です。
キャッシュはやはりprefix match、つまり先頭からの一致なので、履歴を途中で削ったり、要約したり、順番を変えたりすると、そこから先が全部無効になります。

著者のルールはかなり現実的で、履歴を編集しない。append-only、つまり追記だけにすること。
この方針はかなりいいと思います。
会話履歴を“整形したくなる”気持ちはわかるんですが、キャッシュ最適化の観点では、むしろ触らないほうが勝ちです。

また、turn three、つまり3回目くらいから効果が出やすいとも書かれています。
最初のうちはキャッシュ書き込みのコストが少し重く、短いやり取りだと逆に得しないこともある。
ここは大事で、「キャッシュは常に得」と思い込むと失敗します。
短い会話には向かない場合がある、これは覚えておきたいポイントです。

著者は、コード支援アシスタントでこの方法を使い、1セッションあたりのinput billingを約60%削減したとのことです。
会話が長いアプリほど、これはかなり効きそうです。

4. 1-hour TTL を使う

次は TTL です。
TTL は “time to live” の略で、キャッシュが生きている時間のことです。
つまり「何分で期限切れになるか」です。

デフォルトは 5分。
ただし、読み取りがあるたびにその期限は延びます。
会話が連続しているなら問題になりにくいです。

でも、バッチ処理や、ユーザーの考える時間が長いケースでは話が変わります。
たとえば、

数分おきに動く定期処理
ユーザーが長文回答を読んでから返す
複数ステージに分かれた処理

こういう場面では、5分を超えてしまってキャッシュが切れ、次回また書き直しになります。
それなら、1-hour TTL を使ったほうがいい、というのが著者の判断です。

ここはすごく実践的です。
「5分より長く空くなら、1時間のほうが得になりやすい」という考え方は、かなり納得感があります。
キャッシュの良し悪しって、性能の話というより業務のリズムに合っているかなんですよね。

著者は、1-hour TTL を

定期実行のバッチ
長い思考時間を挟むユーザーセッション
複数段階のパイプライン
に使っているそうです。

ただし、TTLはbreakpointごとに別々です。
system prompt のキャッシュは1時間、history のキャッシュは5分、みたいなことも起こるので、見た目がややこしくなることがあります。
このあたりは監視しないと、何が効いて何が切れたのか分かりづらいでしょう。

5. キャッシュしやすい順番でプロンプト全体を組む

最後は、単発テクニックではなく設計思想です。

著者のおすすめは、リクエストを「安定しているもの」から「変わりやすいもの」へ並べることです。

順番はこんな感じです。

tools
system prompt
conversation history
current user input

これはかなり重要です。
なぜなら、キャッシュは先頭から続く部分しか使えないからです。
途中で1文字でも変わると、その先は全部キャッシュ外になります。

だから、毎回変わる情報はできるだけ下に置く。
変わらない情報は上に置く。
この“積み上げ方”が、キャッシュ効率を左右します。

また、著者はtimestamp（日付や時刻）やrandom ID がキャッシュを壊すと警告しています。
たしかに、毎回変わる要素を安定層に混ぜたら、そりゃ台無しです。
「今日の日付くらい入れてもいいか」と思いがちですが、キャッシュ視点では地雷です。

さらに、non-deterministic serialization、つまり毎回同じ並びにならないデータ出力も問題です。
JSONのキー順、浮動小数点の表示、余計な空白など、見た目が少し違うだけで別物扱いになります。

著者は、こうした整形ルールを徹底した結果、キャッシュヒット率が 71% から 96% まで上がったとしています。
この数字はかなり説得力があります。
個人的には、この「キャッシュは魔法ではなく、データ整形の勝負」という点がいちばん現場っぽくて好きです。

どうしてここまで効くのか

この話の本質は、AIのAPI料金が「モデルの賢さ」だけで決まるわけではない、ということだと思います。

同じ長い前置きを何度も送っていたら、当然コストは増えます。
でも、変わらない部分を賢く再利用するだけで、請求額はかなり下がる。
これはAIに限らず、システム設計全般に通じる話です。

しかもPrompt Cachingは、派手な最適化ではありません。
モデルを小さくするわけでも、出力を削るわけでもない。
ただ、無駄な再送を減らすだけです。
なのに効果が大きい。こういう改善は、現実ではかなり強いです。

個人的におもしろいと思った点

個人的におもしろいのは、著者が「まずモデルを変えた」のではなく、cache breakpointの置き方を変えただけで大きく下げたことです。

AI開発って、つい「どのモデルが一番賢いか」に意識が向きます。
でも実際には、こういう地味なプロンプト設計とデータ整形のほうが、コストと運用の満足度に直結するんですよね。
しかも、効果が出るのが早い。
「4分で入れて、次の請求で効いた」という話は、かなり夢があります。

一方で、キャッシュは雑に使うと逆効果にもなりえます。
短い会話に無理に入れると損することもあるし、JSONの順番がズレるだけで失敗することもある。
なので、万能の節約術ではなく、ちゃんと運用する技術だと思ったほうがよさそうです。

まとめ

この元記事が伝えているのは、かなりシンプルです。

変わらない部分は毎回送らない
変わる部分は下に置く
system prompt、tools、history を分けて考える
TTLを処理の間隔に合わせる
キャッシュヒット率をちゃんと見る

派手さはないけれど、実務ではかなり効く話です。
特にClaudeを使ったエージェントや長文処理をしている人には、かなり参考になるはずです。
私なら、まず system prompt のキャッシュ から入って、次に toolsの分離 をやります。ここが一番コスパが良さそうです。

参考: 5 Anthropic Prompt Caching Patterns That Cut My API Bill 70%

同じ著者の記事

【2026年7月版】Teamsの通知トラブル、実は「消えない」「減った」の2系統に分かれている

「Teamsで通知が届かない・音が鳴らない」というガイドは2025年3月ごろから定番のネタとして各所で書かれてきた。1年以上経った今もう一度読み直してみると、当時のチェックリストは今でも土台としては有効だが、2026年に入ってから起きている不具合は、当時想定されていなかった種類のものだとわかる。代表格が2つある。ひとつは4月中旬から報告が相次いだ「通知がデスクトップに張り付いたまま消えない」不具合。もうひとつは、Plannerのタスクチャット刷新に伴って意図的に仕様変更された「コメント通知が来なくなった」現象だ。前者はバグ、後者は仕様変更——原因が真逆なのに、ユーザー側からはどちらも「通知がおかしい」としか見えない。本稿ではこの2つを軸に、旧来のチェックリストをどう位置づけ直せばいいかを整理する。 --- 症状が「来ない」のか「消えない」のか「減った」のかで、疑うべき場所が変わる。 | 症状 | まず疑うもの | 対処 | |---|---|---| | バナーも音も一切来ない | 3層構造（後述）のどこかでオフになっている | 下記「3層」を上から順に確認

papoo.work

口座から引き落とされる「ゆうちょリヨウキヨク」とは？

ゆうちょ銀行の通帳やアプリを久しぶりに記帳したら、身に覚えのない「ゆうちょリヨウキヨク20595」のような行を見つけて青ざめた——という報告はSNSでも定期的に見かける。結論から言うと、これは不正利用の証拠ではなく、ゆうちょ銀行のATMネットワークが取引記録に付与する局番号入りの取扱店識別子だ。中身は難しくない。エンジニア視点で見ると、レガシーな勘定系システムが抱えがちな「表示制約」の実例として面白い。まず引っかかるのが、コンビニで下ろしたはずなのに「ゆうちょ」と印字される点だ。ファミリーマートに設置されている緑色のATMは、実はファミリーマート自前の機械ではなく、ゆうちょ銀行が設置・運用しているATMである。つまりコンビニのATMを使っても、勘定系から見れば「ゆうちょのATMを使った」という扱いになり、通帳には郵便局の窓口やATMで取引したときと同じフォーマットで記録が残る。ローソンやミニストップなど他チェーンでも同様の提携パターンがあり、見た目のブランドと処理系統が一致しないケースは珍しくない。「リヨウキヨク」の後ろに続く5桁の数字は、取引が行われた取扱局（支店・ATM

papoo.work

ChatGPTの「Something went wrong」、本当の原因はエラーメッセージの外側にある

「Something went wrong」——ChatGPTを使っていれば誰でも一度は見る、あの素っ気ない一文だ。以前このテーマを書いたときは原因と対処法を並べる形にしたが、半年ほど経って改めて見直すと、あの一文自体がほとんど何も語っていないことに気づく。フロントエンドが「予期しないエラーを捕捉した」ときの汎用キャッチ文であって、実際に起きていることは毎回まったく別物だ。今回は原因の切り分け方から書き直す。 ChatGPTのWeb UIはReactで組まれたSPAで、APIとのやり取りはストリーミング(Server-Sent Events)で行われる。サーバー側で429(レート超過)が返ろうが524(オリジンタイムアウト)が返ろうが、ストリームが途中で切れようが、フロントエンドの例外ハンドラは大半のケースをひとまとめにして「Something went wrong」に丸め込む。つまりこのメッセージは診断名ではなく、診断を放棄した結果の表示だ。原因を絞り込みたいなら、まずブラウザの開発者ツール(F12)でNetworkタブを開き、`conversation`宛のリクエストが何を返して

papoo.work

ChatGPTで「Something went wrong」が出る理由【2026年7月版：障害ポストモーテムとステータスページの読み方まで】

「Something went wrong. If this issue persists please contact us through our help center at help.openai.com.」——ChatGPT利用者なら一度は見たことがあるであろう定番のエラーだ。半年前に書かれた解説記事は「サーバー混雑」「セッション切れ」「ブラウザ拡張機能」といった原因を並べていたが、2026年7月時点ではその前提だけでは足りない。理由は3つある。(1) 2026年2月の大規模障害についてOpenAI自身が技術的な根本原因をポストモーテムで公開した、(2) わずか1週間前の7月14〜15日にも同系統の障害が再発した、(3) モデル・プラン・機能面が半年で別物になった（GPT-4→GPT-5.6、Free/Plus二択→Go追加、Library・Notes・音声モードの新設）ことで、エラーの出方と切り分け方自体が変わった。本稿はエンジニア向けに、表面的な対処法だけでなく「なぜ起きるか」の技術的背景まで掘り下げる。 > ⚠️ 注記: ChatGPTは

papoo.work

Excelのフォントが変わる原因を、.xlsxを解凍して確かめてみた

「テーマフォントが原因」というところまでは、探せば辿り着ける。だが実際にファイルの中で何が参照し合っているのかを見た人は少ない。.xlsxはただのZIPなので、覗くのに5分もかからない。手元の適当なブックで試すなら、拡張子を`.zip`に変えるか`unzip`コマンドを叩くだけでいい。 ``` $ unzip -l sample.xlsx Length Date Time Name --------- ---------- ----- ---- 1234 2026-07-01 09:00 xl/theme/theme1.xml 5678 2026-07-01 09:00 xl/styles.xml ... 2345 2026-07-01 09:00 xl/worksheets/sheet1.xml ``` 犯人は`xl/theme/theme1.xml`にいる。中を`cat`すると、こんな塊が出てくる。 ```xml <a:fontScheme name="Office"> <a:majorFont> <a:latin typeface="

papoo.work

Claude の Effort、実は3段階じゃない——xhigh/maxまで含めた5段階の使い分けとAPI仕様を深掘りする

以前の記事「[Claude の effort ってどう効くの？](https://note.com/modern_ferret431/n/nc8e88b771ab0)」では、Effortパラメータを Low / Medium / High の3段階として紹介した。実際のClaude APIはもう一段深い。現行モデル（Opus 4.8/4.7、Sonnet 5、Fable 5）では low / medium / high / xhigh / max の5段階が存在し、しかも「thinkingの予算」だった旧`budget_tokens`とは効かせ方そのものが違う。本稿ではAPI仕様に基づいて、モデル別の対応状況・挙動の違い・実運用での設計指針を整理する。旧世代（Sonnet 4.5以前）の extended thinking は `thinking: {type: "enabled", budget_tokens: N}` という固定トークン予算の指定だった。「thinkingにいくら使うか」だけを制御する、いわば一次元のノブだ。 Opus 4.6以降ではこれが非推奨化

papoo.work

Claudeの「超過課金」は自動発生しない——note記事の補足と2026年6月の仕様変更

先日、[「Claudeは weekly limit や 5hours limit を突き破ったときのペナルティ料金が半端ない」](https://note.com/modern_ferret431/n/n821d3055d109) という記事が話題になった。Claude CodeやOpusでコードベース解析を回していると、10分足らずで従量課金が発生し得るという警告は実体験として貴重だが、エンジニアが実際に運用判断をする上で誤解しやすいポイントがいくつかある。本記事はその補足として、Anthropic公式ドキュメントに基づき仕組みを整理する。最大の誤解ポイントはここ。Claude Pro/Maxで週次・5時間の利用上限に達しても、Usage credits（超過課金）を明示的に有効化していない限り、追加料金は一切発生しない。上限に達した場合の既定動作は「リセットまで待つ」だけで、勝手にAPI従量課金へ切り替わることはない。有効化するには以下の手順が必要: `Settings > Usage` から Usage credits セクションで Enable をクリック

papoo.work

【2026年7月版】Outlookが「起動しない・クラッシュを繰り返す」最新事情 — 6月末の一斉クラッシュはビルド2605が原因、直し方はほぼ一択

「昨日まで普通に使えていたClassic Outlookが、右クリックした瞬間に落ちる」「起動してもすぐ強制終了し、次はセーフモードで開く」——2026年6月末から、この手の悲鳴がまた一気に増えた。半年前・1年前に書かれた「Outlookが起動しない完全解決ガイド」的な記事が今また読まれているのは、まさに今、Classic Outlookのクラッシュが立て続けに起きているからだ。本稿は、2026年前半に発生した複数のクラッシュ事案を発生時期・影響ビルド・原因・修正状況で整理し直し、「自分のケースはどれで、何をすれば直るか」を最短で切り分けられるようにしたものだ。結論から言うと、直近の主犯は更新プログラムの回帰（リグレッション）で、多くは“Officeを最新へ更新するだけ”で直る。設定を9個いじる前に、まずここを見たほうが早い。 > ⚠️ 先に結論: 2026年6月29日ごろから急にClassic Outlookが落ち始めたなら、疑うべきは自分の設定ではなく **Microsoft 365 Apps バージョン2605（Build 20026.20182

papoo.work

【2026年7月版】Outlookの「送信済みメールが消える」が再燃 — 犯人はWindows更新プログラム KB5074109 の可能性

「送信は成功したのに、送信済みアイテムに残っていない」——Outlookの定番トラブルが、2026年に入ってから再び相談件数を増やしている。半年前(2026年1月)に出回った解説記事の手順は今でも基本として有効だが、2026年に急増した“送信済みが消える”の主犯は、従来の設定ミスではなく Windows のセキュリティ更新プログラムそのものであることが分かってきた。本稿はその現況を、切り分け順に整理し直したものだ。 > ⚠️ 先に結論: 1月中旬以降にClassic Outlook(デスクトップ版)で急に「送信済みに入らない」「Outlookが固まる」が始まったなら、まず疑うべきは自分の設定ではなく 更新プログラム KB5074109 と PSTファイルの置き場所(OneDrive配下かどうか) だ。設定を10個いじる前に、ここを先に見たほうが早い。 --- 2026年1月のWindowsセキュリティ更新 KB5074109 導入後、**Classic Outlookで送信メールが「送信済みアイテム」に記録されない／Outlookが終了しない・フ

papoo.work

【続報】サナエトークン、ついに「当事者2人の法廷闘争」へ――三崎優太氏が溝口勇児氏に内容証明、いまどこまで進んだか

前回まで、私たちはサナエトークン騒動を「補償」「金融庁」「高市首相の否定」という3つの軸で追ってきた。補償は6月10日に申請サイトが開き、金融庁の損失相談は6月時点で5件、首相は国会で改めて全面否定――というのが直近の現在地だった。ところが騒動はここへ来て、まったく別の局面に入っている。行政・補償の話から、当事者どうしの個人間紛争、それも法廷闘争へと重心が移ったのだ。本稿はその続報である。 https://papoo.work/doc/7de9f0cf1b564dc9 実業家の三崎優太氏（元「青汁王子」）が、実業家の溝口勇児氏に内容証明を送付したと明かし、「きっと裁判になる」と法廷闘争を予告した。三崎氏は溝口氏とみられる人物の会議音声を公開し、「責任を他人になすりつけている（＝トカゲの尻尾切り）」と批判。溝口氏は「編集で切り取っている」「補償対応はやっている」と反論した。 6月26日、三崎氏は両者が共同運営していたYouTube番組「REAL VALUE」からの脱退を表明。ただし本稿執筆時点（7月7日）で、**正式な「提訴」の公

papoo.work