AnthropicのPrompt CachingでAPI代を70%削減した話をやさしく解説する
AnthropicのPrompt Cachingは、「毎回同じ前半部分を再送しなくてよくする」仕組み いちばん効くのは system prompt のキャッシュ tool definitions も別でキャッシュすると、エージェント用途でかなり強い 長い会話では、conversation history のキャッシュが効いてくる バッチ処理や間隔の空く処理では、1-hour TTL が便利 キャッシュは「前からの連続した一致」が重要で、順番や内容が少しでも変わると壊れやすい 著者は、こうした設計でAPI料金を 70%削減 したと報告している この記事は、AnthropicのAPI、つまりClaudeを呼び出すときのPrompt Cachingで料金を大きく下げた、という体験談です。 ざっくり言うと、Prompt Cachingは「前回と同じ部分は、また全部送らなくてもいいようにする仕組み」です。 たとえば、毎回同じ長い説明文やルールを送り続けるのって、地味にムダですよね。そこで、変わらない部分をキャッシュしておくと、次回からはその
papoo.work