Node.jsでLLMの返答をキャッシュして、AI利用料を減らす話
同じようなLLM呼び出しを毎回APIに投げると、当然そのぶん課金される 著者は `llm-cacher` というNode.js向けライブラリを作り、LLMレスポンスのキャッシュを試した ふつうの「完全一致キャッシュ」だけでなく、意味が近いプロンプトをまとめる semantic caching も扱う storageは `memory` / `file` / `SQLite` / `Redis` / `DynamoDB` などを選べる streaming response もキャッシュできるようにしているのが地味にすごい OpenAIやAnthropicのSDKを直接使いながら、フレームワークに寄りかからず導入できるのが売り この記事の出発点はとてもシンプルです。 「AIに同じような質問を何度もしていたら、請求額が思ったより高くなった」 という話。 これ、かなりあるあるだと思います。 開発中って、つい同じプロンプトを何回も投げますよね。文言は少し違っても、やっていることはほぼ同じ。しかもLLMは1回ごとに課金される。つまり、テストを重ねるほどお金が溶けるわけです。 著者は
papoo.work