世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-06-01

RAGはお金を食いがち？コスト制御レイヤーでLLM費用を85%削減する話

記事のキーポイント

RAGは「答えの質」を上げる仕組みだが、「コスト最適化」は基本的に考えられていない
その結果、同じ質問を何度も高価なLLMに投げる、不要な文脈を大量に詰め込む、簡単な質問まで高級モデルに回すといったムダが起きやすい
著者はこれに対して、semantic cache / query router / token budget / circuit breaker を組み合わせたコスト制御レイヤーを作成
ローカル環境の検証では、条件付きでLLMコストを最大85.8%削減できたと報告している
ただし数字は実API課金ではなく、記事内の前提価格からの計算結果である点は重要

そもそも何の話？

この記事は、RAG（Retrieval-Augmented Generation）を使ったシステムの「見えにくい出費」に切り込んだものです。

RAGは、ざっくり言うと
「質問に答える前に、関連しそうな資料を検索して、その内容をLLMに渡す仕組み」
です。ChatGPTみたいなLLM単体よりも、社内文書やFAQ、製品マニュアルに強くなるので、実務ではかなり便利です。

ただし著者が言うのは、RAGは**“答えの質”には強いけど、“請求額”には無頓着**だということ。
これはかなり納得感があります。実際、開発中は「ちゃんと答えた」「速度も許容範囲」で満足しがちなんですよね。けれど運用が始まると、トークン代がじわじわ効いてくる。ここは本当に怖いところだと思います。

この記事が指摘する「RAGの3つのムダ」

著者は、標準的なRAG実装にありがちなコストの穴を3つに整理しています。

1. 文脈を取りすぎる

多くの実装は、とりあえず top-10 のチャンク（文書の断片）を取ってきます。
でも実際には、2〜3個あれば十分なことが多い。残りはノイズです。

つまり、
「念のため入れた余計な文章」にもトークン代を払っている
わけです。

記事内の試算では、1回あたり500トークン、うち7チャンクが不要だとすると、

不要トークン: 約350
10,000 req/day だと: 350万トークン/日
1日あたり: $52.50 のムダ
月間: $1,575 のムダ

これはかなり生々しい数字です。
個人的には、この「念のため」が積み上がる世界って、クラウド費用あるあるの典型だなと思います。

2. キャッシュがない

同じ質問を2回されたら、本来は前回の結果を再利用したいですよね。
でも素のRAGパイプラインだと、毎回いちから埋め込みを作って、検索して、LLMを呼ぶことになります。

著者はこれを「semantic memory がない」と表現しています。
要するに、**“意味が同じ質問”を同じ質問として扱えていない**のです。

3. どんな質問も同じ高級モデルへ回す

これはかなりもったいないです。
「LLMって何の略？」みたいな質問に、最上位クラスの高価なモデルを使う必要はまずありません。

著者は、

簡単な事実確認
標準的な検索回答
複雑な推論

を同じルートで処理するのは無駄だと主張します。
そして、モデル価格の差がかなり大きい前提では、ルーティングしないだけで大きなコスト差が出る、と述べています。

著者が作った「コスト制御レイヤー」とは

この記事の中心はここです。
著者はRAGの上に、コストを意識して振る舞いを変える4層の仕組みを重ねました。

Semantic Cache
Query Router
Token Budget
Circuit Breaker

この発想が面白いのは、RAGを「1本の処理」と見ずに、どこでお金が漏れるかを段ごとに監視する形にしていることです。
かなり実務っぽい、地に足のついた設計だと思います。

1. Semantic Cache: もう答えた質問にはもう課金しない

これは一番わかりやすいです。

何をするの？

過去の質問と回答を保存しておき、意味が近い質問が来たら、LLMを呼ばずにキャッシュから返します。

ここでのポイントは、単なる完全一致ではなく、semantic similarity（意味の近さ）で判定していること。
たとえば「RAGって何？」と「RAGとは？」は、文字列は違っても意味はほぼ同じですよね。そういうケースを拾います。

実装の特徴

著者の実装は pure Python で、外部依存をなるべく減らした設計です。
埋め込みには TF-IDF を使っています。
TF-IDFは、ざっくり言うと「その単語がその文書にどれだけ特徴的か」を数値化する方法です。最近の文脈では少し古典的ですが、シンプルで扱いやすいのが利点です。

閾値が大事

キャッシュにヒットしたとみなすには、類似度のしきい値を超える必要があります。

低くすると: キャッシュヒットは増えるが、誤答リスクも増える
高くすると: 安全だが、ヒットしにくくなる

著者は、TF-IDFベースでは 0.75 をデフォルトにしているそうです。
一方で、より高品質な埋め込みモデルでは 0.92〜0.95 くらいになることが多いと説明しています。

ここは地味だけど重要です。
キャッシュは「入れれば勝ち」ではなく、雑にやると危ない。
個人的には、コスト削減の機能ほど、誤答リスクとの綱引きがキツいと思います。

ベンチマーク結果

記事では、200クエリの検証で以下のような結果が出ています。

hit rate: 98.5%
hit latency: 約 4ms
miss latency: 約 4〜5ms
キャッシュで節約したコスト: $0.788

ただしこの高い hit rate は、事前に40%のクエリをキャッシュへ入れてある「ウォームキャッシュ」前提です。
つまり、最初から何でも98.5%当たるわけではありません。
ここは誤解しない方がいいポイントですね。

2. Query Router: 簡単な質問は安いモデルへ

次はモデルの使い分けです。

何をするの？

質問の難しさを見て、

簡単な質問 → 安いモデル
難しい質問 → 高性能モデル

に振り分けます。

これ、当たり前に見えるんですが、実際の現場では意外とできていないことが多いと思います。
「とりあえず最高性能のモデルで統一」は運用が楽ですが、財布には優しくないです。

難しさの判定方法

著者は3つのシグナルを組み合わせています。

Length score: 質問の長さ
Entity density: 固有名詞・数字・記号などの密度
Question type: 「何」「なぜ」「どうやって」などの問いのタイプ

これらを重み付きで足して、スコア化しています。
要するに、短くて単純な質問は軽く、長くて固有名詞だらけの質問は重いとみなすわけです。

ベンチマーク

記事によると、ベンチマークでは

約81%のリクエストを低コストモデルへ回せた

とのこと。
これはかなり強いです。
実際、FAQっぽい問い合わせが多いシステムなら、かなりの割合で安いモデルに逃がせるはずです。

3. Token Budget: 使っていいトークン数に上限をつける

これは「使いすぎ防止」の仕組みです。

何のため？

RAGでは、検索で取ってきた文脈が増えすぎると、そのままLLM入力が膨らみます。
すると、費用も増えるし、場合によっては回答品質も落ちます。
なぜなら、長すぎるコンテキストはノイズも増えるからです。

どう動く？

各リクエストに対して、使ってよいトークン量の予算を決めておき、
その範囲内でだけ文脈を詰めるようにします。

もし予算オーバーしそうなら、

使うチャンクを減らす
要約する
もっと軽い処理に切り替える

といった制御を入れます。

これは単純ですが、かなり実用的です。
「よくわからないけど、全部盛り」で逃げないためのブレーキですね。

4. Circuit Breaker: 高くつく異常時は止める

Circuit breaker は、システムが暴走しそうなときに止める安全装置です。
たとえば、キャッシュミスが急増したり、予算を超えそうになったりしたときに働きます。

何がうれしい？

これがないと、異常時に
“高い処理を延々と回し続ける”
ことになります。
クラウド費用の事故って、だいたいこういう形で起きます。怖い。

Circuit breaker は、品質よりも先にコストが壊れる状況を防ぐためのもの、と考えるとわかりやすいです。

結果：10,000 req/day で最大85.8%削減

著者は、前提条件に基づく試算として、以下のようなコスト比較を示しています。

100 req/day: $1.20 → $0.18（84.6%削減）
1,000 req/day: $12.00 → $1.71（85.7%削減）
10,000 req/day: $120.00 → $17.00（85.8%削減）

月額換算では、10,000 req/day の場合

Naive: $3,600
Optimized: $510
差分: $3,090/月

これはかなりインパクトがあります。
もちろん、あくまで記事内の前提価格・ローカルベンチマークに基づく数字ですが、それでも「RAGは品質だけ見ていると普通に金食い虫になる」という主張はかなり説得力があります。

この話の本質

この記事の面白いところは、単なる「安くするテクニック集」ではないことです。

本質は、
RAGを“回答生成の仕組み”としてだけでなく、“運用コストを管理するシステム”として見るべき
という視点にあります。

これは重要だと思います。
なぜなら、プロトタイプ段階では見えない問題が、本番では一気に効いてくるからです。

同じ質問が何度も来る
簡単な質問が大量に来る
文脈を多く入れすぎる
高性能モデルに全部投げる

この4つは、どれも「正しく動いているのに高い」という厄介な問題を生みます。
RAGは賢いけれど、何も考えずに使うと財布には全然賢くない。
この一文が、この記事の核心ではないかと思います。

個人的な感想

個人的には、この記事はかなり実務寄りで好きです。
派手なAIデモではなく、**“ちゃんと使うときに何が痛いのか”** を真正面から扱っているからです。

特に良いのは、

キャッシュ
ルーティング
予算管理
異常時停止

を一つの設計としてまとめている点です。
どれか1個だけでも効果はありますが、組み合わせると「コストに対して反応するシステム」になる。ここが強い。

一方で、もちろん万能ではありません。
実運用では、

ドメインが変わる
質問の分布が変わる
回答品質の基準が厳しくなる
キャッシュの鮮度が問題になる

など、現場ごとの調整が必要です。
なので、この記事の数字をそのまま自分のシステムに当てはめるのは危険だと思います。
でも、**“RAGの費用は後から効いてくる”** という警鐘としては、とても価値があります。

まとめ

この論文的な記事が教えてくれるのは、RAGは「作る」より「運用する」段階で本当の難しさが出る、ということです。

答えが正しいだけでは足りない。
安く、速く、無駄なく回せて初めて、現実のシステムになる。
その意味でこの記事は、RAGを使っている人ほど刺さる内容だと思います。

参考: RAG Is Burning Money — I Built a Cost Control Layer to Fix It

同じ著者の記事

【2026年7月版】Teamsの通知トラブル、実は「消えない」「減った」の2系統に分かれている

「Teamsで通知が届かない・音が鳴らない」というガイドは2025年3月ごろから定番のネタとして各所で書かれてきた。1年以上経った今もう一度読み直してみると、当時のチェックリストは今でも土台としては有効だが、2026年に入ってから起きている不具合は、当時想定されていなかった種類のものだとわかる。代表格が2つある。ひとつは4月中旬から報告が相次いだ「通知がデスクトップに張り付いたまま消えない」不具合。もうひとつは、Plannerのタスクチャット刷新に伴って意図的に仕様変更された「コメント通知が来なくなった」現象だ。前者はバグ、後者は仕様変更——原因が真逆なのに、ユーザー側からはどちらも「通知がおかしい」としか見えない。本稿ではこの2つを軸に、旧来のチェックリストをどう位置づけ直せばいいかを整理する。 --- 症状が「来ない」のか「消えない」のか「減った」のかで、疑うべき場所が変わる。 | 症状 | まず疑うもの | 対処 | |---|---|---| | バナーも音も一切来ない | 3層構造（後述）のどこかでオフになっている | 下記「3層」を上から順に確認

papoo.work

口座から引き落とされる「ゆうちょリヨウキヨク」とは？

ゆうちょ銀行の通帳やアプリを久しぶりに記帳したら、身に覚えのない「ゆうちょリヨウキヨク20595」のような行を見つけて青ざめた——という報告はSNSでも定期的に見かける。結論から言うと、これは不正利用の証拠ではなく、ゆうちょ銀行のATMネットワークが取引記録に付与する局番号入りの取扱店識別子だ。中身は難しくない。エンジニア視点で見ると、レガシーな勘定系システムが抱えがちな「表示制約」の実例として面白い。まず引っかかるのが、コンビニで下ろしたはずなのに「ゆうちょ」と印字される点だ。ファミリーマートに設置されている緑色のATMは、実はファミリーマート自前の機械ではなく、ゆうちょ銀行が設置・運用しているATMである。つまりコンビニのATMを使っても、勘定系から見れば「ゆうちょのATMを使った」という扱いになり、通帳には郵便局の窓口やATMで取引したときと同じフォーマットで記録が残る。ローソンやミニストップなど他チェーンでも同様の提携パターンがあり、見た目のブランドと処理系統が一致しないケースは珍しくない。「リヨウキヨク」の後ろに続く5桁の数字は、取引が行われた取扱局（支店・ATM

papoo.work

ChatGPTの「Something went wrong」、本当の原因はエラーメッセージの外側にある

「Something went wrong」——ChatGPTを使っていれば誰でも一度は見る、あの素っ気ない一文だ。以前このテーマを書いたときは原因と対処法を並べる形にしたが、半年ほど経って改めて見直すと、あの一文自体がほとんど何も語っていないことに気づく。フロントエンドが「予期しないエラーを捕捉した」ときの汎用キャッチ文であって、実際に起きていることは毎回まったく別物だ。今回は原因の切り分け方から書き直す。 ChatGPTのWeb UIはReactで組まれたSPAで、APIとのやり取りはストリーミング(Server-Sent Events)で行われる。サーバー側で429(レート超過)が返ろうが524(オリジンタイムアウト)が返ろうが、ストリームが途中で切れようが、フロントエンドの例外ハンドラは大半のケースをひとまとめにして「Something went wrong」に丸め込む。つまりこのメッセージは診断名ではなく、診断を放棄した結果の表示だ。原因を絞り込みたいなら、まずブラウザの開発者ツール(F12)でNetworkタブを開き、`conversation`宛のリクエストが何を返して

papoo.work

ChatGPTで「Something went wrong」が出る理由【2026年7月版：障害ポストモーテムとステータスページの読み方まで】

「Something went wrong. If this issue persists please contact us through our help center at help.openai.com.」——ChatGPT利用者なら一度は見たことがあるであろう定番のエラーだ。半年前に書かれた解説記事は「サーバー混雑」「セッション切れ」「ブラウザ拡張機能」といった原因を並べていたが、2026年7月時点ではその前提だけでは足りない。理由は3つある。(1) 2026年2月の大規模障害についてOpenAI自身が技術的な根本原因をポストモーテムで公開した、(2) わずか1週間前の7月14〜15日にも同系統の障害が再発した、(3) モデル・プラン・機能面が半年で別物になった（GPT-4→GPT-5.6、Free/Plus二択→Go追加、Library・Notes・音声モードの新設）ことで、エラーの出方と切り分け方自体が変わった。本稿はエンジニア向けに、表面的な対処法だけでなく「なぜ起きるか」の技術的背景まで掘り下げる。 > ⚠️ 注記: ChatGPTは

papoo.work

Excelのフォントが変わる原因を、.xlsxを解凍して確かめてみた

「テーマフォントが原因」というところまでは、探せば辿り着ける。だが実際にファイルの中で何が参照し合っているのかを見た人は少ない。.xlsxはただのZIPなので、覗くのに5分もかからない。手元の適当なブックで試すなら、拡張子を`.zip`に変えるか`unzip`コマンドを叩くだけでいい。 ``` $ unzip -l sample.xlsx Length Date Time Name --------- ---------- ----- ---- 1234 2026-07-01 09:00 xl/theme/theme1.xml 5678 2026-07-01 09:00 xl/styles.xml ... 2345 2026-07-01 09:00 xl/worksheets/sheet1.xml ``` 犯人は`xl/theme/theme1.xml`にいる。中を`cat`すると、こんな塊が出てくる。 ```xml <a:fontScheme name="Office"> <a:majorFont> <a:latin typeface="

papoo.work

Claude の Effort、実は3段階じゃない——xhigh/maxまで含めた5段階の使い分けとAPI仕様を深掘りする

以前の記事「[Claude の effort ってどう効くの？](https://note.com/modern_ferret431/n/nc8e88b771ab0)」では、Effortパラメータを Low / Medium / High の3段階として紹介した。実際のClaude APIはもう一段深い。現行モデル（Opus 4.8/4.7、Sonnet 5、Fable 5）では low / medium / high / xhigh / max の5段階が存在し、しかも「thinkingの予算」だった旧`budget_tokens`とは効かせ方そのものが違う。本稿ではAPI仕様に基づいて、モデル別の対応状況・挙動の違い・実運用での設計指針を整理する。旧世代（Sonnet 4.5以前）の extended thinking は `thinking: {type: "enabled", budget_tokens: N}` という固定トークン予算の指定だった。「thinkingにいくら使うか」だけを制御する、いわば一次元のノブだ。 Opus 4.6以降ではこれが非推奨化

papoo.work

Claudeの「超過課金」は自動発生しない——note記事の補足と2026年6月の仕様変更

先日、[「Claudeは weekly limit や 5hours limit を突き破ったときのペナルティ料金が半端ない」](https://note.com/modern_ferret431/n/n821d3055d109) という記事が話題になった。Claude CodeやOpusでコードベース解析を回していると、10分足らずで従量課金が発生し得るという警告は実体験として貴重だが、エンジニアが実際に運用判断をする上で誤解しやすいポイントがいくつかある。本記事はその補足として、Anthropic公式ドキュメントに基づき仕組みを整理する。最大の誤解ポイントはここ。Claude Pro/Maxで週次・5時間の利用上限に達しても、Usage credits（超過課金）を明示的に有効化していない限り、追加料金は一切発生しない。上限に達した場合の既定動作は「リセットまで待つ」だけで、勝手にAPI従量課金へ切り替わることはない。有効化するには以下の手順が必要: `Settings > Usage` から Usage credits セクションで Enable をクリック

papoo.work

【2026年7月版】Outlookが「起動しない・クラッシュを繰り返す」最新事情 — 6月末の一斉クラッシュはビルド2605が原因、直し方はほぼ一択

「昨日まで普通に使えていたClassic Outlookが、右クリックした瞬間に落ちる」「起動してもすぐ強制終了し、次はセーフモードで開く」——2026年6月末から、この手の悲鳴がまた一気に増えた。半年前・1年前に書かれた「Outlookが起動しない完全解決ガイド」的な記事が今また読まれているのは、まさに今、Classic Outlookのクラッシュが立て続けに起きているからだ。本稿は、2026年前半に発生した複数のクラッシュ事案を発生時期・影響ビルド・原因・修正状況で整理し直し、「自分のケースはどれで、何をすれば直るか」を最短で切り分けられるようにしたものだ。結論から言うと、直近の主犯は更新プログラムの回帰（リグレッション）で、多くは“Officeを最新へ更新するだけ”で直る。設定を9個いじる前に、まずここを見たほうが早い。 > ⚠️ 先に結論: 2026年6月29日ごろから急にClassic Outlookが落ち始めたなら、疑うべきは自分の設定ではなく **Microsoft 365 Apps バージョン2605（Build 20026.20182

papoo.work

【2026年7月版】Outlookの「送信済みメールが消える」が再燃 — 犯人はWindows更新プログラム KB5074109 の可能性

「送信は成功したのに、送信済みアイテムに残っていない」——Outlookの定番トラブルが、2026年に入ってから再び相談件数を増やしている。半年前(2026年1月)に出回った解説記事の手順は今でも基本として有効だが、2026年に急増した“送信済みが消える”の主犯は、従来の設定ミスではなく Windows のセキュリティ更新プログラムそのものであることが分かってきた。本稿はその現況を、切り分け順に整理し直したものだ。 > ⚠️ 先に結論: 1月中旬以降にClassic Outlook(デスクトップ版)で急に「送信済みに入らない」「Outlookが固まる」が始まったなら、まず疑うべきは自分の設定ではなく 更新プログラム KB5074109 と PSTファイルの置き場所(OneDrive配下かどうか) だ。設定を10個いじる前に、ここを先に見たほうが早い。 --- 2026年1月のWindowsセキュリティ更新 KB5074109 導入後、**Classic Outlookで送信メールが「送信済みアイテム」に記録されない／Outlookが終了しない・フ

papoo.work

【続報】サナエトークン、ついに「当事者2人の法廷闘争」へ――三崎優太氏が溝口勇児氏に内容証明、いまどこまで進んだか

前回まで、私たちはサナエトークン騒動を「補償」「金融庁」「高市首相の否定」という3つの軸で追ってきた。補償は6月10日に申請サイトが開き、金融庁の損失相談は6月時点で5件、首相は国会で改めて全面否定――というのが直近の現在地だった。ところが騒動はここへ来て、まったく別の局面に入っている。行政・補償の話から、当事者どうしの個人間紛争、それも法廷闘争へと重心が移ったのだ。本稿はその続報である。 https://papoo.work/doc/7de9f0cf1b564dc9 実業家の三崎優太氏（元「青汁王子」）が、実業家の溝口勇児氏に内容証明を送付したと明かし、「きっと裁判になる」と法廷闘争を予告した。三崎氏は溝口氏とみられる人物の会議音声を公開し、「責任を他人になすりつけている（＝トカゲの尻尾切り）」と批判。溝口氏は「編集で切り取っている」「補償対応はやっている」と反論した。 6月26日、三崎氏は両者が共同運営していたYouTube番組「REAL VALUE」からの脱退を表明。ただし本稿執筆時点（7月7日）で、**正式な「提訴」の公

papoo.work

RAGはお金を食いがち？ コスト制御レイヤーでLLM費用を85%削減する話

記事のキーポイント

そもそも何の話？

この記事が指摘する「RAGの3つのムダ」

1. 文脈を取りすぎる

2. キャッシュがない

3. どんな質問も同じ高級モデルへ回す

著者が作った「コスト制御レイヤー」とは

1. Semantic Cache: もう答えた質問にはもう課金しない

何をするの？

実装の特徴

閾値が大事

ベンチマーク結果

2. Query Router: 簡単な質問は安いモデルへ

何をするの？

難しさの判定方法

ベンチマーク

3. Token Budget: 使っていいトークン数に上限をつける

何のため？

どう動く？

4. Circuit Breaker: 高くつく異常時は止める

何がうれしい？

結果：10,000 req/day で最大85.8%削減

この話の本質

個人的な感想

まとめ

RAGはお金を食いがち？コスト制御レイヤーでLLM費用を85%削減する話