世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

エージェントの長い会話ログ、ちゃんと圧縮しよう：Prompt Compressionでコストを下げる話

記事のキーポイント

agentic AI loop（AIが何度も考えて行動する流れ）は、同じ情報を毎回送り直すせいでコストが膨らみやすい
その膨らみ方は、ざっくり言うと線形ではなく quadratic（2乗的）になりやすいのが厄介
そこで効くのが prompt compression（プロンプト圧縮）
代表的な方法は以下の4つ
- instruction distillation：長い指示文を短い暗号っぽい指示にする
- recursive summarization：途中経過を定期的に要約する
- vector database retrieval：過去ログ全部ではなく、必要な部分だけ取り出す
- LLMLingua：不要なトークンを削る専用の仕組み
記事では、要約 + instruction distillation を組み合わせたPython例が紹介されている
目的は単なる節約ではなく、遅延の削減にもある。これ、地味だけどかなり重要だと思う

そもそも何の話？：AIエージェントは便利だけど高い

この記事のテーマは、Prompt Compression to Reduce Agentic Loop Costs です。
日本語にすると、「AIエージェントのループ処理でかかるコストを、プロンプト圧縮で減らそう」という話。

ここでいう agentic loop は、AIが

状況を確認し、
行動し、
結果を見て、
次の行動を考える

という流れを何度も繰り返す仕組みのことです。
LangGraph や AutoGPT みたいなフレームワークがまさにこのタイプですね。

便利なんですが、ここに落とし穴があります。
AIは次の判断をするために、過去に何をしたか を毎回ある程度持ち越します。すると、ループが長くなるほど、プロンプトに入れる情報がどんどん増えていく。

つまり、毎回「前回までの会話ログ」を引きずるわけです。
これ、人間でいえば「会議のたびに議事録全部を毎回読み直す」みたいなもの。そりゃ重いし、遅いし、金もかかるよね、という話です。

どうしてコストが爆発するのか

記事では、こんなイメージで説明されています。

Step 1: 500 tokens
Step 2: 前回分 + 新情報で 1,000 tokens
Step 3: 1,500 tokens
……
Step 20: もっと膨らむ

見た目には「少しずつ増えているだけ」に見えます。
でも、各ステップで送る総量の累積 を考えると、話は別です。

毎回、似たような情報を繰り返し送るので、合計コストは quadratic（2乗的）に増えやすい。
ここがかなり大事なポイントで、地味だけど効きます。私はこの手の問題、最初は「まあ少し増えるだけでしょ」と見くびりがちなんですが、長いループになると本当に効いてくるんですよね。

しかもコストはお金だけじゃありません。
latency（応答の遅さ） も悪化します。長いプロンプトは処理に時間がかかるので、ユーザー体験まで落ちる。
「30秒待たされるAI」って、便利さをかなり削ります。これはかなり現実的な問題です。

prompt compression って何？

prompt compression は、ざっくり言うと
「AIに送る情報を、必要な意味を保ったまま短くすること」
です。

記事では、たとえば 500K token の巨大な文脈を 32K token の圧縮ウィンドウに落とす、みたいなイメージが示されています。
もちろんこれは理想論も含んだ例ですが、要は

冗長な文章
繰り返しのJSON構造
低価値な雑談
stop words（意味が薄い接続語など）

を削って、本当に必要な情報だけを残す わけです。

この発想、めちゃくちゃ実務的です。
AIを賢くするというより、AIに渡す荷物を軽くする。派手さはないけど、現場ではこういう地道な工夫が効くんですよね。

記事で紹介されている主な手法

1. instruction distillation

これは、長い system prompt（AIの基本ルール）を、短い記号的な表現に圧縮する方法です。

たとえば、普通ならこう書くところを：

You are a helpful research assistant. Your goal is to find information about X. Please provide your output in a valid JSON format and do not include any conversational filler.

これを短くして：

Act: ResearchBot. Task: Find X. Output: JSON. No fluff.

みたいにする。

ここで重要なのは、人間が読むための自然文を、モデルが理解できる短い shorthand に置き換えることです。
モデルが「この短い指示でも同じ意味だ」と分かるように設計するわけですね。

正直、これはかなり面白いです。
人間には少し雑に見えるのに、AIにはむしろ効率的。まるで“社内用の暗号メモ”みたいで、ちょっと好きな発想です。

2. recursive summarization

これは、一定ステップごとに、それまでの履歴を要約する方法です。

たとえば、小さめで安価なモデル（記事では gpt-4o-mini や Llama 3 のようなモデル例が出ています）に、過去のやり取りをまとめさせる。
すると、長い履歴をそのまま持ち続けなくても、「今どこまで進んでいるか」だけを短く保持できます。

ポイントは、要約を一度きりではなく、ループの途中で何度も更新していくこと。
だから recursive（再帰的）要約です。

これ、実際かなり実用的だと思います。
会話履歴や調査ログが長くなるAIでは、「全部覚えておく」より「要点だけ覚える」ほうが、むしろ安定することが多いです。

3. vector database retrieval

これは、過去の履歴を全部送る代わりに、ベクトルデータベースに保存しておき、必要なものだけ検索して取り出す方法です。

ベクトルデータベースは、文章の意味を数値化して保存・検索できる仕組みです。
代表例として、記事では FAISS や Chroma のようなローカルで使えるものが挙げられています。

要するに、

すべてを毎回渡すのではなく
今の質問に関係ある過去ログだけを拾う

という設計です。

これはRAG（Retrieval-Augmented Generation）と相性がいいです。
「過去を全部持ち運ぶ」のではなく、「必要な記憶だけ呼び出す」。人間っぽくていいですよね。

4. LLMLingua

LLMLingua は、プロンプトの中から重要でないトークンを削ることに特化した open-source のフレームワークです。

トークンというのは、AIが文章を細かく分割して数える単位のこと。
人間の「単語」と完全一致するわけではないですが、ざっくり「AIの文字数みたいなもの」と思ってよいです。

LLMLingua の発想はかなりストレートで、
「この単語、なくても意味通じるよね？」
を機械的に削っていく感じです。

こういう発想は地味ですが、実装次第ではかなり効くはずです。
特に高価なモデルに投げる前の前処理として、筋がいいと思います。

実装例：要約と distillation を組み合わせる

記事では、Python の簡単な例が紹介されています。
内容は、履歴をためていき、最後に要約して圧縮した場合の token 数を比較するというものです。

ざっくりした流れはこうです。

tiktoken で token 数を数える
長めの system prompt を、短い distilled prompt にする
エージェントの行動履歴を step ごとに追加する
圧縮前の全文脈で token 数を確認する
最後に履歴を要約して、圧縮後の token 数を確認する

出力例では、次のようになっています。

Loop 1 | Full Context Tokens: 37
Loop 2 | Full Context Tokens: 55
Loop 3 | Full Context Tokens: 73
Loop 4 | Full Context Tokens: 91
Loop 5 | Full Context Tokens: 109
Final Uncompressed Tokens: 109
Final Compressed Tokens: 36

かなり削れています。
もちろんこれは簡略化されたサンプルですが、「積み上がったログをそのまま持つより、まとめて圧縮した方がかなり軽い」 ことが直感的に分かります。

こういう数字を見ると、理屈が一気に現実味を帯びますね。
「概念としては分かる」から「実際に減るんだ」に変わる瞬間です。

この話の本質は「賢さ」より「運用」

この記事を読んで強く思ったのは、prompt compression は単なる小技ではなく、AIエージェントを運用するための必須テクニックになりつつあるということです。

AIを使ったシステムは、つい「もっと長い文脈を持てば解決する」と考えがちです。
でも実際には、文脈を増やせば増やすほど、

コストが増える
応答が遅くなる
ノイズが混ざる
エージェントが迷いやすくなる

という問題が出ます。

なので、重要なのは「全部覚えさせること」ではなく、
何を残し、何を捨てるかを設計すること だと思います。

これはAIに限らず、情報設計全般に通じる話ですよね。
必要なものだけ残す。言うのは簡単ですが、実装するのは難しい。でも、だからこそ価値がある。

個人的な感想

個人的には、このテーマはかなり実務寄りで好きです。
派手な新モデル紹介ではなく、「実際に動かしたときの請求額と遅延をどうするか」 に踏み込んでいるからです。

特に agentic loop の文脈では、AIは賢ければ勝ちではありません。
安く、速く、壊れにくく動くこと が大事です。
その意味で prompt compression は、かなり地味だけど本質的な改善だと思います。

一方で、圧縮しすぎると必要な情報まで削ってしまうリスクもあります。
なので、ここは魔法ではなくて、「どこまで削っても大丈夫か」を見極める設計問題 なんですよね。
たぶん本番では、要約の品質評価や、検索の精度、タスク成功率とのバランス取りが重要になるはずです。

まとめ

agentic loop では、過去ログを毎回持ち回るせいでコストが膨らみやすい
成長は単純な足し算ではなく、累積すると quadratic に効いてくる
prompt compression は、その無駄を減らす実戦的な方法
特に有効なのは、instruction distillation と recursive summarization
vector database retrieval や LLMLingua も有力な選択肢
「長文脈を持たせる」より、「必要な意味だけ残す」ほうが、現場では強いことが多い

参考: Implementing Prompt Compression to Reduce Agentic Loop Costs - MachineLearningMastery.com

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ