世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-18

本番AIエージェントをどう評価するか：100件超の導入から見えた12指標フレームワーク

キーポイント

AIエージェントの失敗原因は、モデルそのものより評価の弱さにあることが多い
本番で使うなら、Retrieval / Generation / Agent / Production の4カテゴリで見るのが重要
単純なAccuracyだけでは足りず、hallucination rate や faithfulness を測らないと危ない
手動チェックは少量なら有効だが、大量運用ではすぐ限界が来る
この記事のフレームワークは、「出してから直す」ではなく「出す前に壊れ方を見つける」発想が強い

この記事は何を言っているのか

Towards Data Scienceの記事は、本番運用するAIエージェントには専用の評価基盤（evaluation harness）が必要だ、というかなり実務寄りの話です。

ここでいうAIエージェントは、ただ文章を返すチャットボットではありません。
RAG（検索してから回答する仕組み）を使ったり、外部ツールを呼んだり、複数ステップでタスクを進めたりする、いわば**“仕事をするAI”**です。

この手のシステム、デモではそれっぽく動くのに、本番に入れた途端に崩れることがよくあります。
理由はわりと単純で、「正しい答えを出したか」だけでは足りないからです。検索は正しかったか、回答は根拠に忠実か、ツール選択は合っていたか、遅すぎないか、コストは許容範囲か——こういう項目をまとめて見ないと、本当の意味での品質はわからない。ここがこの文章の核心だと思います。

まず結論：評価は4つの視点で見る

記事では、12個の指標を次の4カテゴリに分けています。

Retrieval: ちゃんと必要な情報を取れているか
Generation: 取り出した情報をもとに、正しく答えられているか
Agent: ツール選択や複数ステップの振る舞いは妥当か
Production: 実運用で耐えられるコストと速度か

この切り分けがすごく実践的です。
個人的には、AIプロジェクトが失敗する理由って「モデル性能が足りない」よりも、評価の見方が雑すぎることのほうが多い印象があります。記事もまさにそこを突いています。

なぜ多くのチームは評価を後回しにするのか

記事では、評価を軽視する典型パターンを3つ挙げています。

1. 「MVPのあとで評価を足せばいい」

これ、めちゃくちゃありがちです。
でも本番投入後に評価基盤を足すと、すでにUIもAPIも連携も顧客もできていて、あとから計測を入れるのがかなり大変になります。

しかも、運用中のユーザーはテストデータみたいにお行儀よくない。
想定外の入力がどんどん来るので、あとから評価を始めても、すでに事故が起きたあとになりやすいわけです。

2. 「Accuracyが高ければ十分」

これも危険です。
ベンチマークで95%正解でも、実際のユーザー問い合わせでは全然違う種類の質問が来ます。RAG系システムは特に、テストでは強いのに本番で急に嘘をつくことがあります。

なので、Accuracyだけ見て安心するのはかなり危ない。
記事が重視している faithfulness（根拠に忠実か） や hallucination rate（でっち上げ率） は、まさにその弱点を埋めるための指標です。

3. 「手動チェックでなんとかなる」

少量ならいいですが、1日100件を超えるとつらい。
10,000件を人力で見るのはほぼ無理です。レビュー担当者が燃え尽きるか、そもそも全部は見られなくなるかのどちらかです。

だからこそ、自動評価は贅沢品ではなく必需品、というのが記事の主張です。私もかなり同意です。

12指標の中身をざっくり解説

ここからが本題です。
難しい言葉が並びますが、要するに「どこで壊れているかを分解して見る」という話です。

Retrievalメトリクス（4つ）

RAGや社内文書検索を使うなら、まずここが土台です。
検索がダメなら、そのあとにどれだけ賢いLLMをつないでも救えません。

1. Context Relevance

取ってきた文章が、質問にちゃんと関係あるかを見る指標です。

たとえば10個の文書を持ってきて、関係あるのが3個しかなければ、残りの7個はノイズです。
ノイズが多いと、LLMが余計な情報に引っ張られます。

記事では、LLM-as-judge、つまり別のLLMに採点してもらう方法を使っています。
平均0.85以上が目安。0.7を切るなら、かなり検索側に問題があると考えるべきです。

2. Context Recall

必要な情報を取りこぼしていないかを見る指標です。

これはかなり重要です。
検索結果に必要な情報が入っていなければ、LLMは「情報が足りません」とは言わず、足りないままそれっぽく答えてしまうことがあります。これが怖い。

目安は0.90以上。
0.80未満なら、かなりの確率で情報を取り逃しています。

3. Context Precision

上位にちゃんと重要な文書が来ているかを見る指標です。

RAGでは、検索した結果を全部入れるわけではなく、上位数件だけLLMに渡すことが多いです。
だから、7番目に重要文書がいても意味がありません。

記事では MRR（Mean Reciprocal Rank） を使うとしています。
ざっくり言うと、最初に当たりが出てくる順位がどれだけ上位かです。

4. Retrieval Latency

検索にどれだけ時間がかかるかです。

本番ではこれが地味に効きます。
検索が800msかかると、その時点でユーザーはもう待たされています。LLMの応答以前の問題です。

記事では p95 で200ms未満が目安。
p99 が500ms未満というのも、なかなか現実的でいいラインだと思います。

Generationメトリクス（3つ）

検索したあと、その材料を使ってどう答えるかを見る段階です。

5. Answer Faithfulness

回答が、検索結果に忠実かを見ます。

これが一番大事だと記事は強く言っています。
医療、金融、法務のような分野では、ここがズレるとそのままコンプライアンス事故になります。

方法としては、回答を細かい主張に分解して、それぞれが検索結果で裏付けられるかを見る。
個人的にはかなり筋がいいと思います。人間も「全体としてなんとなく合ってる」ではなく、主張単位で嘘を見つけるほうが本質的だからです。

6. Answer Relevance

質問にちゃんと答えているかです。

Faithfulnessと似ていますが、別物です。
根拠には忠実でも、そもそも聞かれたことに答えていなければ意味がありません。

これは案外見落とされます。
「正しいけどズレてる回答」って、現場ではかなり多いです。

7. Hallucination Rate

どれだけ事実を捏造したかです。

LLMの評価で避けて通れない指標ですね。
記事では2%未満を目安としていますが、用途によってはもっと厳しく見るべきだと思います。特に規制が絡む領域では、少しの幻覚でも重いです。

Agentメトリクス（3つ）

ここは「AIがツールを使って動く」部分の評価です。
普通のチャットボットより、エージェントならではの難しさがあります。

8. Tool Selection Accuracy

正しいツールを選べたかです。

たとえば「請求情報を調べるべきところで、FAQ検索ツールを呼ぶ」とか、そういうミスを測ります。
地味ですが、かなり重要です。エージェントは“賢い会話”より正しい行動が大事なので。

9. Tool Execution Success

ツール呼び出しがちゃんと成功したかです。

選択が正しくても、APIが落ちたら失敗です。
つまり、モデルの問題とシステムの問題を分けて見る必要があります。

10. Multi-Step Coherence

複数ステップの流れが破綻していないかです。

エージェントは「調べる → 判定する → 必要なら別ツールを使う」のように進みます。
この流れが途中でズレると、全体のタスクが壊れます。

ここは、いかにもエージェントらしい評価項目で面白いです。
単発の回答精度では見えない、**“仕事の進め方”の品質**を見ているからです。

Productionメトリクス（2つ）

最後は、実運用で本当に耐えられるかです。
正直、ここを忘れると全部台無しになります。

11. Cost per Query

1リクエストあたりいくらかかるかです。

LLMのトークン代だけでなく、インフラ費用も含めて見るべきだと記事は言っています。
これ、かなり現実的です。PoCでは気にならなくても、件数が増えると一気に効いてきます。

12. P99 Latency

遅いときでどれくらい時間がかかるかです。

平均値ではなく、P99を見るのが大事。
なぜなら、ユーザーが「遅い」と感じるのは平均ではなく、たまに起きる激遅ケースだからです。

私はここが一番“本番っぽい”と思いました。
AIの評価ってどうしても精度に目が行きがちですが、現場では「使える速度か」「高すぎないか」が最終的な採用可否を決めます。

このフレームワークの面白いところ

面白いのは、この記事が「LLMをどれだけ賢くするか」ではなく、壊れ方をどれだけ早く見つけるかに焦点を当てていることです。

AIエージェントの失敗って、派手な大事故よりも、

少しずつ検索精度が落ちる
ある特定の質問だけ hallucination が増える
ツール選択がズレる
返答は合っているのに遅い

みたいな、じわじわ効く不具合が多いんですよね。
だから、12指標みたいに分解して監視するのはかなり理にかなっています。

しかも記事は、各指標に対して「どの数値を目安にすべきか」まで出している。
この手の話は概念だけ語られがちですが、記事はかなり実務に寄っています。そこが良いです。

個人的な感想：AIエージェント時代は、評価設計が“本体”になる

私の率直な感想として、これからのAI開発ではモデル選びより評価設計のほうが重要になる場面が増えると思います。

なぜなら、モデルの性能差はどんどん縮まりつつある一方で、

何を正解とみなすか
どこで失敗を検知するか
どの閾値なら出荷してよいか

は、プロダクトごとに全然違うからです。

つまり、勝負どころは「どのLLMを使うか」だけではなく、どう測るか、どう守るかに移っている。
この記事は、その流れをかなりうまく言語化していると思いました。

こんな人に刺さる記事

RAGやAIエージェントを本番導入したい人
PoCは通るのに、本番で不安定になる悩みがある人
評価を「Accuracyだけ」で見てしまっている人
監査、コンプライアンス、品質保証を意識する必要がある人
AIエージェントの運用を、感覚ではなく数字で管理したい人

まとめ

この元記事は、AIエージェントの評価を「なんとなくの精度確認」から「本番運用のための計測システム」へ引き上げる内容です。

特に重要なのは、
Retrieval・Generation・Agent・Production の4つを分けて見ること。
この視点があるだけで、トラブルの原因をかなり絞り込めるようになります。

AIエージェントは、作ることより安心して出せることのほうが難しい。
この記事は、その現実にかなり正面から向き合った、実務的で価値の高い内容だと思います。

参考: Building an Evaluation Harness for Production AI Agents: A 12-Metric Framework From 100+ Deployments

同じ著者の記事

Excelの文字が勝手に変わる本当の理由 ―― テーマフォントとAptos騒動

「昨日まで普通だったのに、開いたら文字の形も行の高さも違う」。Excelでこれをやられると地味に腹が立つ。ネット上の解説は「値のみ貼り付けを使え」「条件付き書式を消せ」で止まっているものが多いが、それは症状の一部でしかない。原因の大半は、もっと下のレイヤーにある。フォント名がセルに直接書かれていないこと ―― つまりテーマフォントという仕組みだ。 Excelのフォント一覧を開くと、いちばん上に「テーマのフォント」という区切りがあって、`游ゴシック（本文）` `游ゴシック Light（見出し）` の2つが並んでいる。既定の状態では、あなたが打ち込んだセルはこの「本文のフォント」を参照している。具体的な書体名（游ゴシック）を持っているのではなく、「このブックのテーマが本文用に指定している書体、それが何であれ」という*ポインタ*を持っているだけだ。だから、テーマが変わればセルの見た目も一斉に変わる。ページレイアウトタブの「テーマ」や「フォント」を切り替える、別のテーマが設定されたブックにシートをコピーする、あるいはテーマ設定の異なる環境でファイルを開く ―― どれをやっても、一文字

papoo.work

Outlook「送信済みメールが見つからない」を2026年版で仕分ける — Classic / New Outlook / Exchange Online / OAuth / Recoverable Items

「送信は成功したのに、送信済みアイテムに残っていない」——Outlook 定番のトラブルだが、2026年の対処は1年前と大きく変わった。理由は3つ。(1) New Outlook for Windows が Classic Outlook を段階的に置き換え、`.ost` を持たない Web ベース実装に変わりつつあること。(2) Exchange Online の Basic Auth 廃止が長期化し、レガシー IMAP/POP クライアント側の「送信済み」問題が実運用に響いていること。(3) Copilot for Microsoft 365 のインデックス連携と Retention / Litigation Hold の干渉で、「消えた」ではなく「別階層に隔離された」パターンが増えたこと。本稿では2026年時点の原因を頻度・切り分け順に整理する。 > ⚠️ 前提: 「Outlook」といっても実体は Classic Outlook (Win32 / OL2016〜2024 / M365 Apps)、**New Outlook for

papoo.work

ChatGPTの会話履歴が消えた・表示されないを直す【2026年6月版】

「昨日まであった会話が、サイドバーから消えている」——ChatGPT 利用者の定番の不安だ。だが2026年の今は、1年前とは原因も設定画面もすっかり変わっている。最大の変化は、(1) かつての対処の定番だった 「Chat history & training（会話履歴とトレーニング）」トグルが廃止され、データ設定が再編されたこと。そして (2) 「アーカイブ」「一時チャット（Temporary Chat）」「プロジェクト」といった、履歴が“消えたように見える”新しい仕組みが増えたことだ。本稿では2026年時点で本当に効く見極めと対処を、頻度の高い順に整理する。 > ⚠️ 注記: ChatGPT は UI と設定項目の変更が速い。下記は本稿執筆時点（2026年6月）の挙動。「削除」した会話は UI・API・サポートのいずれからも復旧できないのは今も同じ。まずは「本当に削除したのか」を疑うこと。 --- 2026年は「消えた≠削除」が大半。まず アーカイブ / 一時チャット / 別アカウント の3つを疑う **昔の「会話履歴とトレーニング」ト

papoo.work

AIモデルの政治的な“傾き”を地図にしたTrakkrの実験がかなり面白い

AIに「この政策はどう思う？」とか「どの候補者に近い？」と聞くと、返ってくる答えに妙な一貫性を感じることがあります。Trakkrの「Political bias in AI」は、その“なんとなくの印象”を、かなりきっちり測ろうとしたページです。ざっくり言うと、主要なAIモデルに政治・経済・言論・社会に関する刺激の強い質問を何度も投げ、その答えの傾向を地図に落とし込んでいます。しかもWeb検索はオフ。つまり、ネット上の情報を拾った結果ではなく、そのモデル自身がどんな方向に寄りやすいかを見ているわけです。ここがまずおもしろい。 Trakkrは、主要AIモデルの政治的・社会的な“傾き”を可視化している 1回だけでなく、同じ質問を何度も繰り返し、答えのブレも含めて見ている Web検索はオフなので、「ネットがそう言っていた」ではなく「モデル自体がどう答えるか」を測っている 6モデルのうち、4つが左寄りに見えたただし、どのモデルも一枚岩ではなく、質問によってかなり揺れる自分で同じ質問に答えると、どのモデルに近いかも見られるこのページの芯はとてもシンプルです。 AIモデルに、政治や社会の難し

papoo.work

CUDA kernelを走らせると裏で何が起きているのか

「GPUで計算する」と聞くと、なんだか一瞬で魔法みたいに処理が終わる印象があります。でも元記事は、その裏側にある泥臭い手順を、かなり執念深く追いかけています。しかも題材は、たった1行のベクター加算。`a[i] + b[i]` を並列に足すだけの、いちばん地味なCUDAプログラムです。地味だからこそ面白い。GPUという巨大な装置が、どれだけの段取りを踏んでこの1行を実行しているのかが、くっきり見えてきます。 `nvcc` は1つのコンパイラではなく、複数のコンパイラをまとめて動かす“司令塔”です CUDAのコードは、まずPTXという中間表現になり、その後SASSというGPU実機向け命令に変わります `vadd<<<4096, 256>>>(...)` のような記法は、ホスト側で引数を詰める「stub」に置き換えられます GPUカーネルの引数は、constant bank 0 に載って読み出されます実行時には、CPU側のランタイム、`libcuda.so`、ドライバ、PCIe越しのGPUが連携して動きますただ“GPUに投げた”だけに見える処理の背後で、かなり多くの機械的な準備が走って

papoo.work

「安いAIモデル」が高級ブランドを揺さぶる

Open Weight Models は、モデルの中身を公開して配布するタイプのAIで、誰でも自分の環境に近い形で使いやすい。記事の筆者は、DeepSeek V4 の安さを見て、Anthropic や OpenAI の“フロンティアモデル”との価格差があまりに大きいと感じている。その差は、単に「少し高い」ではなく、トークン単価ベースでほぼ50倍にも見える、というのが衝撃点。さらに筆者は、高価格を維持するために「希少性」を演出する動きがあるのでは、と疑っている。将来の競争軸は、単なる Open Weight ではなく、学習データの流れまで公開する「True Open Source」へ移るのではないか、と見ている。 AllenAI の OLMo や、NSF と Nvidia の支援も、その流れの例として挙げられている。この記事で面白いのは、AIの性能そのものより「値段のつけ方」に真正面から噛みついているところです。ふつうAIの話は「賢い」「速い」「便利」で終わりがちですが、ここではかなり露骨に「その高額料金、本当に必要？」と問いかけています。私はここがかなり重要だと思います。A

papoo.work

黒箱LLMから小型モデルへ知識をどう渡すか、Proxy-KDという発想が面白い

大規模言語モデルの世界は、ここ数年ずっと「でかいモデルが強い」の一強でした。GPT-4のような商用LLMは性能が抜群ですが、中身は見えません。APIの向こう側にいて、内部状態や学習の細部には触れられない。研究する側からすると、これはかなりもどかしい。この論文 `Knowledge Distillation of Black-Box Large Language Models` は、その厄介な壁をどう越えるかを真正面から扱っています。しかもアイデアがわりと気持ちいい。黒箱LLMの出力を、そのまま小型モデルに押し込もうとするのではなく、proxy model という“仲介役”を挟むのです。知識蒸留（knowledge distillation, KD）は、強いモデルの知識を小さいモデルへ移すやり方です。たとえば大きな先生モデルが出した答えを手本にして、軽い生徒モデルを育てるイメージです。ただ、普通の蒸留は先生の内部情報も使えることが多い。どの単語にどれくらい自信があるか、途中でどう考えているか、といった情報ですね。ところが黒箱LLMはそこが見えない。返ってくるのは最終出力だけ

papoo.work

AIエージェントに必要なのは「長い会話」より「本当の記憶」だった

大きな context window は、記憶そのものではない それは「一時的に広い机」を持っているようなもので、セッションが終われば消える以前の会話を毎回ぜんぶ送り直すやり方は、長くなるほど重く、遅くなる Retrieval は「必要な資料だけを本棚から持ってくる」仕組み Compression は中身をなるべく保ったまま、入力を小さくする工夫 Summarization は要点だけ残す方法で、元データは別に保存しておくのが安全 AIエージェントを作るときは、モデルに全部覚えさせるより、DBや検索の役割を分けるほうがうまくいく元記事の主張はかなり明快です。 context window が大きいことと、memory があることは別物だ、という話です。ここでいう context window は、AIモデルが一度に読める文章量の上限です。人間でいうと「机の上に広げて見られる書類の量」に近い。広ければ広いほど便利そうですが、だからといって「その机が記憶装置になる」わけではありません。著者のたとえがわかりやすいです。巨大な机を買って、ファイルキャビネット

papoo.work

Qwen-AgentWorldが狙う「LLMで世界をまるごと動かす」発想

大きなAIモデルを見ていると、最近は「文章をうまく作る」だけでは全然足りないんだな、としみじみ思います。次に来るのは、AIが環境の動きまで頭の中で予測する方向です。今回のarXiv論文 Qwen-AgentWorld: Language World Models for General Agents は、まさにそこを真正面から狙っています。ざっくり言えば、これは「言語モデルを使って、エージェントが置かれた世界の変化をシミュレーションする」研究です。チャットの延長ではなく、AIが「この操作をしたら次に何が起きるか」を考えられるようにする。ここが肝です。正直、この発想はかなりおもしろいです。AIを“答える機械”から“先読みする機械”に近づけようとしているので。 Qwen-AgentWorldは、agentic environment をシミュレートする language world model 35B-A3B版と397B-A17B版の2モデルを公開 **7つのドメインをまたいで、long chain-of-thought reasoning による環境予測

papoo.work

中国版「Mythos」登場、その中身はかなり本気だった

Qihoo 360の創業者・周鴻禕氏が、北京のISC.AI 2026で脆弱性発見AI「Tulong Feng」を発表した。彼はこれを、Anthropicのサイバーセキュリティ向けAI「Claude Mythos」に対する中国版だと位置づけた。同じタイミングで、中国のZ.aiは近い性能を持つモデル「GLM-5.2」をMITライセンスで公開し、誰でも無料で使える形にした。セキュリティ評価では、GLM-5.2が一部のベンチマークでClaude Codeを上回ったとされ、コスト面でもかなり安い。ただし、これは「中国がついに米国に追いついた」と単純に言う話ではなく、AIサイバーセキュリティの覇権争いがかなり露骨になってきた、というニュースだと思う。中国のサイバーセキュリティ業界が、かなりはっきり「うちはうちでやる」と言い始めている。Decryptの記事が伝えているのは、そんな空気感だ。話の中心にいるのは、Qihoo 360の創業者・周鴻禕氏。Qihoo 360は中国では有名なセキュリティ企業で、個人向けの保護ソフトや企業向け防御で存在感がある。その周氏が、北京で開かれたISC.AI

papoo.work