PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

VAKRAの中身をのぞく:AIエージェントはどこでつまずくのか

この記事のキーポイント

image_0001.png

VAKRAって何がそんなに新しいの?

AIエージェントの評価というと、つい「質問に答えられるか」「コードを書けるか」みたいな単発タスクを思い浮かべがちです。
でも現実の仕事って、そんなに単純じゃないですよね。

image_0002.svg

たとえば、

……みたいな、​地味だけど面倒な工程の連続です。

image_0003.jpeg

VAKRAは、まさにそこを測ろうとするベンチマークです。
IBM Research が Hugging Face 上で公開したこの記事では、VAKRA を tool-grounded, executable benchmark と説明しています。ざっくり言えば、​​「ツールを本当に使って動く環境で、エージェントの推論力と実行力を測る」​ということです。

ここが面白いのは、単なる知識テストではなく、​複数のAPIや文書をまたいで、ちゃんと手を動かせるかを見ている点です。
正直、これこそエージェントの本番だよな、と思います。知っているだけでは仕事にならないので。

image_0004.svg

VAKRAの全体像

VAKRAは、主に次のような特徴を持っています。

image_0005.png

つまり、モデルは「質問に答える」のではなく、​ツールを呼び出しながら答えを作る必要があります。

image_0006.svg

しかも記事によると、モデルはこのベンチマークでかなり苦戦しているとのこと。
これは納得感があります。現実の業務っぽいタスクは、モデルの“知ってる風”を簡単には許してくれません。曖昧な推測ではなく、​正しい手順で正しい情報に到達する力が問われるからです。

image_0007.svg

4つの能力で見るVAKRA

VAKRAは、4つの能力領域に分かれています。
順番に見ていくと、だんだん「これは難しいぞ」という感じが強くなります。

image_0008.svg

1. API Chaining using Business Intelligence APIs

これは、​複数のAPIをつないで答えを出す力を測るタスクです。

image_0009.svg

記事によると、2,077件のテストインスタンスがあり、54ドメインにまたがっています。
SLOT-BIRD や SEL-BIRD というツール群を使い、1回から12回ものツール呼び出しが必要になることもあります。

ここでのポイントは、​1つのAPIを呼んで終わりではないことです。
たとえば記事中の例では、あるサッカーチームを見つけるために、データを取得してから、速度・ドリブル・パスという複数条件で順番に絞り込んでいます。
こういう“段階的な絞り込み”は、まさに人間がBIツールを使うときの感覚に近いです。

image_0010.png

個人的には、このタイプが一番「業務っぽい」と感じます。
派手さはないけど、​実務ではこういう作業が一番多いんですよね。

2. Tool Selection using Dashboard APIs

image_0011.svg

こちらは、​たくさんあるツールの中から正しいものを選ぶ力を測ります。

17ドメイン、1,597件のインスタンスがあり、各ドメインには6〜328個、平均116個ものツールがあるそうです。
いやこれは多い。普通に考えて、エージェントが迷うのも当然です。

image_0012.svg

しかも OpenAI API Specification には、ツール一覧の長さに最大128個という制限があります。
つまり、単に全部見せればいいわけではなく、​候補を絞り込む仕組みも必要になります。

ここで大事なのは、AIエージェントには「賢く答える力」だけでなく、​使える道具をうまく選ぶ力が必要だということです。
人間でも、工具箱が巨大すぎると逆に困るので、これはかなり自然な課題設定だと思います。

image_0013.svg

3. Multi-Hop Reasoning using Dashboard APIs

image_0014.svg

これは、​1回で答えられない質問に対して、複数の情報をつなげて考える力です。

869件のインスタンス、38ドメイン。
1〜5段階の論理的な「hop」が必要になります。
ここでいう hop は、簡単に言えば推論の段階です。

image_0015.svg

たとえば、

という流れです。

image_0016.jpeg

これは「検索すれば終わり」ではなく、​情報を組み立てる力が試されます。
最近のAIは検索もできますが、複数の情報を正しくつないで結論を出すのは、まだ簡単ではないと感じます。ここがVAKRAの本丸のひとつでしょう。

4. Multi-Hop, Multi-Source Reasoning and Policy Adherence

image_0017.png

これがいちばん複雑です。
記事では、644件のインスタンス、41ドメインとされています。

何が難しいのかというと、次の要素が全部乗っています。

image_0018.png

Multi-Source

APIだけでなく、​文書インデックスも使う必要があります。
つまり、データベースを見るだけでは足りず、文章資料から探す場面もあるということです。

さらに、各 hop ごとに、使うべき情報源が決まっている場合があります。
たとえば、

image_0020.png

のように、ソースが切り替わる。
これはかなり実務に近いです。人間の仕事でも、数字はDB、背景は資料、最終確認は別システム、みたいなことはよくあります。

Multi-Turn

会話が複数ターンにまたがる設定もあります。
つまり、単発の質問応答ではなく、​会話の流れを踏まえて答える必要があります。

image_0021.png

Tool-usage Policies

さらに厄介なのが、​どのツールを使ってよいかというルールまであることです。
たとえば「Technology & Software に関する質問は、document retriever だけを使って答えなさい」といった制約が入ります。

image_0022.png

これ、かなり重要だと思います。
現実の企業環境では、「便利だから全部使っていい」わけではなく、​使っていい情報源が限定されることが多いからです。
セキュリティや監査、部門ルールの都合で、勝手に別のツールを叩けない場面は普通にあります。

だからVAKRAは、単なる知能テストというより、​**“ルールのある現場で働けるか”の試験**に近いです。

image_0023.png

評価方法がかなり本気

VAKRAの面白いところは、評価がかなり丁寧なことです。
単に最終回答が正しければOK、ではありません。

image_0024.png

1. ツール実行の流れを見る

まず、モデルが出したtool-call trajectory、つまり「どんな順番でどんなツールを呼んだか」を見ます。
しかも、そのツール呼び出しは実際に同じ環境で実行されます。

これは地味ですが、とても大事です。
なぜなら、エージェントは答えだけ合っても、中身の手順がぐちゃぐちゃでは仕事にならないからです。

image_0025.png

2. Ground truth と比較する

予測されたツール列が、正解のツール列と同じかを見るわけですが、ここでも柔軟性があります。
VAKRAでは、​別のAPI呼び出し方でも正しいなら認める設計になっています。

これも良い判断だと思います。
現実には「同じ答えにたどり着く道」は複数あるので、固定の手順だけを正解にしてしまうと評価が狭くなりすぎます。

image_0026.png

3. LLM-based judge も使う

中間結果の比較が難しい場合には、​LLM-based evaluation を使います。
これは、構造が違っていても、必要な情報がちゃんと取れているかを判断するためです。

最後に、最終回答が

image_0027.png

を見ます。

つまりVAKRAは、
​「答えが合っているか」だけでなく、「正しい情報に、正しい道筋で、ちゃんと到達したか」​
を見ようとしているわけです。

image_0029.png

ここはかなり重要です。
AIエージェントの評価は、これからますますこういう方向に行くはずだと思います。なぜなら、単純な正解率だけでは、現場での信頼性を測れないからです。

image_0030.svg

この記事から見えること

VAKRAの記事を読んで感じるのは、AIエージェントの評価が、かなり**“現実の仕事への接近戦”**になってきたということです。

image_0031.svg

昔のベンチマークは、ある意味で「試験問題」でした。
でもVAKRAは違います。
ツールをどう使うか、途中でどこを参照するか、ルールを守れるかまで含めて見ています。

これはエージェント開発者にとっては厳しい話です。
でも、かなり健全でもあると思います。
なぜなら、現実に使えるAIは、派手なデモではなく、​面倒な制約の中でもきちんと動くAIだからです。

image_0032.svg

個人的には、VAKRAのようなベンチマークが増えるほど、AIの評価は「会話のうまさ」から「業務遂行能力」へと重心が移っていくのではないかと思います。
そしてそれは、エージェント時代には自然な流れです。

まとめ

image_0033.svg

VAKRAは、AIエージェントの

を総合的に測る、かなり本格的なベンチマークです。

image_0034.svg

しかも評価は、最終回答だけでなく、​実際の実行トレースまで見る。
この点がとても重要で、私はかなり「本物感」のある設計だと感じました。

AIが本当に仕事をする時代には、こういうベンチマークが必要になるはずです。
VAKRAは、その方向性をかなりはっきり示している記事だと言えるでしょう。

image_0035.jpeg


参考: Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents

同じ著者の記事