PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

AIの「画面を見て操作する」方式は、構造化APIより45倍高くつく——Reflexのベンチマーク記事を読む

この記事のキーポイント

そもそも何の話?

Reflexのブログ記事では、AIエージェントがWebアプリを操作する方法を2つ比べています。

image_0001.webp

  1. vision agent

    • 画面のスクリーンショットを見て
    • ボタンをクリックしたり
    • 画面遷移を追いかけたりする方式
  2. structured API

    • 画面を見ずに
    • アプリの裏側にあるAPIやイベントハンドラを直接呼ぶ方式
    • ざっくり言うと「画面を経由せず、データに直接触る」

ここでのポイントは、​同じアプリを相手にしていることです。
つまり、「モデルが違うから差が出た」のではなく、​インターフェースの違いだけでコストがどう変わるかを見た実験なんですね。ここがかなり面白い。私はこの手の比較、いかにも“現場の本音”が出るので好きです。

何をさせたのか

image_0002.svg

課題は、管理画面の中で次の作業をすることでした。

このタスク、ただのクリック練習ではありません。
検索・ページ送り(pagination)・別エンティティの参照・読み取りと更新が全部入っています。

一般の人向けに言い換えると、
「画面のあちこちに散らばった情報を集めて、必要な更新までやる」仕事です。
社内ツールではわりとありがちな、地味だけど面倒な作業です。

image_0003.svg

vision agent が苦戦した理由

最初に驚くのは、​vision agent がタスクを完了できなかったことです。

記事によると、vision agent は最初の試行で:

image_0004.svg

原因はシンプルで、​ページの下に隠れていたからです。
画面に表示されていない情報について、vision agent には「まだ下にあるからスクロールしよう」という十分な手がかりがなかったわけです。

ここ、かなり本質的だと思います。
vision agent は「見えているもの」を根拠に動くので、​見えていない情報に弱い
人間でも似たところはありますが、AIだとその弱点がもっと露骨に出る、という感じです。

API方式はなぜ強いのか

API方式のAIは、画面を見ずに、​アプリ内部の関数やハンドラを直接呼びます。
ハンドラというのは、ざっくり言うと「ボタンを押したときに裏側で動く処理」です。

image_0005.svg

この方式だと、AIは:

たとえば、UIなら「今のページに見えている10件」しか見えなくても、API側では
page 1 of 4」「50 results per page」のような情報も含めて受け取れる。
これが大きい。

要するに、vision agent は絵を解読する仕事、API agent は整理された表を読む仕事をしているわけです。
そりゃ後者のほうが速くて安いよね、というのがこの実験のかなり率直な結論です。

image_0006.svg

14手順の「手取り足取り」でやっと成功

比較を公平にするため、記事ではvision agent に14段階のUI手順書を与え直しています。

すると、今度は成功しました。
ただし代償として、

image_0007.svg

がかかりました。

ここで個人的に重要だと思うのは、​成功したことより、その成功に“手順書”が必要だったことです。
つまり、vision agent を実運用するなら、

のどちらかになる、ということです。

image_0008.svg

どちらも現場ではなかなかつらい。
「AIで楽になるはずが、結局プロンプト設計の職人芸が必要になる」パターン、ありますよね。これはその典型例のひとつだと思います。

実測結果がかなり差をつけている

記事の主な結果は次の通りです。

image_0009.svg

記事タイトルの「45x more expensive」は、こうした差をまとめたものです。
もちろん単純比較には注意が必要ですが、少なくともこのベンチマークでは、​API方式が圧勝と言ってよさそうです。

しかも面白いのは、vision agent は試行ごとのブレが大きいのに対して、API方式はかなり安定していたこと。
vision agent は 43 cycles のときもあれば 68 cycles のときもあったそうです。
これは現場運用だとかなり嫌な性質です。コスト見積もりが読みにくいからです。

ここで言いたいことは「vision agentはダメ」ではない

記事もそこは雑に切っていません。
vision agent が向いているケースとして、たとえば:

image_0011.webp

こういう相手には、画面操作型のAIが必要です。

これはその通りだと思います。
APIがないなら、画面を見るしかない。とても現実的です。

ただし、​自分たちで作る内部ツールなら話は変わる。
今回の記事の主張は、そこにあります。

image_0012.webp

「APIを作るのは別プロジェクトで大変」
という前提が、Reflexの仕組みでかなり崩れつつあるのではないか

Reflex 0.9 では、アプリのイベントハンドラからHTTP endpointを自動生成する仕組みがあり、API層をわざわざ一から書かずに済むとしています。
つまり、​API化のコストがほぼゼロに近づくなら、vision agent を選ぶ理由は減る、というロジックです。

個人的におもしろいと感じた点

この記事で一番おもしろいのは、単に「APIのほうが速い」ではなく、
“見て考える”方式は、構造上どうしてもステップ数が増えると示しているところです。

image_0013.svg

モデルが賢くなれば、1回の判断ミスは減るかもしれません。
でも、​スクリーンショットを何十回も見る必要があるという構造そのものは消えません。
ここはかなり本質的です。
性能改善の余地はあっても、​土台のコストは残る、ということですね。

私はこの手の話を見ると、AIの進化は「何でもできます」ではなく、
どの層で情報を渡すかがますます重要になるんだな、と思います。
画像を渡すのか、JSONを渡すのか、イベントを渡すのか。
この差が、そのままコスト差になる時代です。

ただし、ベンチマークには条件がある

記事も注記していますが、この結果はあくまで次の条件付きです。

image_0014.svg

つまり、「すべてのvision agentが45倍遅い」と断言するのは早計です。
ただ、​**“画面を見る”という設計が根っこから高コストになりやすい**という示唆はかなり強いと思います。

まとめ

この記事が伝えたいのは、かなりシンプルです。

image_0015.svg

技術トレンドとして見ると、これからは「AIに操作させる」よりも、
AIに何をどう見せるかの設計がもっと重要になっていくのではないかと思います。
そしてその答えは、しばらくの間は「スクリーンショット」より「structured data」寄りである、というのがこの記事のかなり痛快な結論です。


参考: Computer use is 45x More Expensive Than Structured APIs

同じ著者の記事