世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

AIの「画面を見て操作する」方式は、構造化APIより45倍高くつく——Reflexのベンチマーク記事を読む

この記事のキーポイント

同じ管理画面をAIに操作させたとき、
画面を見てクリックする方式（vision agent）は、APIを直接呼ぶ方式よりずっと重かった
実測では、vision agentは53ステップ・約55万トークン、API方式は8回の呼び出し・約1.2万トークン
vision agentは、最初の試行ではタスクを最後まで完了できなかった
14手順の細かい案内を与えると成功したが、今度は約14分かかり、コストも大きかった
結論として、自社で管理できる内部ツールならAPI化したほうが理にかなう、という主張がかなり強い

そもそも何の話？

Reflexのブログ記事では、AIエージェントがWebアプリを操作する方法を2つ比べています。

vision agent
- 画面のスクリーンショットを見て
- ボタンをクリックしたり
- 画面遷移を追いかけたりする方式
structured API
- 画面を見ずに
- アプリの裏側にあるAPIやイベントハンドラを直接呼ぶ方式
- ざっくり言うと「画面を経由せず、データに直接触る」

ここでのポイントは、同じアプリを相手にしていることです。
つまり、「モデルが違うから差が出た」のではなく、インターフェースの違いだけでコストがどう変わるかを見た実験なんですね。ここがかなり面白い。私はこの手の比較、いかにも“現場の本音”が出るので好きです。

何をさせたのか

課題は、管理画面の中で次の作業をすることでした。

「Smith」という顧客を探す
その人の注文数がいちばん多い顧客を見つける
その人の最新の pending order（保留中の注文）を見つける
pending review（保留中レビュー）をすべて承認する
注文をdelivered（配達済み）にする

このタスク、ただのクリック練習ではありません。
検索・ページ送り（pagination）・別エンティティの参照・読み取りと更新が全部入っています。

一般の人向けに言い換えると、
「画面のあちこちに散らばった情報を集めて、必要な更新までやる」仕事です。
社内ツールではわりとありがちな、地味だけど面倒な作業です。

vision agent が苦戦した理由

最初に驚くのは、vision agent がタスクを完了できなかったことです。

記事によると、vision agent は最初の試行で：

顧客のレビューのうち1件だけ見つけて承認
そのまま次へ進んでしまい
残りの3件に気づけなかった

原因はシンプルで、ページの下に隠れていたからです。
画面に表示されていない情報について、vision agent には「まだ下にあるからスクロールしよう」という十分な手がかりがなかったわけです。

ここ、かなり本質的だと思います。
vision agent は「見えているもの」を根拠に動くので、見えていない情報に弱い。
人間でも似たところはありますが、AIだとその弱点がもっと露骨に出る、という感じです。

API方式はなぜ強いのか

API方式のAIは、画面を見ずに、アプリ内部の関数やハンドラを直接呼びます。
ハンドラというのは、ざっくり言うと「ボタンを押したときに裏側で動く処理」です。

この方式だと、AIは：

画面に表示されている一部だけでなく
その操作が返した構造化データをそのまま受け取れます

たとえば、UIなら「今のページに見えている10件」しか見えなくても、API側では
「page 1 of 4」「50 results per page」のような情報も含めて受け取れる。
これが大きい。

要するに、vision agent は絵を解読する仕事、API agent は整理された表を読む仕事をしているわけです。
そりゃ後者のほうが速くて安いよね、というのがこの実験のかなり率直な結論です。

14手順の「手取り足取り」でやっと成功

比較を公平にするため、記事ではvision agent に14段階のUI手順書を与え直しています。

すると、今度は成功しました。
ただし代償として、

約14分
約50万トークン級の入力

がかかりました。

ここで個人的に重要だと思うのは、成功したことより、その成功に“手順書”が必要だったことです。
つまり、vision agent を実運用するなら、

かなり細かいプロンプトを書く
あるいは、失敗をある程度許容する

のどちらかになる、ということです。

どちらも現場ではなかなかつらい。
「AIで楽になるはずが、結局プロンプト設計の職人芸が必要になる」パターン、ありますよね。これはその典型例のひとつだと思います。

実測結果がかなり差をつけている

記事の主な結果は次の通りです。

vision agent
- 53 ± 13 steps
- 1003秒（約17分）
- 550,976 input tokens
API agent（Sonnet）
- 8 ± 0 calls
- 19.7秒
- 12,151 input tokens
API agent（Haiku）
- 8 ± 0 calls
- 7.7秒
- 9,478 input tokens

記事タイトルの「45x more expensive」は、こうした差をまとめたものです。
もちろん単純比較には注意が必要ですが、少なくともこのベンチマークでは、API方式が圧勝と言ってよさそうです。

しかも面白いのは、vision agent は試行ごとのブレが大きいのに対して、API方式はかなり安定していたこと。
vision agent は 43 cycles のときもあれば 68 cycles のときもあったそうです。
これは現場運用だとかなり嫌な性質です。コスト見積もりが読みにくいからです。

ここで言いたいことは「vision agentはダメ」ではない

記事もそこは雑に切っていません。
vision agent が向いているケースとして、たとえば：

自分で変更できない第三者SaaS
古いレガシーシステム
APIが公開されていない外部ツール

こういう相手には、画面操作型のAIが必要です。

これはその通りだと思います。
APIがないなら、画面を見るしかない。とても現実的です。

ただし、自分たちで作る内部ツールなら話は変わる。
今回の記事の主張は、そこにあります。

「APIを作るのは別プロジェクトで大変」
という前提が、Reflexの仕組みでかなり崩れつつあるのではないか

Reflex 0.9 では、アプリのイベントハンドラからHTTP endpointを自動生成する仕組みがあり、API層をわざわざ一から書かずに済むとしています。
つまり、API化のコストがほぼゼロに近づくなら、vision agent を選ぶ理由は減る、というロジックです。

個人的におもしろいと感じた点

この記事で一番おもしろいのは、単に「APIのほうが速い」ではなく、
“見て考える”方式は、構造上どうしてもステップ数が増えると示しているところです。

モデルが賢くなれば、1回の判断ミスは減るかもしれません。
でも、スクリーンショットを何十回も見る必要があるという構造そのものは消えません。
ここはかなり本質的です。
性能改善の余地はあっても、土台のコストは残る、ということですね。

私はこの手の話を見ると、AIの進化は「何でもできます」ではなく、
どの層で情報を渡すかがますます重要になるんだな、と思います。
画像を渡すのか、JSONを渡すのか、イベントを渡すのか。
この差が、そのままコスト差になる時代です。

ただし、ベンチマークには条件がある

記事も注記していますが、この結果はあくまで次の条件付きです。

vision agent は browser-use 0.12 の vision mode
データセットは小さく固定済み
- 顧客900件
- 注文600件
- レビュー324件
API側は Reflex の仕組みを使っている
トークン数は uncached input tokens を計測

つまり、「すべてのvision agentが45倍遅い」と断言するのは早計です。
ただ、**“画面を見る”という設計が根っこから高コストになりやすい**という示唆はかなり強いと思います。

まとめ

この記事が伝えたいのは、かなりシンプルです。

vision agent は便利だが高い
structured API は速くて安い
内部ツールのように自分で作れるものなら、APIを用意する価値が大きい
画面操作AIは、今後も必要だが、万能の解ではない

技術トレンドとして見ると、これからは「AIに操作させる」よりも、
AIに何をどう見せるかの設計がもっと重要になっていくのではないかと思います。
そしてその答えは、しばらくの間は「スクリーンショット」より「structured data」寄りである、というのがこの記事のかなり痛快な結論です。

参考: Computer use is 45x More Expensive Than Structured APIs

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ