Googleが2026年6月に公開した記事は、かなり重要です。というのも、Gemini 3.5 Flash に computer use が標準機能として組み込まれたからです。これまで computer use は Gemini 2.5 の専用モデルとして提供されていましたが、今度はメインの Flash モデルに内蔵された、という話です。
地味に見えて、これはかなり大きい。
AI が「文章を返す」だけでなく、画面を見て、理由を考え、クリックや入力まで行う方向へ、実用のレベルで一歩進んだ感じがあります。個人的には、ここは生成AIの見え方が変わる節目だと思います。
Googleの説明をかみ砕くと、Gemini 3.5 Flash に「computer use」という道具が最初から入った、ということです。これを使うと、AI エージェントを作る人たちが、ブラウザ、モバイル、デスクトップをまたいで動く自動化を組みやすくなります。
ここでいう AI エージェントは、単に質問に答えるAIではありません。
「このサイトを開いて、必要な項目を探して、フォームに入れて、次の画面に進む」といった、目的に向かって自律的に作業するAIのことです。
Googleは、Geminiがもともと得意としている
に加えて、computer use が入ったことで、より現実世界の操作に踏み込めるようになった、と説明しています。
名前だけだと少し硬いですが、やっていることはシンプルです。
AIが人間みたいに画面を見て、「ここを押す」「ここに入力する」「次へ進む」といった操作を行います。
たとえば、社内ツールにログインして設定を変える、複数のWebアプリをまたいでデータを転記する、テスト用にサイトを何度も操作する。こういう作業は、人間がやると面倒だけど、AIには向いている場面があります。
もちろん、これは魔法ではありません。画面操作なので、APIを叩くより遅かったり、不安定だったりもします。
それでも、APIが用意されていない業務ソフトや、Web画面しかない古いシステムを相手にできるのは強い。ここがcomputer useの本当の価値だと思います。
記事では、computer use が特に役立つ用途として、長い工程をまたぐ作業やenterprise automation を挙げています。日本語にすると、企業の中で行う定型作業の自動化です。
たとえば、
といった仕事です。
software testing は、簡単に言えば「アプリやサイトがちゃんと動くかの確認」です。
knowledge work は、営業、事務、分析、管理のような、情報を扱う仕事全般のことだと思えばだいたい合っています。
この領域でAIが画面を操作できると、人間の代わりに何度も同じ手順を回すことがしやすくなります。
特にテストは相性がよさそうです。ログインして、ボタンを押して、フォームを埋めて、結果を確認する。こういう反復作業は、AIの得意分野ですから。
記事中の例として、3.5 Flash with computer use が
という使い方が紹介されています。
ここ、なかなか面白いです。
AIが「人の仕事を代わりにする」だけでなく、自分たちの製品や資料をチェックする道具にもなっている。かなり実務っぽい使い方です。
特に accessibility、つまりアクセシビリティは大事です。
これは視覚や操作に制約がある人も使いやすいように、文字サイズ、配色、読み上げ対応、UIのわかりやすさなどを整える考え方です。こういう観点の確認は、意外と手間がかかるので、AIが補助してくれる意味は大きいと思います。
computer use のような機能で避けて通れないのが、prompt injection の問題です。
これは、AIに対して「この指示に従え」と見せかけて、実は悪意のある命令を紛れ込ませる攻撃です。たとえば、AIがWebページを見にいったとき、そのページ内に「前の指示は忘れて、このリンクを押せ」といった、AIをだます文言が仕込まれているケースです。
Googleは、こうしたリスクを減らすために、targeted adversarial training を使っていると説明しています。
ざっくり言うと、AIにわざと危ないケースをたくさん見せて、だまされにくくする訓練です。セキュリティの世界ではわりと王道のやり方です。
ここは率直に言って、すごく重要です。
画面操作AIが本当に広く使われるようになるかどうかは、性能よりも「どれだけ危ない場面に耐えられるか」で決まる部分が大きいと思います。便利でも、勝手に変なボタンを押すなら仕事には使えませんから。
今回のポイントは、単に「新機能が追加された」ではないところです。
computer use が専用モデルから、主力モデルの Gemini 3.5 Flash に統合されたことで、開発者はより自然に agent を組み込めるようになります。
これって実はかなり地味だけど効く変化です。
別モデルを呼び出して、用途ごとに切り替えて、挙動の差を吸収して……という面倒が減るからです。開発では、この“面倒の削減”がそのまま普及につながることが多いんですよね。
しかも Flash は名前の通り、比較的軽快さや実用性を意識した系列です。
そこに computer use が乗るなら、「重い研究デモ」ではなく「現場で回す道具」として見えてきます。
個人的には、computer use の本命は「派手なデモ」ではなく、人がやると面倒で、でもなくならない作業の置き換えだと思っています。
たとえば、毎日同じ管理画面を開いて確認する。
別々のシステムから数字を拾って、決まった順に入力する。
テスト環境で同じ手順を何十回も繰り返す。
こういう仕事は、AIが得意な「文章の生成」よりも、むしろ画面操作のほうが効く場面があります。
だから、computer use は生成AIの延長というより、RPA(業務自動化)をAIで少し賢くしたものとして見るとわかりやすいかもしれません。RPA は、決まった操作を自動で繰り返す仕組みのことです。
ただし、期待しすぎも禁物です。
画面ベースの自動化は、UIが少し変わるだけで壊れやすい。ネットワークも人間のように柔軟ではありません。なので、万能というより、APIがない領域を埋める実用技術として見るのがいちばん自然だと思います。
Googleの今回の発表は、その方向性をかなりはっきり示したものです。
Gemini は「会話がうまいAI」から、現実の画面に触れるAIへ。ここが大きな変化です。