世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-26

Microsoftの無料AIがWeb閲覧でOpenAIとGoogleを上回った話

記事のキーポイント

Microsoft Researchが公開した Fara1.5 は、ブラウザ操作に特化した open-weight のAIエージェント
最上位の Fara1.5-27B は、実在するWebサイトを使う難しいベンチマーク Online-Mind2Web で 72% を記録
これは OpenAI Operatorの58.3%、Google Gemini 2.5 Computer Useの57.3% を上回った
9Bモデルの時点でも 63.4% と高く、かなり健闘している
学習には GPT-5.4をteacher agentとして使ったデータ生成 や、偽サイトを使った訓練 が効いている
しかも公開重視で、weightsもコードもオープン。ここがかなり大きい

そもそも「computer use agent」って何？

ざっくり言うと、人間みたいにブラウザを触るAI です。

たとえば、

宿泊先を探す
5つのサイトを見比べる
予約フォームに入力する
最後に確認して送信する

みたいな作業を、AIが画面を見ながら勝手にやってくれる。
プラグイン専用の連携ではなく、画面上のボタンをクリックしたり、入力欄に文字を打ったりするのが特徴です。

これ、最初は「便利そう」で済む話に見えるんですが、実際はかなり難しいです。
Webサイトは毎回ちょっとずつ違うし、ポップアップは出るし、ログインもあるし、ボタンの位置も変わる。人間ならなんとなく察せることを、AIにやらせるのは意外と大変なんですよね。だからこそ、この分野の性能差はわりと“地力”が出ます。

Fara1.5は何がすごいのか

今回の主役は、Microsoft Researchが出した Fara1.5 です。
ポイントは、小さめのモデルなのに、Web操作のベンチマークでかなり強いこと。

モデルは3種類あります。

4B
9B
27B

Bは billion の略で、パラメータ数を表します。
パラメータは、AIの中の“調整つまみ”みたいなものだと思えばOKです。一般には多いほど大きなモデルになりやすいですが、ただ大きいだけでは勝てません。学習の仕方がかなり重要です。

Fara1.5は Qwen3.5 をベースに、Microsoftがブラウザ作業向けに fine-tune（追加学習）したものです。
そして何より、weightsが公開されています。つまり、ただAPI越しに使うだけではなく、手元の環境で扱えるタイプのopen-weightモデルです。ここはかなり面白い。AI業界で「使える」だけでなく「触れる」「検証できる」ことは、実はすごく価値があると思います。

ベンチマーク結果がかなり強い

記事で特に強調されているのが Online-Mind2Web というベンチマークです。

これは、136の人気Webサイト上で、300件の実タスクをどれだけ正しく完了できるか を測るもの。
しかも、架空のテスト画面ではなく、実際に変化する本物のWeb を対象にしているのがポイントです。

結果はこうでした。

Fara1.5-27B: 72%
OpenAI Operator: 58.3%
Google Gemini 2.5 Computer Use: 57.3%
Yutori Navigator n1: 64.7%
Fara1.5-9B: 63.4%
Alibaba GUI-Owl-1.5: 48.6%
AI2 MolmoWeb: 35.3%
Microsoft旧モデル Fara-7B: 34.1%

正直、これはかなり驚きです。
OpenAIとGoogleをまとめて上回る、という見出しは少し煽り気味にも見えますが、少なくともこのベンチマークでは本当に勝っている。しかも9Bモデルまで強いので、「でかいモデルだけが勝つ」話でもないのが面白いところです。

さらに別のベンチマーク WebVoyager でも、

Fara1.5-27B: 88.6%
OpenAI Operator: 87.0%
Holo2: 83.0%

と、ここでもかなり良い数字を出しています。
僅差ではありますが、Web上のタスク成功率でトップクラスなのは間違いないでしょう。

強さの秘密は「学習の作り方」にある

今回いちばん技術的に面白いのは、たぶんここです。
Microsoftは単にモデルを大きくしたのではなく、学習パイプラインそのものを作り直したと説明しています。

記事によると、Microsoftは FaraGen1.5 という仕組みで学習データを生成しました。
そこで使われたのが、なんと OpenAIのGPT-5.4をteacher agentとして使ったことです。

teacher agent とは、ざっくり言えば お手本役のAI のこと。
GPT-5.4が「ブラウザ上でどう動くのがよいか」を示し、その行動ログを学習データにしてFara1.5を育てたわけです。

ここはかなり皮肉が効いていて、
OpenAIの強いモデルを使って、Microsoftが自前の競争力あるオープンモデルを育てている んですよね。AI業界らしい、ちょっとしたメタ構造で笑ってしまいます。

しかもMicrosoftは、実在サイトをそのまま使うのではなく、6つの偽サイトをフル機能で再現して訓練したそうです。
メール、カレンダー、マーケットプレイスなどの“模擬Web”を用意して、ログインが必要な作業や、やり直しにくい操作を安全に練習させたわけです。

これはかなり賢いと思います。
実サイトでいきなり学習させると、誤送信や誤予約みたいな危険がある。でも偽サイトなら失敗しても問題ない。AIにとっての“教習所”みたいなものですね。

安全性もかなり意識している

ブラウザを勝手に触るAIで怖いのは、当然ながら暴走と 誤操作 です。
勝手にメールを送る、勝手に購入する、勝手に予約を確定する。これ、便利さと危険さが紙一重です。

Microsoftはその対策として、Critical Points で止まってユーザーに確認を求める設計を入れています。
また、Fara1.5は MagenticLite という sandboxed browser environment 上で動き、すべての操作をログに残し、いつでも停止できる ようになっています。

sandboxed というのは、要するに 隔離された安全な箱の中で動かす という意味です。
本番の環境にいきなり触らせず、事故が起きにくい形にしているわけです。

Microsoft ResearchのYash Lara氏は、使いやすさと安全性のバランスが重要だと述べています。
この考え方はかなり妥当で、個人的にも「賢いAIほど、止めやすさが大事」だと思います。
人間より手際よく動けるAIほど、ブレーキが弱いと危ないんですよね。