PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

Microsoftの無料AIがWeb閲覧でOpenAIとGoogleを上回った話

記事のキーポイント

そもそも「computer use agent」って何?

ざっくり言うと、​人間みたいにブラウザを触るAI です。

たとえば、

みたいな作業を、AIが画面を見ながら勝手にやってくれる。
プラグイン専用の連携ではなく、​画面上のボタンをクリックしたり、入力欄に文字を打ったりするのが特徴です。

image_0001.jpg

これ、最初は「便利そう」で済む話に見えるんですが、実際はかなり難しいです。
Webサイトは毎回ちょっとずつ違うし、ポップアップは出るし、ログインもあるし、ボタンの位置も変わる。人間ならなんとなく察せることを、AIにやらせるのは意外と大変なんですよね。だからこそ、この分野の性能差はわりと“地力”が出ます。

Fara1.5は何がすごいのか

今回の主役は、Microsoft Researchが出した Fara1.5 です。
ポイントは、​小さめのモデルなのに、Web操作のベンチマークでかなり強いこと。

モデルは3種類あります。

Bは billion の略で、​パラメータ数を表します。
パラメータは、AIの中の“調整つまみ”みたいなものだと思えばOKです。一般には多いほど大きなモデルになりやすいですが、ただ大きいだけでは勝てません。学習の仕方がかなり重要です。

image_0002.webp

Fara1.5は Qwen3.5 をベースに、Microsoftがブラウザ作業向けに fine-tune(追加学習)したものです。
そして何より、​weightsが公開されています。つまり、ただAPI越しに使うだけではなく、手元の環境で扱えるタイプのopen-weightモデルです。ここはかなり面白い。AI業界で「使える」だけでなく「触れる」「検証できる」ことは、実はすごく価値があると思います。

ベンチマーク結果がかなり強い

記事で特に強調されているのが Online-Mind2Web というベンチマークです。

これは、​136の人気Webサイト上で、300件の実タスクをどれだけ正しく完了できるか を測るもの。
しかも、架空のテスト画面ではなく、​実際に変化する本物のWeb を対象にしているのがポイントです。

結果はこうでした。

image_0003.webp

正直、これはかなり驚きです。
OpenAIとGoogleをまとめて上回る、という見出しは少し煽り気味にも見えますが、​少なくともこのベンチマークでは本当に勝っている。しかも9Bモデルまで強いので、「でかいモデルだけが勝つ」話でもないのが面白いところです。

さらに別のベンチマーク WebVoyager でも、

と、ここでもかなり良い数字を出しています。
僅差ではありますが、Web上のタスク成功率でトップクラスなのは間違いないでしょう。

image_0004.svg

強さの秘密は「学習の作り方」にある

今回いちばん技術的に面白いのは、たぶんここです。
Microsoftは単にモデルを大きくしたのではなく、​学習パイプラインそのものを作り直したと説明しています。

記事によると、Microsoftは FaraGen1.5 という仕組みで学習データを生成しました。
そこで使われたのが、なんと OpenAIのGPT-5.4をteacher agentとして使ったことです。

teacher agent とは、ざっくり言えば お手本役のAI のこと。
GPT-5.4が「ブラウザ上でどう動くのがよいか」を示し、その行動ログを学習データにしてFara1.5を育てたわけです。

ここはかなり皮肉が効いていて、
OpenAIの強いモデルを使って、Microsoftが自前の競争力あるオープンモデルを育てている んですよね。AI業界らしい、ちょっとしたメタ構造で笑ってしまいます。

しかもMicrosoftは、実在サイトをそのまま使うのではなく、​6つの偽サイトをフル機能で再現して訓練したそうです。
メール、カレンダー、マーケットプレイスなどの“模擬Web”を用意して、ログインが必要な作業や、やり直しにくい操作を安全に練習させたわけです。

image_0005.svg

これはかなり賢いと思います。
実サイトでいきなり学習させると、誤送信や誤予約みたいな危険がある。でも偽サイトなら失敗しても問題ない。AIにとっての“教習所”みたいなものですね。

安全性もかなり意識している

ブラウザを勝手に触るAIで怖いのは、当然ながら 暴走誤操作 です。
勝手にメールを送る、勝手に購入する、勝手に予約を確定する。これ、便利さと危険さが紙一重です。

Microsoftはその対策として、​Critical Points で止まってユーザーに確認を求める設計を入れています。
また、Fara1.5は MagenticLite という sandboxed browser environment 上で動き、​すべての操作をログに残し、いつでも停止できる ようになっています。

sandboxed というのは、要するに 隔離された安全な箱の中で動かす という意味です。
本番の環境にいきなり触らせず、事故が起きにくい形にしているわけです。

Microsoft ResearchのYash Lara氏は、使いやすさと安全性のバランスが重要だと述べています。
この考え方はかなり妥当で、個人的にも「賢いAIほど、止めやすさが大事」だと思います。
人間より手際よく動けるAIほど、ブレーキが弱いと危ないんですよね。

image_0008.webp

競争はかなり激しいが、Microsoftの立ち位置は独特

今の browser AI の世界はかなり混戦です。

その中でFara1.5の面白さは、単に性能が高いだけではなく、​open-weightであること です。
この違いは大きいです。

クローズドな商用AIは、強いけれど中身が見えない。
一方でopen-weightモデルは、研究者や開発者が中身を確認し、改良し、独自環境に載せやすい。

image_0009.webp

もちろん、公開されているからといってそのまま誰でも完璧に運用できるわけではありません。
でも、AIの進化を“配布可能な知識”として広げられるのは、オープンモデルの強みだと思います。

ただし、勝利宣言はまだ早いかも

ここは少し冷静に見たいところです。
ベンチマークで勝ったことは事実ですが、​現実の利用で常に最強とは限らないです。

理由はシンプルで、Web操作は本当に変数が多いからです。

こういう要素が一気に効いてきます。
なので、今回の結果は「Microsoftがついに完成形を出した」というより、​ブラウザ操作AIの学習設計が一段進んだ と見るのが自然ではないでしょうか。

image_0010.webp

個人的には、ここで重要なのは「どの会社が勝ったか」より、​小さめの公開モデルでも、学習設計しだいで大手の商用モデルに勝てる と証明した点だと思います。これは業界にかなり効くはずです。

すでに使えるものもある

Microsoftによると、​Fara1.5-9BはすでにAzure AI Foundryで利用可能です。
4Bと27Bは近日公開予定とのこと。

さらにMicrosoftは、将来的にこれを ブラウザの外、デスクトップやエンタープライズソフト に広げたい考えのようです。
もし本当にここまで進むなら、AIは「チャットで答える存在」から、「画面を代行して動く存在」にかなり近づきます。

この流れは正直、かなり強いです。
検索して、要約して、比較して、入力までやる。
人間の“単純だけど面倒な作業”をどこまで置き換えられるか、今後の大きなテーマになりそうです。

まとめ

Fara1.5は、単なる「Microsoftの新しいAI」ではありません。
open-weightで、Web操作に強く、しかもOpenAIやGoogleの同種モデルより良いスコアを出した のがポイントです。

image_0011.webp

しかも、その強さは「巨大モデルだから」ではなく、​データ生成・訓練・安全設計を全部まとめて作り直したから だとされている。
ここがいちばん学びのある部分だと思います。

AI業界はつい「どの会社が何点取ったか」に目が行きがちですが、実際には
どう学習させるか、どう安全に使わせるか、どう公開するか
のほうがずっと本質的です。Fara1.5は、その全部にちゃんと踏み込んでいるのが面白いところです。


参考: Microsoft's Free AI Just Beat OpenAI and Google at Browsing the Web - Decrypt

同じ著者の記事