Microsoft AIが、コードを書くための新しいAIモデル MAI-Code-1-Flash を発表しました。
これは一言でいうと、開発者の日常作業を「速く、軽く、うまく」手伝うためのモデル です。
最近のAIモデルは「何でもできる」方向に進みがちですが、今回のMAI-Code-1-Flashはかなり割り切っています。
Microsoft自身が「benchmarkのためではなく、実際の開発現場のために作った」と強調しているのが印象的でした。ここ、かなり大事だと思います。派手な数字だけ良くても、現場で遅い・重い・気が利かないなら意味がないですからね。
このモデルは、Microsoftがクリーンで適切にライセンスされたデータを使い、end-to-endで自社開発したと説明しています。
end-to-endというのは、最初から最後まで一貫して自分たちで設計・学習した、という意味です。

特徴は大きく3つです。
要するに、「賢いだけじゃなく、開発の流れにちゃんと乗れる AIを目指した」ということです。
個人的には、この方向性はかなり好感があります。コード生成AIって、単発でそれっぽいコードを出すのは得意でも、実際のリポジトリやツールの流れに合わないと途端に使いにくくなるので。

MAI-Code-1-Flashは、GitHub Copilotの個人ユーザー向け に、VS Code で順次展開されます。
使い方としては、
という形です。
つまり、ユーザーがわざわざ何か複雑な設定をしなくても、裏側で自然に使われていくイメージですね。こういう“気づいたら使っていた”導入は、かなり実用的です。
Microsoftは、MAI-Code-1-Flashを 「tokenあたりの価値を最大化する」 ように設計したと説明しています。

tokenは、AIが文章やコードを処理するときの細かい単位です。
ざっくり言うと、tokenが少ないほど、処理が速くなりやすく、コストも下がりやすい です。
このモデルは adaptive solution length control という仕組みで、問題に応じて回答の長さを変えます。

Microsoftによると、難しい問題では 最大60%少ない token で解けるとのこと。
これはかなりおいしいです。AIは賢くなればなるほど重くなりがちですが、そこを抑えているのがポイントです。速さとコストの両立 は、現場では本当に効きます。
Microsoftは、MAI-Code-1-Flashを Claude Haiku 4.5 と比較し、複数のベンチマークで上回ったとしています。
比較対象は以下です。

しかも、単に精度だけでなく、平均でどれだけ少ない token で解けたか も見ています。
ここは地味だけど重要です。AIの比較って「正解率」だけだと、遅くて大げさなモデルが有利になりがちなんですよね。実際には、速くて安いのに十分正確 なほうがうれしい場面は多いです。
特にMicrosoftが強調しているのは、
という点です。
ただし、これはあくまでMicrosoftの発表なので、実際の体感は使う環境やタスクによって変わるはずです。ここは少し冷静に見るのがいいと思います。

記事の中で特に印象的だったのが、Microsoftが何度も
「developers, not benchmarks」
と言っているところです。
これはつまり、テストで点を取るためのモデルではなく、実際の開発現場で役立つことを最優先にした ということ。
学習も評価も、GitHub Copilotの実運用に近い環境で行ったと説明されています。
具体的には、次のようなタスクを見ているそうです。

この設計思想は、かなりまっとうだと思います。
AIモデルの世界はどうしても「ベンチマークで勝った者勝ち」になりやすいのですが、開発者にとっては自分のリポジトリでちゃんと動くか がすべてですから。
MAI-Code-1-Flashは、instruction-following、つまり「指示に従う力」も強いとされています。
これが大事なのは、開発現場では
「この関数だけ直して」
「今の設計を崩さずに」
「この条件を追加して」
みたいな、細かくて面倒な指示が頻繁に飛ぶからです。

AIがここで勝手に話を広げると、便利どころか邪魔になります。
その意味で、短く済むところは短く、ちゃんと考えるべきところは深く という設計は、かなり現実的です。
Microsoftは、一般的なベンチマークだけでは足りないとして、186問・34カテゴリ の独自評価も行っています。
そこでは、わざとAIを引っかけるような問題を入れています。
たとえば、

こういうのは、AIが「それっぽく答えるだけ」か、本当に考えているかを見分けるのに役立ちます。
結果として、MAI-Code-1-Flashは 85.8%の adjusted accuracy を達成したとのことです。
ただし、Microsoft自身も課題が残ると認めていて、Einstellung traps のような一部のカテゴリでは 50% 未満だったそうです。
Einstellung trap は、最初に見つけた古い解き方に引っ張られてしまう“思考の罠”のことです。
このあたり、完璧ではないけれど、弱点までちゃんと示しているのは好印象でした。
正直、この記事を読んで一番「いいな」と思ったのは、速さ・安さ・実用性のバランスをかなり意識している ところです。

AIコード補助って、派手なデモは簡単なんです。
でも実際の現場では、
みたいなことが地味にストレスになります。
MAI-Code-1-Flashは、その不満をかなり狙って潰しにいっている感じがします。これは面白いですし、開発体験を改善する方向としてかなり筋がいい と思います。
もちろん、発表内容はMicrosoft側の評価なので、実際の性能は使ってみないとわかりません。
また、ベンチマークで強くても、各チームのコード規約や独特なリポジトリ構造にどこまで馴染むかは別問題です。

なので、個人的には
「すごそう」ではあるけれど、最終的には日常の手触りで判断したい
というのが正直なところです。
それでも、Copilotの中にこういう“軽くて実戦向き”なモデルが入ってくるのは、かなり価値があります。
AIはますます巨大化していますが、現場で本当に愛されるのは、案外こういう地味に速くて、ちゃんと使えるモデル ではないでしょうか。
MAI-Code-1-Flashは、Microsoftが出した新しいコード支援モデルで、GitHub Copilot と VS Code に順次入っていきます。
特徴は、速い・軽い・実用的 の3拍子。さらに、ベンチマーク上でも Claude Haiku 4.5 を上回ったと主張しています。

派手さよりも、日常の開発ワークフローにどれだけ自然に入り込めるか。
Microsoftはそこをかなり本気で取りにきているように見えます。私はこの姿勢、かなり好きです。