PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

Microsoftが新しいコード用AI「MAI-Code-1-Flash」を発表。Copilotに入る“速くて軽い”開発支援モデルとは?

記事のキーポイント

まず何が起きたのか

Microsoft AIが、コードを書くための新しいAIモデル MAI-Code-1-Flash を発表しました。
これは一言でいうと、​開発者の日常作業を「速く、軽く、うまく」手伝うためのモデル です。

最近のAIモデルは「何でもできる」方向に進みがちですが、今回のMAI-Code-1-Flashはかなり割り切っています。
Microsoft自身が「benchmarkのためではなく、実際の開発現場のために作った」と強調しているのが印象的でした。ここ、かなり大事だと思います。派手な数字だけ良くても、現場で遅い・重い・気が利かないなら意味がないですからね。

MAI-Code-1-Flashってどんなモデル?

このモデルは、Microsoftがクリーンで適切にライセンスされたデータを使い、​end-to-endで自社開発したと説明しています。
end-to-endというのは、最初から最後まで一貫して自分たちで設計・学習した、という意味です。

image_0001.jpg

特徴は大きく3つです。

要するに、「賢いだけじゃなく、​開発の流れにちゃんと乗れる AIを目指した」ということです。
個人的には、この方向性はかなり好感があります。コード生成AIって、単発でそれっぽいコードを出すのは得意でも、実際のリポジトリやツールの流れに合わないと途端に使いにくくなるので。

image_0003.png

どこで使えるの?

MAI-Code-1-Flashは、​GitHub Copilotの個人ユーザー向け に、​VS Code で順次展開されます。

使い方としては、

という形です。
つまり、ユーザーがわざわざ何か複雑な設定をしなくても、裏側で自然に使われていくイメージですね。こういう“気づいたら使っていた”導入は、かなり実用的です。

このモデルの狙いは「高品質 × 高効率」

Microsoftは、MAI-Code-1-Flashを ​「tokenあたりの価値を最大化する」​ ように設計したと説明しています。

image_0004.png

tokenは、AIが文章やコードを処理するときの細かい単位です。
ざっくり言うと、​tokenが少ないほど、処理が速くなりやすく、コストも下がりやすい です。

このモデルは adaptive solution length control という仕組みで、問題に応じて回答の長さを変えます。

image_0005.png

Microsoftによると、難しい問題では 最大60%少ない token で解けるとのこと。
これはかなりおいしいです。AIは賢くなればなるほど重くなりがちですが、そこを抑えているのがポイントです。​速さとコストの両立 は、現場では本当に効きます。

ベンチマークではClaude Haiku 4.5を上回ると主張

Microsoftは、MAI-Code-1-Flashを Claude Haiku 4.5 と比較し、複数のベンチマークで上回ったとしています。

比較対象は以下です。

image_0006.png

しかも、単に精度だけでなく、​平均でどれだけ少ない token で解けたか も見ています。
ここは地味だけど重要です。AIの比較って「正解率」だけだと、遅くて大げさなモデルが有利になりがちなんですよね。実際には、​速くて安いのに十分正確 なほうがうれしい場面は多いです。

特にMicrosoftが強調しているのは、

という点です。
ただし、これはあくまでMicrosoftの発表なので、実際の体感は使う環境やタスクによって変わるはずです。ここは少し冷静に見るのがいいと思います。

image_0008.jpg

開発者向けに作った、という姿勢がかなり強い

記事の中で特に印象的だったのが、Microsoftが何度も
​「developers, not benchmarks」​
と言っているところです。

これはつまり、テストで点を取るためのモデルではなく、​実際の開発現場で役立つことを最優先にした ということ。
学習も評価も、GitHub Copilotの実運用に近い環境で行ったと説明されています。

具体的には、次のようなタスクを見ているそうです。

image_0009.jpg

この設計思想は、かなりまっとうだと思います。
AIモデルの世界はどうしても「ベンチマークで勝った者勝ち」になりやすいのですが、開発者にとっては自分のリポジトリでちゃんと動くか がすべてですから。

ただ賢いだけじゃない。instruction-following が強い

MAI-Code-1-Flashは、​instruction-following、つまり「指示に従う力」も強いとされています。

これが大事なのは、開発現場では
「この関数だけ直して」
「今の設計を崩さずに」
「この条件を追加して」
みたいな、細かくて面倒な指示が頻繁に飛ぶからです。

image_0010.png

AIがここで勝手に話を広げると、便利どころか邪魔になります。
その意味で、​短く済むところは短く、ちゃんと考えるべきところは深く という設計は、かなり現実的です。

ちょっと面白いのが、AIの“罠耐性”まで試していること

Microsoftは、一般的なベンチマークだけでは足りないとして、​186問・34カテゴリ の独自評価も行っています。
そこでは、わざとAIを引っかけるような問題を入れています。

たとえば、

image_0011.png

こういうのは、AIが「それっぽく答えるだけ」か、本当に考えているかを見分けるのに役立ちます。
結果として、MAI-Code-1-Flashは 85.8%の adjusted accuracy を達成したとのことです。

ただし、Microsoft自身も課題が残ると認めていて、​Einstellung traps のような一部のカテゴリでは 50% 未満だったそうです。
Einstellung trap は、最初に見つけた古い解き方に引っ張られてしまう“思考の罠”のことです。
このあたり、完璧ではないけれど、弱点までちゃんと示しているのは好印象でした。

使ってみたくなるポイント

正直、この記事を読んで一番「いいな」と思ったのは、​速さ・安さ・実用性のバランスをかなり意識している ところです。

image_0012.png

AIコード補助って、派手なデモは簡単なんです。
でも実際の現場では、

みたいなことが地味にストレスになります。
MAI-Code-1-Flashは、その不満をかなり狙って潰しにいっている感じがします。これは面白いですし、​開発体験を改善する方向としてかなり筋がいい と思います。

とはいえ、万能ではない

もちろん、発表内容はMicrosoft側の評価なので、実際の性能は使ってみないとわかりません。
また、ベンチマークで強くても、各チームのコード規約や独特なリポジトリ構造にどこまで馴染むかは別問題です。

image_0013.png

なので、個人的には
​「すごそう」ではあるけれど、最終的には日常の手触りで判断したい
というのが正直なところです。

それでも、Copilotの中にこういう“軽くて実戦向き”なモデルが入ってくるのは、かなり価値があります。
AIはますます巨大化していますが、現場で本当に愛されるのは、案外こういう地味に速くて、ちゃんと使えるモデル ではないでしょうか。

まとめ

MAI-Code-1-Flashは、Microsoftが出した新しいコード支援モデルで、​GitHub Copilot と VS Code に順次入っていきます。
特徴は、​速い・軽い・実用的 の3拍子。さらに、ベンチマーク上でも Claude Haiku 4.5 を上回ったと主張しています。

image_0014.jpg

派手さよりも、日常の開発ワークフローにどれだけ自然に入り込めるか。
Microsoftはそこをかなり本気で取りにきているように見えます。私はこの姿勢、かなり好きです。


参考: Introducing MAI-Code-1-Flash | Microsoft AI

同じ著者の記事