世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-06-04

Microsoftが新しいコード用AI「MAI-Code-1-Flash」を発表。Copilotに入る“速くて軽い”開発支援モデルとは？

記事のキーポイント

Microsoft AIが、新しいコード生成モデル MAI-Code-1-Flash を発表
GitHub Copilot と Visual Studio Code で、個人ユーザー向けに順次提供開始
速さ・効率・実用性を重視した、軽量な agentic coding model として設計
ベンチマークでは Claude Haiku 4.5 を上回ったと主張
難しい問題では 最大60%少ない token で解けるとしており、コストや待ち時間の削減が期待される

まず何が起きたのか

Microsoft AIが、コードを書くための新しいAIモデル MAI-Code-1-Flash を発表しました。
これは一言でいうと、開発者の日常作業を「速く、軽く、うまく」手伝うためのモデル です。

最近のAIモデルは「何でもできる」方向に進みがちですが、今回のMAI-Code-1-Flashはかなり割り切っています。
Microsoft自身が「benchmarkのためではなく、実際の開発現場のために作った」と強調しているのが印象的でした。ここ、かなり大事だと思います。派手な数字だけ良くても、現場で遅い・重い・気が利かないなら意味がないですからね。

MAI-Code-1-Flashってどんなモデル？

このモデルは、Microsoftがクリーンで適切にライセンスされたデータを使い、end-to-endで自社開発したと説明しています。
end-to-endというのは、最初から最後まで一貫して自分たちで設計・学習した、という意味です。

特徴は大きく3つです。

Agentic coding に強い
- agentic coding とは、AIがただコードを出すだけでなく、周辺ツールや状況を見ながら“作業を進める”タイプの支援です
Adaptive thinking
- 簡単な依頼には短く答え、難しい課題にはより深く考える
Strong instruction-following
- 1回だけの指示でも、会話を重ねる場面でも、指示に従う力が強い

要するに、「賢いだけじゃなく、開発の流れにちゃんと乗れる AIを目指した」ということです。
個人的には、この方向性はかなり好感があります。コード生成AIって、単発でそれっぽいコードを出すのは得意でも、実際のリポジトリやツールの流れに合わないと途端に使いにくくなるので。

どこで使えるの？

MAI-Code-1-Flashは、GitHub Copilotの個人ユーザー向け に、VS Code で順次展開されます。

使い方としては、

モデル選択画面で直接選べる
場合によっては Auto picker が自動でこのモデルに振り分ける

という形です。
つまり、ユーザーがわざわざ何か複雑な設定をしなくても、裏側で自然に使われていくイメージですね。こういう“気づいたら使っていた”導入は、かなり実用的です。

このモデルの狙いは「高品質 × 高効率」

Microsoftは、MAI-Code-1-Flashを 「tokenあたりの価値を最大化する」 ように設計したと説明しています。

tokenは、AIが文章やコードを処理するときの細かい単位です。
ざっくり言うと、tokenが少ないほど、処理が速くなりやすく、コストも下がりやすい です。

このモデルは adaptive solution length control という仕組みで、問題に応じて回答の長さを変えます。

簡単な質問 → なるべく短く、素早く
難しい課題 → 必要なだけ深く考える

Microsoftによると、難しい問題では 最大60%少ない token で解けるとのこと。
これはかなりおいしいです。AIは賢くなればなるほど重くなりがちですが、そこを抑えているのがポイントです。速さとコストの両立 は、現場では本当に効きます。

ベンチマークではClaude Haiku 4.5を上回ると主張

Microsoftは、MAI-Code-1-Flashを Claude Haiku 4.5 と比較し、複数のベンチマークで上回ったとしています。

比較対象は以下です。

SWE-Bench Verified
SWE-Bench Pro
SWE-Bench Multilingual
Terminal Bench 2

しかも、単に精度だけでなく、平均でどれだけ少ない token で解けたか も見ています。
ここは地味だけど重要です。AIの比較って「正解率」だけだと、遅くて大げさなモデルが有利になりがちなんですよね。実際には、速くて安いのに十分正確 なほうがうれしい場面は多いです。

特にMicrosoftが強調しているのは、

SWE-Bench Proで +16ポイント
SWE-Bench Verifiedでは最大60%少ない token

という点です。
ただし、これはあくまでMicrosoftの発表なので、実際の体感は使う環境やタスクによって変わるはずです。ここは少し冷静に見るのがいいと思います。

開発者向けに作った、という姿勢がかなり強い

記事の中で特に印象的だったのが、Microsoftが何度も
「developers, not benchmarks」
と言っているところです。

これはつまり、テストで点を取るためのモデルではなく、実際の開発現場で役立つことを最優先にした ということ。
学習も評価も、GitHub Copilotの実運用に近い環境で行ったと説明されています。

具体的には、次のようなタスクを見ているそうです。

ソフトウェアエンジニアリングの基本課題
リポジトリに関する質問応答
リファクタリング
- 既存コードを整理して読みやすくすること
実際のCopilot利用に近い telemetry-grounded tasks
- telemetry は利用状況のデータ、grounded は現実の使用状況に根ざしている、という意味合いです

この設計思想は、かなりまっとうだと思います。
AIモデルの世界はどうしても「ベンチマークで勝った者勝ち」になりやすいのですが、開発者にとっては自分のリポジトリでちゃんと動くか がすべてですから。

ただ賢いだけじゃない。instruction-following が強い

MAI-Code-1-Flashは、instruction-following、つまり「指示に従う力」も強いとされています。

これが大事なのは、開発現場では
「この関数だけ直して」
「今の設計を崩さずに」
「この条件を追加して」
みたいな、細かくて面倒な指示が頻繁に飛ぶからです。

AIがここで勝手に話を広げると、便利どころか邪魔になります。
その意味で、短く済むところは短く、ちゃんと考えるべきところは深く という設計は、かなり現実的です。

ちょっと面白いのが、AIの“罠耐性”まで試していること

Microsoftは、一般的なベンチマークだけでは足りないとして、186問・34カテゴリ の独自評価も行っています。
そこでは、わざとAIを引っかけるような問題を入れています。

たとえば、

逆転した有名問題
不可能なタスク
条件が足りない曖昧な問題

こういうのは、AIが「それっぽく答えるだけ」か、本当に考えているかを見分けるのに役立ちます。
結果として、MAI-Code-1-Flashは 85.8%の adjusted accuracy を達成したとのことです。

ただし、Microsoft自身も課題が残ると認めていて、Einstellung traps のような一部のカテゴリでは 50% 未満だったそうです。
Einstellung trap は、最初に見つけた古い解き方に引っ張られてしまう“思考の罠”のことです。
このあたり、完璧ではないけれど、弱点までちゃんと示しているのは好印象でした。

使ってみたくなるポイント

正直、この記事を読んで一番「いいな」と思ったのは、速さ・安さ・実用性のバランスをかなり意識している ところです。

AIコード補助って、派手なデモは簡単なんです。
でも実際の現場では、

ちょっとした修正に時間がかかる
無駄に長い提案を返してくる
ツール連携がぎこちない

みたいなことが地味にストレスになります。
MAI-Code-1-Flashは、その不満をかなり狙って潰しにいっている感じがします。これは面白いですし、開発体験を改善する方向としてかなり筋がいい と思います。

とはいえ、万能ではない

もちろん、発表内容はMicrosoft側の評価なので、実際の性能は使ってみないとわかりません。
また、ベンチマークで強くても、各チームのコード規約や独特なリポジトリ構造にどこまで馴染むかは別問題です。

なので、個人的には
「すごそう」ではあるけれど、最終的には日常の手触りで判断したい
というのが正直なところです。

それでも、Copilotの中にこういう“軽くて実戦向き”なモデルが入ってくるのは、かなり価値があります。
AIはますます巨大化していますが、現場で本当に愛されるのは、案外こういう地味に速くて、ちゃんと使えるモデル ではないでしょうか。

まとめ

MAI-Code-1-Flashは、Microsoftが出した新しいコード支援モデルで、GitHub Copilot と VS Code に順次入っていきます。
特徴は、速い・軽い・実用的 の3拍子。さらに、ベンチマーク上でも Claude Haiku 4.5 を上回ったと主張しています。