世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

MiniMax M2.7とERNIE-Imageが熱い。2026年春の生成AIは「賢さ」と「使いやすさ」が一気に近づいてきた

記事のキーポイント

MiniMax M2.7 は、オープンウェイトで公開されたコーディング特化寄りのAIモデル。ソフトウェア開発系ベンチマークでClaude Opus 4.6に迫る成績を出したのが話題。
HY-World 2.0 は、1枚の画像やテキストから3Dワールドを生成できる世界モデル。ゲームや仮想空間の下地づくりに面白そう。
Qwen3.6-35B-A3B は、効率重視のMoEモデルなのに、エージェント的なコーディング性能がかなり高い。
ERNIE-Image は、日本語を含む文字描画が強いローカル画像生成AI。しかも商用利用OKで、24GB VRAM級のGPUでも動かせるのが魅力。
今回の全体像としては、生成AIが「見た目だけ」ではなく、実務・制作・開発に本気で使える方向へ進んでいるのがよくわかる。

まず結論：生成AIは「すごい」から「使える」へ

テクノエッジの「生成AIウィークリー」第141回は、かなり“実戦寄り”の内容でした。
派手なデモで驚かせるだけではなく、コーディング、3D生成、画像生成、ローカル動作、商用利用といった、実際に人が使う場面を意識した技術が並んでいます。

個人的には、ここがいちばん重要だと思います。
生成AIの話題は最初こそ「すごい絵が出た」「賢い会話ができた」で盛り上がりましたが、今はもう一段階進んでいて、どのモデルが仕事に入れられるか、どのGPUで動くか、ライセンスはどうかまで見られる時代になっています。
つまり、AIは“見せ物”から“道具”に変わりつつある、ということです。

1. MiniMax M2.7：オープン化された、かなり強いコーディングAI

最初の注目株は、中国のAI企業 MiniMax が公開した MiniMax M2.7 のオープンウェイト版です。
オープンウェイトというのは、ざっくり言うとモデルの重み（学習済みの中身）を公開してくれること。研究や実験に使いやすく、ローカル環境や独自サービスに組み込みやすいのが魅力です。

何がすごいのか

M2.7は、総パラメータ2290億のMoEモデルです。
MoE（Mixture of Experts）は、たくさんの“専門家”を持っていて、質問に応じてその一部だけを使う方式。全部を常時フル稼働させるわけではないので、巨大モデルでも比較的効率よく動かせるのが特徴です。

しかも、推論時に実際に動くのは100億パラメータ程度。
「そんなに大きいのに、全部を毎回使ってるわけじゃないのか」と驚く人もいるはずですが、これがMoEのうまさです。

コーディング性能がかなり高い

記事では、M2.7が以下のようなベンチマークで高スコアを出したと紹介されています。

SWE-Pro：56.22%
Terminal Bench 2：57.0%
VIBE-Pro：55.6%
GDPval-AA：ELO 1495

特に印象的なのは、SWE-ProでGPT-5.3-Codexと同等、Claude Opus 4.6に肉薄している点です。
これはつまり、単なる“コードを少し書けるAI”ではなく、開発タスクでかなり本気で戦えるレベルに来ている、ということ。

私の感想としては、ここまで来ると「AIにコードを書かせる」のではなく、AIをどうレビューし、どう責任分担するかの方が重要になってきたと感じます。
もはや「どのAIが賢いか」だけでなく、「どのAIを、どの場面で、どう使うか」が問われる段階です。

ただしライセンスには注意

ここは大事です。
M2.7はオープンウェイトですが、ライセンスは非商用利用で、商用利用には事前許諾が必要です。

この点はかなり重要。
技術的に強くても、ビジネスで使えるかは別問題です。
「オープンだから自由に使える」と勘違いすると危ないので、ここはしっかり確認したいところです。

2. HY-World 2.0：1枚の画像から“歩ける3D世界”を作る

次は Tencent Hunyuan が公開した HY-World 2.0。
これはかなりSFっぽくて、個人的にはかなりワクワクしました。

どんなモデル？

テキストや1枚の画像から、歩き回れる3D世界を生成できる“world model”です。
world model というのは、世界の見た目だけでなく、空間のつながりや奥行き、見え方の変化まで扱うモデルのこと。ゲーム制作やVR、シミュレーションに相性がいいです。

仕組みが面白い

HY-World 2.0は4段階で3D世界を作ります。

HY-Pano 2.0 が360度パノラマの土台を作る
WorldNav がカメラの移動経路を計画する
WorldStereo 2.0 が新しい視点の画像を生成する
WorldMirror 2.0 が3D構造を復元し、最終的に 3D Gaussian Splatting で世界を組み立てる

3D Gaussian Splatting は、点の集まりで3D空間を表現する方法のひとつです。
CGの専門知識がなくても、「3D空間をかなり効率よく再現する技術」くらいの理解で十分です。

何がポイントなのか

記事では、生成と再構築を1つのシステムに統合したこと、そしてキーフレーム単位の生成と記憶機構で視点が大きく動いても破綻しにくくなったことが強調されています。

ここは地味にすごいです。
AIの画像生成って、単発ではきれいでも、視点を変えると急に破綻することが多いんですよね。
でも世界を扱うなら、そこがダメだと意味がない。
つまり HY-World 2.0 は、**“絵”ではなく“空間”を作る方向にかなり踏み込んでいる**わけです。

しかも、NVIDIA H20 GPU 1台でおよそ10分という速度で、既存のオープンソース手法を上回り、商用モデルの Marble と互角レベルとのこと。
このへんは、研究としてもかなり見どころがあります。

3. Qwen3.6-35B-A3B：効率がいいのに、コーディングが強い

続いては Alibaba の Qwen チームによる Qwen3.6-35B-A3B。
これもオープンウェイトモデルです。

どんな特徴？

このモデルは、総パラメータ350億、アクティブパラメータ30億の MoE モデル。
数字だけ見ると巨大ですが、実際に働くのは一部なので、効率が良いのがポイントです。

注目点は、エージェント的なコーディング性能が高いこと。
エージェント的というのは、単に1回答えるだけでなく、ツールを使ったり、試行錯誤しながらタスクを進めるような性格を指します。
要するに、ただの“おしゃべりAI”ではなく、作業を進めるAIに近いです。

ベンチマークが強い

記事では以下のようなスコアが紹介されています。

SWE-bench Verified：73.4
Terminal-Bench2.0：51.5
QwenWebBench：1397

前世代の Qwen3.5-35B-A3B を上回り、さらに Qwen3.5-27B や Gemma4-31B にも匹敵するとのこと。
このあたりを見ると、AI開発の主戦場が「でかいモデルをただ積む」だけではなく、効率良く賢く動かす設計へ移っているのがわかります。

マルチモーダルも強い

しかも視覚言語タスクでも、Claude Sonnet 4.5 と同等かそれ以上の場面があるとされています。
マルチモーダルは、テキストだけでなく画像や音なども扱う能力のこと。
つまりこのモデル、コードも強いし、見る力もあるわけです。

こういうモデルは、今後かなり実務向けに使われる可能性があると思います。
「万能」という言葉はあまり好きではないのですが、少なくとも実務で触る価値のあるレベルに来ているのは間違いなさそうです。

4. ERNIE-Image：日本語の文字が崩れにくい、しかも商用利用OK

今回もっとも“使う人が喜びそう”なのが、Baidu の ERNIE-Image かもしれません。

何がうれしいのか

画像生成AIはたくさんありますが、文字、特に日本語が弱いのが長年の悩みでした。
看板、ポスター、漫画のセリフ、商品説明……こういう用途では、絵が上手いだけでは足りません。
文字が崩れると一気に使い物にならないんですよね。

ERNIE-Image はここがかなり強い。
記事によれば、中国語・英語を含む長文テキスト描画に強く、日本語もほぼ文字化けせずに出力できるとのこと。
これはかなり大きいです。
正直、画像生成AIで日本語がちゃんと出るだけで、実用度は一段上がります。

ローカルで動かせる

ERNIE-Image は 8Bパラメータの DiT（Diffusion Transformer）モデル。
DiT は、拡散モデルを Transformer ベースで扱う方式です。
細かい仕組みは置いておいて、ざっくり言えば画像を作るのが得意な現代的な設計です。

そして嬉しいのが、24GB VRAMの民生GPUで動作する点。
つまり、ハイエンドすぎる業務用機材がなくても、条件が合えば自宅PCで触れます。
これはローカルAI好きにはかなり刺さるはずです。

商用利用OKなのが強い

さらに記事では、商用利用可能とされています。
ここは本当に重要。
どれだけ性能が良くても、仕事で使うならライセンスがネックになりますからね。

しかも通常版だけでなく、ERNIE-Image-Turbo の高速版や、短文を詳細プロンプトに広げる 3B Prompt Enhancer も用意されているとのこと。
この「短い指示を、AIがいい感じに膨らませてくれる」仕組みは、地味だけど便利です。
プロンプトを毎回長々と書くのは面倒ですから、こういう補助機能があるとかなり助かります。