PrismMLが発表したのは、Bonsai Image 4B という画像生成モデルです。
ひとことで言うと、スマホやノートPCなど、手元の端末で動かしやすい画像生成AI です。
しかも普通の「軽量化しました」ではなく、かなり攻めています。
このモデルは2種類あります。
個人的には、この「軽さを取るか、画質を取るか」を最初から2択で出してくるのがかなり実用的だと思います。
AIモデルって、つい「大きいほど良い」で語られがちですが、実際は用途次第なんですよね。
この記事のポイントは、画像生成の品質そのものだけではありません。
むしろ重要なのは、端末に載るかどうか です。
画像生成モデル、とくに diffusion model は、1回画像を作るたびに何度も同じ処理を繰り返します。
その中心にあるのが diffusion transformer で、これが大きいと
という問題が出ます。
つまり、画像生成AIは「賢いかどうか」だけでなく、現実の端末で快適に動くか が超重要です。
ここを詰めてきたのが Bonsai Image 4B です。
Bonsai Image 4B は、ベースとして FLUX.2 Klein 4B を使っています。
ただし、アーキテクチャ自体を別物にしたのではなく、transformerの重み表現を binary / ternary に変えている のがポイントです。
元記事の数値を見ると、かなりインパクトがあります。
これはかなり大胆です。
1-bit版は 8.3倍の圧縮、Ternary版は 6.4倍の圧縮 です。
しかも、完全に全部を極端に削っているわけではありません。
精度に敏感な一部の補助テンソル、記事では projection layers と呼ばれている部分は、約5%ほど FP16 のまま残しています。
この「全部を雑に削るんじゃなく、壊れやすい場所はちゃんと残す」感じが、実務っぽくて好きです。
ここはかなり重要です。
元記事では、Ternary版のほうが visual quality と prompt fidelity が改善すると説明しています。
prompt fidelity は、ざっくり言えば 「ユーザーの指示をどれだけちゃんと守るか」 です。
ここ、地味に重要です。
画像生成AIって、見た目がきれいでも「赤い帽子って言ったのに青い」「3人って言ったのに2人」みたいなことが起こるので、指示への忠実さ はかなり大切なんですよね。

記事では、Apple Silicon 向けのデプロイ時サイズも出ています。
この差はかなり大きいです。
要するに、フル精度版だと重すぎて載せづらい端末でも、Bonsaiなら現実的になる という話です。
さらに、実行時に必要なメモリもかなり抑えられています。
たとえば 512x512 の画像生成時の平均使用メモリは、
.png)
1024x1024 の場合でも、
という差です。
正直、この数字を見ると「そりゃローカルで動かせるわけだ」と納得します。
特にスマホはメモリの制約が厳しいので、この差はかなり現実的です。

記事では、iPhone 17 Pro Max でフル精度版はメモリに収まらないが、Bonsai Image の2種類はオンデバイスで動く としています。
さらに、PrismMLは iPhone上で直接動く4Bクラスの画像モデルとしては初めて と主張しています。
これ、もし本当に安定して使えるならかなり大きいです。
なぜかというと、画像生成は「クラウドに投げる」のが普通だったからです。
でもローカルで動くと、
というメリットがあります。
特に最後の プライバシー は大事です。
プロンプトって、かなり個人的な内容が入ることがありますよね。
「この人の顔に近いイメージで」「この部屋の構図で」「社外秘のアイデアをラフに可視化して」みたいな使い方を考えると、端末内で完結する価値は大きいと思います。
PrismMLによると、生成速度は以下の通りです。
さらに Mac M4 Pro では、Bonsai Image 4B は 標準のフル精度 MFLUX パイプラインより最大5.6倍速い とされています。
ここはかなり現実的な進化です。
画像生成って、数十秒待つと地味にストレスがたまるので、1枚10秒弱 で出るなら体験はかなり変わります。
「思いついたらすぐ試せる」ラインに近づくので、試行回数が増え、結果的に作品の質も上がりやすいはずです。
軽くしたら画質が落ちるのでは、というのは当然の疑問です。
そこを確認するために、PrismMLは3つのベンチマークを使っています。
結果はこうです。
この結果を見ると、Ternary版はかなり健闘している と言っていいです。
もちろん完全一致ではないですが、サイズを大きく落として95%まで保てるなら、かなり立派です。
一方で 1-bit版 は、性能は少し下がるものの、1GB未満 に収めた意味は大きいです。
これ、個人的には「性能を少し捨ててでも端末制約を突破する」用途では十分アリだと思います。
記事の後半で PrismML は、画像生成は単なるモデル品質の問題ではなく、デプロイの問題 でもあると述べています。
これは本当にその通りだと思います。
クラウドAPIにはもちろん強みがあります。
高性能なGPUで回せるし、ユーザー側は端末性能を気にしなくていい。
でも一方で、
という弱点もあります。
画像生成は特に、1回で終わらないんですよね。
「もう少し明るく」「背景を変えて」「表情を微調整して」と何度もやり直すので、反復のしやすさ がすごく大事です。
その意味で、ローカル生成は単なる技術デモではなく、プロダクト体験そのものを変える可能性がある と思います。
Bonsai Image 4B の 1-bit版、Ternary版ともに、open weights として Apache 2.0 license で公開されるそうです。
これはかなり好印象です。
AI業界では、性能が高くてもクローズドで終わるケースが多いので、
「実際に触れる」「自分で試せる」「改造できる」ことは大きな価値があります。
さらに PrismML は、iPhone向けの Bonsai Studio というアプリも公開しています。
つまり、単なる論文発表ではなく、実際に端末で試せる形 まで持ってきているわけです。
ここまで来ると、研究発表というより製品発表にかなり近いですね。
個人的には、これはかなり面白い発表です。
というのも、AIの話題ってどうしても「もっと大きいモデルがすごい」「ベンチマークで何点」となりがちですが、実際のユーザーに効くのは 軽くて、速くて、端末で動くこと だったりします。
Bonsai Image 4B は、その現実的な価値に真正面から向き合っている感じがします。
しかも「軽量化=劣化」ではなく、1-bit と Ternary という2つの落としどころ を用意しているのがうまいです。
もちろん、実運用では
など、まだ見てみないとわからない部分もあります。
でも、4Bクラスの画像モデルがiPhoneで直接動く という方向性は、かなりインパクトがあると思います。
「画像生成はクラウドで使うもの」という前提が、少しずつ崩れ始めている。
そんな転換点の一つとして、Bonsai Image 4B は記憶されるかもしれません。
参考: PrismML — Introducing 1-bit and Ternary Bonsai Image 4B: Image Generation for Local Devices