PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

1bitとTernaryでここまで小さくなる? PrismMLの「Bonsai Image 4B」が面白い

記事のキーポイント

何が発表されたのか

PrismMLが発表したのは、​Bonsai Image 4B という画像生成モデルです。
ひとことで言うと、​スマホやノートPCなど、手元の端末で動かしやすい画像生成AI です。

しかも普通の「軽量化しました」ではなく、かなり攻めています。
このモデルは2種類あります。

image_0001.svg

個人的には、この「軽さを取るか、画質を取るか」を最初から2択で出してくるのがかなり実用的だと思います。
AIモデルって、つい「大きいほど良い」で語られがちですが、実際は用途次第なんですよね。

まず大事な前提:画像生成は“モデルがデカい”とつらい

この記事のポイントは、画像生成の品質そのものだけではありません。
むしろ重要なのは、​端末に載るかどうか です。

image_0002.svg

画像生成モデル、とくに diffusion model は、1回画像を作るたびに何度も同じ処理を繰り返します。
その中心にあるのが diffusion transformer で、これが大きいと

という問題が出ます。

つまり、画像生成AIは「賢いかどうか」だけでなく、​現実の端末で快適に動くか が超重要です。
ここを詰めてきたのが Bonsai Image 4B です。

何がすごいのか:モデルの“中身”を激しく圧縮している

image_0003.svg

Bonsai Image 4B は、ベースとして FLUX.2 Klein 4B を使っています。
ただし、アーキテクチャ自体を別物にしたのではなく、​transformerの重み表現を binary / ternary に変えている のがポイントです。

元記事の数値を見ると、かなりインパクトがあります。

diffusion transformer のサイズ比較

image_0004.svg

これはかなり大胆です。
1-bit版は 8.3倍の圧縮、Ternary版は 6.4倍の圧縮 です。

しかも、完全に全部を極端に削っているわけではありません。
精度に敏感な一部の補助テンソル、記事では projection layers と呼ばれている部分は、約5%ほど FP16 のまま残しています。
この「全部を雑に削るんじゃなく、壊れやすい場所はちゃんと残す」感じが、実務っぽくて好きです。

1-bit版とTernary版、どう違う?

ここはかなり重要です。

1-bit Bonsai Image 4B

image_0005.svg

Ternary Bonsai Image 4B

元記事では、Ternary版のほうが visual qualityprompt fidelity が改善すると説明しています。
prompt fidelity は、ざっくり言えば ​「ユーザーの指示をどれだけちゃんと守るか」​ です。

ここ、地味に重要です。
画像生成AIって、見た目がきれいでも「赤い帽子って言ったのに青い」「3人って言ったのに2人」みたいなことが起こるので、​指示への忠実さ はかなり大切なんですよね。

実際にどれくらい軽いのか

image_0007.png

記事では、Apple Silicon 向けのデプロイ時サイズも出ています。

この差はかなり大きいです。
要するに、​フル精度版だと重すぎて載せづらい端末でも、Bonsaiなら現実的になる という話です。

さらに、実行時に必要なメモリもかなり抑えられています。
たとえば 512x512 の画像生成時の平均使用メモリは、

image_0008.png

1024x1024 の場合でも、

という差です。

正直、この数字を見ると「そりゃローカルで動かせるわけだ」と納得します。
特にスマホはメモリの制約が厳しいので、この差はかなり現実的です。

image_0009.png

iPhoneで直接動く、というのがかなり大きい

記事では、​iPhone 17 Pro Max でフル精度版はメモリに収まらないが、Bonsai Image の2種類はオンデバイスで動く としています。
さらに、PrismMLは iPhone上で直接動く4Bクラスの画像モデルとしては初めて と主張しています。

これ、もし本当に安定して使えるならかなり大きいです。
なぜかというと、画像生成は「クラウドに投げる」のが普通だったからです。

でもローカルで動くと、

image_0010.svg

というメリットがあります。

特に最後の プライバシー は大事です。
プロンプトって、かなり個人的な内容が入ることがありますよね。
「この人の顔に近いイメージで」「この部屋の構図で」「社外秘のアイデアをラフに可視化して」みたいな使い方を考えると、端末内で完結する価値は大きいと思います。

速度はどうなのか

PrismMLによると、生成速度は以下の通りです。

image_0011.svg

さらに Mac M4 Pro では、Bonsai Image 4B は 標準のフル精度 MFLUX パイプラインより最大5.6倍速い とされています。

ここはかなり現実的な進化です。
画像生成って、数十秒待つと地味にストレスがたまるので、​1枚10秒弱 で出るなら体験はかなり変わります。
「思いついたらすぐ試せる」ラインに近づくので、試行回数が増え、結果的に作品の質も上がりやすいはずです。

画質は落ちていないのか? ベンチマークを見る

image_0012.svg

軽くしたら画質が落ちるのでは、というのは当然の疑問です。
そこを確認するために、PrismMLは3つのベンチマークを使っています。

結果はこうです。

ベンチマーク比較

image_0013.svg

この結果を見ると、​Ternary版はかなり健闘している と言っていいです。
もちろん完全一致ではないですが、サイズを大きく落として95%まで保てるなら、かなり立派です。

一方で 1-bit版 は、性能は少し下がるものの、​1GB未満 に収めた意味は大きいです。
これ、個人的には「性能を少し捨ててでも端末制約を突破する」用途では十分アリだと思います。

なぜローカル画像生成が重要なのか

記事の後半で PrismML は、画像生成は単なるモデル品質の問題ではなく、​デプロイの問題 でもあると述べています。
これは本当にその通りだと思います。

image_0014.svg

クラウドAPIにはもちろん強みがあります。
高性能なGPUで回せるし、ユーザー側は端末性能を気にしなくていい。
でも一方で、

という弱点もあります。

画像生成は特に、1回で終わらないんですよね。
「もう少し明るく」「背景を変えて」「表情を微調整して」と何度もやり直すので、​反復のしやすさ がすごく大事です。

image_0015.svg

その意味で、ローカル生成は単なる技術デモではなく、​プロダクト体験そのものを変える可能性がある と思います。

開放性もポイント

Bonsai Image 4B の 1-bit版、Ternary版ともに、​open weights として Apache 2.0 license で公開されるそうです。
これはかなり好印象です。

AI業界では、性能が高くてもクローズドで終わるケースが多いので、
「実際に触れる」「自分で試せる」「改造できる」ことは大きな価値があります。

さらに PrismML は、iPhone向けの Bonsai Studio というアプリも公開しています。
つまり、単なる論文発表ではなく、​実際に端末で試せる形 まで持ってきているわけです。
ここまで来ると、研究発表というより製品発表にかなり近いですね。

image_0016.svg

率直な感想

個人的には、これはかなり面白い発表です。
というのも、AIの話題ってどうしても「もっと大きいモデルがすごい」「ベンチマークで何点」となりがちですが、実際のユーザーに効くのは 軽くて、速くて、端末で動くこと だったりします。

Bonsai Image 4B は、その現実的な価値に真正面から向き合っている感じがします。
しかも「軽量化=劣化」ではなく、​1-bit と Ternary という2つの落としどころ を用意しているのがうまいです。

もちろん、実運用では

image_0017.svg

など、まだ見てみないとわからない部分もあります。
でも、​4Bクラスの画像モデルがiPhoneで直接動く という方向性は、かなりインパクトがあると思います。

「画像生成はクラウドで使うもの」という前提が、少しずつ崩れ始めている。
そんな転換点の一つとして、Bonsai Image 4B は記憶されるかもしれません。


参考: PrismML — Introducing 1-bit and Ternary Bonsai Image 4B: Image Generation for Local Devices

同じ著者の記事