世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-06-04

1bitとTernaryでここまで小さくなる？ PrismMLの「Bonsai Image 4B」が面白い

記事のキーポイント

PrismMLが、ローカル端末向けの画像生成モデル Bonsai Image 4B を公開
1-bit版とTernary版の2種類があり、どちらも かなり小さいのに高性能 を狙っている
iPhoneで直接動く のが大きな売り。4Bクラスの画像モデルとしてはかなり野心的
1-bit版は「とにかく軽さ重視」、Ternary版は「軽さと画質のバランス重視」
クラウドではなく 端末内で画像生成できる ので、速度・コスト・プライバシーの面で強い

何が発表されたのか

PrismMLが発表したのは、Bonsai Image 4B という画像生成モデルです。
ひとことで言うと、スマホやノートPCなど、手元の端末で動かしやすい画像生成AI です。

しかも普通の「軽量化しました」ではなく、かなり攻めています。
このモデルは2種類あります。

1-bit Bonsai Image 4B
- 重み（モデル内部のパラメータの持ち方）を binary、つまり -1 と +1 の2値 に近い形で表現
- 圧縮率を最優先した版
Ternary Bonsai Image 4B
- 重みを -1、0、+1 の3値 で表現
- 1-bit版より少し大きいが、画質とプロンプトへの忠実さが改善される版

個人的には、この「軽さを取るか、画質を取るか」を最初から2択で出してくるのがかなり実用的だと思います。
AIモデルって、つい「大きいほど良い」で語られがちですが、実際は用途次第なんですよね。

まず大事な前提：画像生成は“モデルがデカい”とつらい

この記事のポイントは、画像生成の品質そのものだけではありません。
むしろ重要なのは、端末に載るかどうか です。

画像生成モデル、とくに diffusion model は、1回画像を作るたびに何度も同じ処理を繰り返します。
その中心にあるのが diffusion transformer で、これが大きいと

メモリをたくさん食う
通信帯域や読み込みも重い
端末上での実行が難しくなる

という問題が出ます。

つまり、画像生成AIは「賢いかどうか」だけでなく、現実の端末で快適に動くか が超重要です。
ここを詰めてきたのが Bonsai Image 4B です。

何がすごいのか：モデルの“中身”を激しく圧縮している

Bonsai Image 4B は、ベースとして FLUX.2 Klein 4B を使っています。
ただし、アーキテクチャ自体を別物にしたのではなく、transformerの重み表現を binary / ternary に変えている のがポイントです。

元記事の数値を見ると、かなりインパクトがあります。

diffusion transformer のサイズ比較

FLUX.2 Klein 4B: 7.75 GB
1-bit Bonsai Image 4B: 0.93 GB
Ternary Bonsai Image 4B: 1.21 GB

これはかなり大胆です。
1-bit版は 8.3倍の圧縮、Ternary版は 6.4倍の圧縮 です。

しかも、完全に全部を極端に削っているわけではありません。
精度に敏感な一部の補助テンソル、記事では projection layers と呼ばれている部分は、約5%ほど FP16 のまま残しています。
この「全部を雑に削るんじゃなく、壊れやすい場所はちゃんと残す」感じが、実務っぽくて好きです。

1-bit版とTernary版、どう違う？

ここはかなり重要です。

1-bit Bonsai Image 4B

最小フットプリント重視
transformer本体が 0.93 GB
なるべく少ないメモリで動かしたいとき向き

Ternary Bonsai Image 4B

画質と忠実度重視
transformer本体が 1.21 GB
1-bit版より少し大きいが、そのぶん表現力が上

元記事では、Ternary版のほうが visual quality と prompt fidelity が改善すると説明しています。
prompt fidelity は、ざっくり言えば 「ユーザーの指示をどれだけちゃんと守るか」 です。

ここ、地味に重要です。
画像生成AIって、見た目がきれいでも「赤い帽子って言ったのに青い」「3人って言ったのに2人」みたいなことが起こるので、指示への忠実さ はかなり大切なんですよね。

実際にどれくらい軽いのか

記事では、Apple Silicon 向けのデプロイ時サイズも出ています。

1-bit Bonsai Image 4B: 3.42 GB
Ternary Bonsai Image 4B: 3.88 GB
FLUX.2 Klein 4B: 15.97 GB

この差はかなり大きいです。
要するに、フル精度版だと重すぎて載せづらい端末でも、Bonsaiなら現実的になる という話です。

さらに、実行時に必要なメモリもかなり抑えられています。
たとえば 512x512 の画像生成時の平均使用メモリは、

1-bit版: 1.5 GB
Ternary版: 1.96 GB
元の FLUX.2 Klein 4B: 11.74 GB

1024x1024 の場合でも、

1-bit版: 1.95 GB
Ternary版: 2.38 GB
元の FLUX.2 Klein 4B: 14.39 GB

という差です。

正直、この数字を見ると「そりゃローカルで動かせるわけだ」と納得します。
特にスマホはメモリの制約が厳しいので、この差はかなり現実的です。

iPhoneで直接動く、というのがかなり大きい

記事では、iPhone 17 Pro Max でフル精度版はメモリに収まらないが、Bonsai Image の2種類はオンデバイスで動く としています。
さらに、PrismMLは iPhone上で直接動く4Bクラスの画像モデルとしては初めて と主張しています。

これ、もし本当に安定して使えるならかなり大きいです。
なぜかというと、画像生成は「クラウドに投げる」のが普通だったからです。

でもローカルで動くと、

サーバー代が減る
通信待ちが減る
オフラインでも使える可能性が出る
プライバシー面で有利

というメリットがあります。

特に最後の プライバシー は大事です。
プロンプトって、かなり個人的な内容が入ることがありますよね。
「この人の顔に近いイメージで」「この部屋の構図で」「社外秘のアイデアをラフに可視化して」みたいな使い方を考えると、端末内で完結する価値は大きいと思います。

速度はどうなのか

PrismMLによると、生成速度は以下の通りです。

iPhone 17 Pro Max: 512x512 を 9.4秒
Mac M4 Pro: 約 6秒

さらに Mac M4 Pro では、Bonsai Image 4B は 標準のフル精度 MFLUX パイプラインより最大5.6倍速い とされています。

ここはかなり現実的な進化です。
画像生成って、数十秒待つと地味にストレスがたまるので、1枚10秒弱 で出るなら体験はかなり変わります。
「思いついたらすぐ試せる」ラインに近づくので、試行回数が増え、結果的に作品の質も上がりやすいはずです。

画質は落ちていないのか？ベンチマークを見る

軽くしたら画質が落ちるのでは、というのは当然の疑問です。
そこを確認するために、PrismMLは3つのベンチマークを使っています。

GenEval
- 物体の組み合わせや属性の対応を見る
HPSv3
- 人間の好みや美的品質を見る
DPG-Bench
- 細かいプロンプト追従や意味的な忠実さを見る

結果はこうです。

ベンチマーク比較

1-bit Bonsai Image 4B
- GenEval: 0.671
- HPSv3: 11.15
- DPG-Bench: 0.822
- FLUX.2 Klein 4B比で 88%
Ternary Bonsai Image 4B
- GenEval: 0.723
- HPSv3: 12.22
- DPG-Bench: 0.851
- FLUX.2 Klein 4B比で 95%
FLUX.2 Klein 4B
- GenEval: 0.819
- HPSv3: 12.84
- DPG-Bench: 0.853