Bonsai Image 4B はどのデバイスで動きますか？

iPhone / iPad / Mac の Apple Silicon と CUDA GPU で動きます。iPhone 17 Pro Max で 512×512 を 9.4 秒、Mac M4 Pro で約 6 秒で生成でき、ライセンスは Apache 2.0 の open weights です。

1-bit と ternary はどちらを使えばよいですか？

品質を優先するなら ternary（三値）です。元モデルの 95% を維持しつつメモリは 6.4 分の 1 です。最小サイズ重視なら 1-bit で、88% 維持・8.3 分の 1 になります。実務では ternary が落とし所になりやすいです。

なぜ 1-bit まで削っても品質が残るのですか？

重みの符号だけを 1-bit で持ち、大きさはグループ共通の FP16 スケーリング係数で後から復元するためです。実効ビット数は 1-bit 版でも 1.125 bit あり、この上乗せが品質を支えています。

量子化は推論コストにどう影響しますか？

メモリ使用量が 8.3 分の 1 になると、これまで GPU サーバが必須だった処理が端末で完結しうるため、サーバの時間課金の一部が不要になります。律速はメモリ帯域なので、軽い重みほど速く動きます。

1-bit 量子化の Bonsai Image 4B をローカルで動かす — 運用者目線で読む

SoSoraEndo2026年6月1日 12:068 min1,617 字

動画で読む

結論: 4B の画像生成モデルが 1-bit 量子化で iPhone に載った

結論から書きます。PrismML が 2026 年 5 月 26 日に公開した Bonsai Image 4B は、40 億パラメータの画像生成モデルを 1-bit まで圧縮し、iPhone 17 Pro Max で 512×512 の画像を 9.4 秒で生成します。元の FLUX.2 Klein 4B が transformer だけで 7.75 GB だったものを、1-bit 版は 0.93 GB（8.3 分の 1）まで縮めました。手元のスマホで画像生成モデルが回る、という話が現実の数字として出てきたわけです。

きっかけは PrismML の Bonsai Image 4B の発表でした。重みを極端に削れば品質も削れる、という直感は正しいのですが、その「削れ方」が思ったより緩やかだったのです。私は普段 LLM の API を本番で回している側なので、これは抽象論ではなく推論コストの話として読みました。

Bonsai Image 4B とは — FLUX.2 Klein 4B を 1-bit / ternary 化したもの

Bonsai Image 4B は、画像生成モデル FLUX.2 Klein 4B をベースに、重みを 1-bit（{−1, +1} の 2 値）または ternary（三値、{−1, 0, +1}）へ量子化したモデルです。ライセンスは Apache 2.0 の open weights で、iPhone / iPad / Mac（Apple Silicon）と CUDA GPU で動きます。

量子化（quantization、重みをより低い精度の数値で表す圧縮手法）は LLM では BitNet などで先行していましたが、画像生成の拡散モデルに 1-bit を効かせた事例はまだ珍しい。スケーリング係数だけ FP16（16 bit 浮動小数点）でグループごとに持つので、実効ビット数は 1-bit 版で 1.125 bit、ternary 版で 1.71 bit になります。「1 bit」と言いつつ完全な 1 bit ではない。この 0.125 の上乗せが品質を支えている部分です。

数字を読む — メモリ・速度・品質のトレードオフ

トレードオフは「メモリと速度は劇的に得、品質は緩やかに損」とまとめられます。発表ページの数字を並べます。

指標	1-bit	ternary	元 (FLUX.2 Klein 4B)
transformer サイズ	0.93 GB	1.21 GB	7.75 GB
配布パッケージ (Apple Silicon)	3.42 GB	3.88 GB	15.97 GB
512×512 の実効メモリ	1.5 GB	1.96 GB	—
品質維持率	88%	95%	100%

速度は Mac M4 Pro で約 6 秒、stock の FLUX より 5.6 倍速いとされています。品質は GenEval / HPSv3 / DPG-Bench で評価され、ternary が元の 95%、1-bit が 88% を維持。私の感覚では、5% 落ちで 6.4 分の 1 になる ternary が実務の落とし所で、最後の数 % をどうしても削れない用途だけ元モデルを GPU で回す、という二段構えになります。

なぜ品質が 88% も残るのか — group-wise scaling の効き方

重みを 2 値や 3 値まで潰しても品質が大きく崩れないのは、グループ単位の FP16 スケーリング係数が「振れ幅」を保存しているからです。重みの符号（±）だけを 1-bit で持ち、その大きさはグループ共通の係数で後から復元する仕組みです。

この発想は LLM 側の BitNet b1.58（重みを三値にする 1-bit LLM の研究）と同じ系譜にあります。面白いのは、ternary（1.58 bit 相当）が 1-bit より品質を保つ傾向が、画像生成でも再現した点です。0 を表現できる三値は「その重みを使わない」という選択肢を持てるので、疎な構造を素直に表せます。LLM で見た現象が拡散モデルでも出る、というのは量子化の一般性を示していて、地味に重要だと思いました。

運用者として何が変わるか — 推論コストの置き場所が動く

運用者目線での一番の変化は、推論コストの置き場所がサーバからデバイスへ動きうることです。これまで画像生成は GPU サーバの時間課金が前提でした。端末で 6〜9 秒で回るなら、その課金の一部は消えます。

私は LLM の推論を標準 GPU で 3000 tokens/s/req という数字を運用者目線で読んだときにも同じことを考えました。総パラメータとアクティブパラメータを分けて読む話は Liquid の LFM2.5 8B-A1B の記事でも書きましたが、量子化はそれとは別の軸で「載る／載らない」を決めます。8.3 分の 1 になると、これまで「サーバ必須」だった機能が「端末で十分」に変わります。副次的な効果として、画像が端末から外に出ないのでプライバシー面の説明も楽になりますし、オフラインでも動く。サーバ課金とネットワーク前提が同時に外せるのは、運用の設計図をかなり身軽にします。

正直に書くと、私は最初この 9.4 秒という数字を疑いました。手元の MacBook Air M2 で stock の拡散モデルを回すと平気で 1 分はかかるからです。試しに小さい量子化モデルをいくつか触ってみて、メモリに載りさえすれば速い、という当たり前を体で理解しました。律速はだいたいメモリ帯域で、重みが軽いほど読み出しが速い。私のマシンはずっと「重いから遅い」のではなく「載らないから遅い」だったわけです。

なお、このサイトの記事は AI が下書きを書き、私が公開前に確認・編集して出しています。今回の数字も発表ページと照らし合わせながら直しました。

まとめ

1-bit / ternary 量子化は、画像生成モデルの「動く場所」を書き換えます。運用者として持ち帰る点を並べます。

Bonsai Image 4B は FLUX.2 Klein 4B を 1-bit (1.125 bit) / ternary (1.71 bit) に量子化した Apache 2.0 の open weights
メモリは 8.3 分の 1（1-bit, 0.93 GB）、品質は 88〜95% を維持。実務の落とし所は ternary
iPhone 17 Pro Max で 512×512 を 9.4 秒、Mac M4 Pro で約 6 秒
律速はメモリ帯域。「重いから遅い」ではなく「載らないから遅い」を疑う
推論コストの一部がサーバから端末へ動きうる。サーバ前提の設計を見直す契機になる

重みを削るのではなく、符号だけ残して大きさは後から戻す。量子化が見せるのは、情報をどこまで捨ててよいかの線引きだ。

よくある質問

Bonsai Image 4B はどのデバイスで動きますか？: iPhone / iPad / Mac の Apple Silicon と CUDA GPU で動きます。iPhone 17 Pro Max で 512×512 を 9.4 秒、Mac M4 Pro で約 6 秒で生成でき、ライセンスは Apache 2.0 の open weights です。
1-bit と ternary はどちらを使えばよいですか？: 品質を優先するなら ternary（三値）です。元モデルの 95% を維持しつつメモリは 6.4 分の 1 です。最小サイズ重視なら 1-bit で、88% 維持・8.3 分の 1 になります。実務では ternary が落とし所になりやすいです。
なぜ 1-bit まで削っても品質が残るのですか？: 重みの符号だけを 1-bit で持ち、大きさはグループ共通の FP16 スケーリング係数で後から復元するためです。実効ビット数は 1-bit 版でも 1.125 bit あり、この上乗せが品質を支えています。
量子化は推論コストにどう影響しますか？: メモリ使用量が 8.3 分の 1 になると、これまで GPU サーバが必須だった処理が端末で完結しうるため、サーバの時間課金の一部が不要になります。律速はメモリ帯域なので、軽い重みほど速く動きます。

参考文献

Reaction

X (Twitter)

AI8 min

1-bit 量子化の Bonsai Image 4B をローカルで動かす — 運用者目線で読む

動画で読む

結論: 4B の画像生成モデルが 1-bit 量子化で iPhone に載った

Bonsai Image 4B とは — FLUX.2 Klein 4B を 1-bit / ternary 化したもの

数字を読む — メモリ・速度・品質のトレードオフ

なぜ品質が 88% も残るのか — group-wise scaling の効き方

運用者として何が変わるか — 推論コストの置き場所が動く

まとめ

よくある質問

参考文献

Reaction

Share

コーディング評価の signal と noise を運用者目線で切り分ける

ZCode を運用者目線で読む — GLM-5.2 の公式ハーネスとロックインの綱引き

OpenAI 初の自社チップ Jalapeño を運用者目線で読む — 自社シリコンは API 利用者に何をもたらすか

動画で読む

結論: 4B の画像生成モデルが 1-bit 量子化で iPhone に載った

Bonsai Image 4B とは — FLUX.2 Klein 4B を 1-bit / ternary 化したもの

数字を読む — メモリ・速度・品質のトレードオフ

なぜ品質が 88% も残るのか — group-wise scaling の効き方

運用者として何が変わるか — 推論コストの置き場所が動く

まとめ

よくある質問

参考文献

Reaction

Share

あわせて読みたい

コーディング評価の signal と noise を運用者目線で切り分ける

ZCode を運用者目線で読む — GLM-5.2 の公式ハーネスとロックインの綱引き

OpenAI 初の自社チップ Jalapeño を運用者目線で読む — 自社シリコンは API 利用者に何をもたらすか