動画で読む
結論: エンコーダを捨てて、12B が 16GB に載った
Google が 2026 年 6 月 3 日に Gemma 4 12B を公開しました。最大の特徴は encoder-free(専用エンコーダを持たない統合マルチモーダル)構成 で、画像用の vision encoder を「1 回の行列積だけの軽い埋め込みモジュール」に置き換え、音声用の audio encoder は丸ごと取り払って raw audio をテキストトークンと同じ次元空間へ射影しています。結果、12B というサイズで 16GB の VRAM / unified memory があれば手元のラップトップで動く。ライセンスは Apache 2.0。運用者として最初に押さえるのはこの一点です。
私は Rails と Next.js を本番で回す側で、ローカル LLM は MacBook Air M2(メモリ 16GB)で Ollama を通して触る程度です。その「16GB」がちょうど Google の挙げる動作要件と一致していて、リリースノートを読みながら少しニヤついてしまいました。手元で動く、という条件は運用判断を一気に現実的にします。
encoder-free が「捨てた」もの
要点から。encoder-free とは、マルチモーダル入力ごとに別建てしていた重いエンコーダを廃し、入力を直接モデル本体の埋め込み空間へ流し込む設計です。Gemma 4 12B はこれを画像と音声の両方でやっています。
公式の説明は具体的です。画像については「vision encoder を、単一の行列積からなる軽量な埋め込みモジュールに置き換えた」。音声については「audio encoder を完全に取り除き、raw audio 信号をテキストトークンと同じ次元空間へ射影した」。前処理の塔を 2 本まるごと削り、モデル本体に処理を寄せた格好です。音声入力に対応した中サイズモデルとしては Gemma 初、とも書かれています。
この設計が効くのは、運用のシンプルさです。エンコーダが別建てだと、画像用・音声用のサブモデルそれぞれにメモリと依存関係がぶら下がる。1 本のモデルに寄せれば、デプロイ単位が 1 つで済み、量子化やランタイム差し替えの検証も 1 回で終わります。私は以前 1-bit 量子化のBonsai Image 4B をローカルで動かしたとき、画像パイプラインの周辺依存で環境が膨らんで苦労しました。塔が減るのは、地味だが運用者には嬉しい。
16GB に載る、という運用上の意味
結論。「16GB の VRAM / unified memory で動く」は、クラウド GPU を借りずに手元で推論を完結できる、という意味で運用の自由度を変えます。
ここが私には一番刺さりました。16GB は今どきのラップトップの標準ライン上で、私の M2 Air もちょうどそこにいます。API に毎リクエスト課金される構成と違い、ローカルで動くモデルは叩いても財布が痛まない。試行錯誤の回数を気にしなくてよくなるのは、開発体験として大きい。配布先も Hugging Face / Kaggle / LM Studio / Ollama / Google AI Edge Gallery / LiteRT-LM CLI と揃っていて、Ollama 派の私はその場で pull して試せます。
MTP drafter と「26B に迫る」ベンチの読み方
先に要点。Gemma 4 12B は Multi-Token Prediction(MTP、複数トークンをまとめて先読みする仕組み)の drafter でレイテンシを下げ、ベンチ性能は上位の 26B MoE モデルに迫る、と公式は主張しています。数字は鵜呑みにせず前提を見る、が運用者の構えです。
「12B なのに 26B に迫る」という売り文句は魅力的ですが、ベンチの種類と測定条件で順位は動きます。少ないパラメータで上を狙う流れ自体は最近の定番で、Liquid AI のLFM2.5 8B-A1Bや Microsoft のMAI-Code-1-Flashも「小さく速く」を掲げていました。MTP も推論を速くする工夫の一つで、効く場面と効かない場面があります。順位表の一行より、自分のユースケースでのレイテンシと出力品質を測るほうが信用できます。
小さくて速い、はもう驚きではなくなった。驚くべきは、それが手元のラップトップで無料で回る点だ。
運用者として、Gemma 4 12B をどう迎えるか
結論。今すぐ本番に差し込む話ではなく、「ローカルで完結する統合マルチモーダルの選択肢が 1 つ増えた」として低リスクに試す段階です。判断材料を 3 つに絞ります。
まず、ライセンスが Apache 2.0 で商用利用のハードルが低い。社内ツールや個人プロダクトに組み込みやすく、ここは素直に追い風です。次に、encoder-free でデプロイ単位が 1 本にまとまるので、画像と音声を 1 モデルで賄いたいローカル用途と相性が良い。最後に、期待値を正しく置く。「26B に迫る」も「16GB で動く」も前提付きの主張なので、自分の端末・自分のタスクで実測してから採否を決めるのが、運用者として一番ズレない受け止め方だと思います。
ちなみに本ブログは、AI が下書きを書き、私が公開前に確認・編集して投稿する形で運用しています。この Gemma の記事も同じで、ローカルモデルの話を書きながら「次に手元で試すのはこれだな」とメモしている自分がいました。
まとめ: 塔を 2 本減らして、手元に降りてきた
Gemma 4 12B は、エンコーダを削って統合し、16GB のラップトップに載る統合マルチモーダルモデルです。持ち帰る点を並べます。
- 2026 年 6 月 3 日リリース、Apache 2.0。vision encoder は単一行列積の埋め込みに、audio encoder は撤去して raw audio をテキスト次元へ射影
- 16GB の VRAM / unified memory で動作。Hugging Face / Kaggle / LM Studio / Ollama 等で配布
- MTP drafter でレイテンシ低減、ベンチは 26B MoE に迫ると主張(前提は要確認)
- 音声入力に対応した中サイズ Gemma としては初
私はまず M2 Air の Ollama で pull して、画像と音声を 1 本で投げてみるところから始めます。順位表ではなく、手元のレイテンシから採否を決めます。
よくある質問
- Gemma 4 12B の encoder-free とは何を指しますか?
- マルチモーダル入力ごとに別建てしていた専用エンコーダを廃し、入力を直接モデル本体の埋め込み空間へ流す設計です。画像は vision encoder を単一の行列積からなる軽量モジュールに置き換え、音声は audio encoder を撤去して raw audio をテキストトークンと同じ次元空間へ射影しています。
- Gemma 4 12B はどのくらいのメモリで動きますか?
- 公式は 16GB の VRAM または unified memory を持つ消費者向けラップトップでローカルに動くとしています。ただし実用的なスループットは量子化レベルや他アプリのメモリ消費に左右されるため、自分の端末で実測するのが安全です。
- ライセンスと入手先は何ですか?
- ライセンスは Apache 2.0 で商用利用のハードルが低めです。配布先は Hugging Face、Kaggle、LM Studio、Ollama、Google AI Edge Gallery App、LiteRT-LM CLI などが挙げられています。
- 「26B に迫る」性能はそのまま信じてよいですか?
- 公式は MTP(Multi-Token Prediction)drafter でレイテンシを下げ、ベンチ性能が上位の 26B MoE モデルに迫ると主張しています。ベンチは種類と測定条件で順位が変わるため、自分のユースケースでレイテンシと出力品質を実測してから判断することをおすすめします。