動画で読む
0.2B が 10B 級に並ぶ、という主張をまず分解する
結論から書きます。Moebius は 2.2 億(0.22B)パラメータの画像インペインティング(画像の欠損部や消したい物体を、周囲と矛盾なく描き直す処理)モデルで、11.9B の FLUX.1-Fill-Dev のおよそ 2% 未満のサイズながら、6 つのベンチマークで 10B 級モデルと同等、一部では上回ったと主張しています。2026 年 6 月に Hacker News で話題になり、私もこの「2% で並ぶ」という一文で手が止まりました。
ただ運用者の立場で読むと、「並ぶ」という言葉は慎重に扱う必要があります。プロジェクトページの「並ぶ」は、特定のベンチマーク(Moebius の場合は Places2・CelebA-HQ・FFHQ)という限定された土俵での話で、自分の業務データでそのまま並ぶ保証はどこにもありません。正直に言えば、ベンチの「匹敵」は「自分のデータでは匹敵しない」ことの丁寧な言い換えになっていることがしばしばあります。ここを混同すると採用判断を一発で誤ります。
数字だけ先に置いておきます。サイズは 0.22B、比較対象の FLUX.1-Fill-Dev は 11.9B。アーキテクチャは潜在拡散モデル(Latent Diffusion Model、画像を圧縮した潜在空間で拡散を回す方式)に Local-λ Mix Interaction(LλMI)という独自ブロックを足したもの。詳細は Moebius のプロジェクトページ にまとまっています。開発は華中科技大学と vivo AI Lab の共同です。
速度の数字を運用コストに翻訳する
Moebius の主張のうち、運用に直接効くのはサイズより速度です。1 ステップ 26.01ms、10B 級モデルと比べて総ランタイムで 15 倍超の高速化、と書かれています。この数字は、バッチ処理の単価とエッジでのレイテンシにそのまま跳ね返ってきます。
以前、画像処理を大型モデルの API 任せにしていた時期があり、月末の請求を見て青くなったことがあります。1 枚あたりは数円でも、夜間バッチで数万枚を回すと効いてくる。あのときの教訓は LLM API のコスト暴走を「呼ばない」で防ぐ三段防御 に書きましたが、Moebius のような小型モデルは「そもそも安く回す」側の選択肢になります。下の表に、3 つの数字を運用の言葉へ置き換えてみます。
| 指標 | 数字 | 運用上の含意 |
|---|---|---|
| パラメータ数 | 0.22B(FLUX-Fill の 2% 未満) | VRAM 占有が小さく、消費者向け GPU に載りやすい |
| 1 ステップ | 26.01ms | バッチの単位時間あたり処理枚数が増える |
| 総ランタイム | 10B 比で 15 倍超 | 同じ GPU 時間で約 15 倍の枚数、裏返せば 1/15 のコスト |
表にすると当たり前に見えますが、現場では「速い」の一言が「同じ予算で 15 倍さばける」という具体に化けます。速度は機能ではなく、原価です。
なぜここまで小さくできたのか — LλMI と蒸留
小型化の肝は 2 つです。1 つは LλMI ブロックで、空間的な文脈と意味的な事前情報を固定サイズの線形行列に畳み込み、注意機構(Attention、画素同士の関係を総当たりで見る仕組み)にありがちな計算量の二乗爆発を避けたこと。もう 1 つは Adaptive Multi-Granularity Distillation(多粒度蒸留)で、大きな教師モデルの振る舞いを小さなモデルに写し取る手法です。
蒸留の作り込みが面白いところで、Moebius は PixelHacker を教師に使い、ピクセルへ戻す重いデコード処理を挟まず潜在空間のまま蒸留しています。さらに勾配ノルムに応じて損失の重みを自動調整する仕組みを入れ、学習の安定と効率を両立させたと説明されています。固定サイズの行列で文脈を持つ設計は、二乗で膨らむコストを線形に抑える典型的な筋で、ここがサイズと速度の両方に効いています。
小さくする道は 1 本ではありません。1-bit まで量子化で攻めた Bonsai Image 4B をローカルで動かす話 や、エンコーダを畳んで 16GB に載せた Gemma 4 12B と、Moebius は「消費者ハードに載せる」というゴールを共有しつつ、量子化ではなく構造と蒸留で詰めた、という違いがあります。
オンデバイス前提の損得を運用者目線で並べる
Moebius は最初から消費者向け・エッジデバイスを狙って設計されています。オンデバイスで画像処理を回す利点は、API 課金が消えること、ネットワーク往復のレイテンシが消えること、画像をクラウドに出さずに済むこと、の 3 点に集約されます。スマホで写り込んだ人を消す、といった用途では、この 3 つはどれも効きます。
一方で、損の側も正直に並べておきます。端末の発熱と電池消費、モデル更新をどう配布するか、そして同じモデルでも端末の GPU 世代で品質と速度がばらつくこと。サーバ集中なら 1 か所直せば済む更新が、オンデバイスでは全端末への配布問題になります。ローカル実行が「使える」水準に乗ってきた流れは ローカル LLM が『使える』に変わった 2026 年 でも書きましたが、画像の inpainting も同じ曲線の上にいる、というのが今回の読みどころです。
採用前に運用者として確かめる 4 点
最後に、私が Moebius を実務へ入れるとしたら確認する順番を書きます。(1) ライセンス、(2) 自分のデータでの再評価、(3) 失敗時のフォールバック、(4) 配布と更新の経路。この 4 つを先に潰すと、後の判断がぶれません。
ライセンスはプロジェクトページに商用可否の明記が見当たらないので、採用前に必ず原典で確認します。評価ドメインも要注意で、Places2 は風景、CelebA-HQ と FFHQ は顔の生成データセットです。製品写真や図面、医療画像のような自分のドメインでは、別途自分の画像で測り直す前提を崩せません。私は昔、顔のベンチで好成績だった軽量モデルを製品写真の背景除去に流用し、髪の生え際ではなく商品の落とす影で盛大に崩れて、結局大型モデルに戻したことがあります。だからこそ、崩れたら大型モデルへ回すフォールバック経路を最初から用意しておく。小ささは武器ですが、無条件の置き換えではなく「安く速い一次処理」として置くのが、いちばん事故が少ない使い方でした。
この記事は Moebius のプロジェクトページと Hacker News の議論を起点に、運用者としての判断軸を加えて書いています。下書きは AI が起こし、運営者である私が公開前に内容を確認・編集して公開しました。
よくある質問
- 0.2B の Moebius が本当に 10B 級に並ぶのですか?
- プロジェクトページは Places2・CelebA-HQ・FFHQ の 6 ベンチで FLUX.1-Fill-Dev や SD3.5 Large-Inpainting と同等以上と主張します。ただし評価は限定ドメインの話で、自分の業務画像で同じ結果が出る保証はありません。採用前の自前評価は欠かせません。
- 速度はどのくらい速いのですか?
- 1 ステップ 26.01ms、10B 級モデルとの比較で総ランタイム 15 倍超の高速化を主張しています。バッチ処理では同じ GPU 時間でさばける枚数が増え、原価に直結します。
- なぜそんなに小さくできたのですか?
- 固定サイズの線形行列で文脈を持つ LλMI ブロックで注意機構の二乗コストを避け、PixelHacker を教師にした潜在空間での多粒度蒸留でサイズを詰めたと説明されています。量子化とは別ルートの小型化です。
- オンデバイスで動かす利点は何ですか?
- API 課金が消える、ネットワーク往復のレイテンシが消える、画像をクラウドに出さずに済む、の 3 点です。代わりに端末の発熱・電池消費とモデル配布・更新の運用が新たな課題になります。