AI

謎の LLM「Hy3」が OpenRouter 利用ランキングで Claude を 50% 超で抜いた — 運用者はランキングをどう読むか

出自のはっきりしない Tencent 製モデル Hy3 が、OpenRouter の利用ランキングで Claude をトークン量で 50% 超上回り首位に立った。だが input 98%・上位 5 app が 1% 未満という内訳を見ると、これは品質 No.1 ではなくトークン消費量の話だ。API 運用者として、ランキングの読み方・実効単価・ロックインの 3 点に翻訳して読みます。

CBClaude Bot2026年5月29日 18:058 min1,892

動画で読む

結論 — ランキング首位は「品質 No.1」ではなく「最もトークンを食った」だけ

2026 年 5 月 25 日、OpenRouter(複数の LLM を 1 つの API でルーティングするサービス)のモデル利用ランキングで、出自のはっきりしない「Hy3」というモデルが首位に立ちました。しかも 2 位以下を引き離す形で、Claude をトークン利用量で 50% 以上も上回っています。私のように Claude を API として auto-publish に組み込んでいる側からすると、まず確認すべきは「このランキングは何を測っているのか」です。結論から書くと、これは品質ランキングではなくトークン消費量ランキングで、首位 = 一番賢い、ではありません。

なお、この記事は AI が下書きを書き、私が一次情報に当たって数字を確認・編集してから公開しています。Hy3 を持ち上げるでも貶すでもなく、運用判断に効く読み方だけを抜き出します。

何が起きたか — Tencent の Hy3 が Claude を利用量で 50% 超で抜いた

事実を整理します。Hy3 は Tencent が出したオープンソースモデルの preview で、OpenRouter からは SiliconFlow という 1 プロバイダ経由でのみ叩けます。2026 年 5 月 25 日時点で、この Hy3 が利用量ランキングのトップに躍り出ました。

不思議なのは、これだけ使われているのに話題がほとんど無いことです。記事の著者 Max Woolf が Hacker News を検索しても引っかかったのは 1 件、Reddit の議論もまばら。普通、ランキング上位の新モデルは初日から賑わいます。ベンチマーク上の性能は「他の中国製モデルと同程度」で、Claude Opus 4.7 や GPT 5.5 と張り合う水準ではないとされています。賢さで選ばれて伸びた、という筋ではなさそうです。詳細は minimaxir の Hy3 分析記事 にあります。

ニュースの数字を運用に翻訳する作法は、以前 Anthropic と OpenAI の PMF を Simon Willison の 5 つの数字で読む でも書きました。やることは同じで、首位という見出しに飲まれず、内訳を見ます。

トークン量ランキングの正体 — 98% が input、上位 5 app が 1% 未満

このランキングの首位を額面どおり受け取れない理由は、内訳にあります。Hy3 の利用は集計で input が 98%、output はわずか 2%。さらに上位 5 アプリを足しても全体の 1% 未満という、異様に分散した使われ方をしています。

これは対話用途の形ではありません。人間が chat で使えば、質問(input)に対して長い回答(output)が返るので output 比率はもっと上がります。input が 98% というのは、大量の文章を「読ませて分類・抽出だけさせる」ようなデータ処理のパターンに近い。Max Woolf も「Tencent と無関係の単一の大きなアプリが、Hy3 をデータ処理の背骨に使っているのでは」と推測しています。つまり首位の正体は、たぶん一握りのバッチ処理。賢さの投票結果ではなく、トークンを大量に流す用途が 1 つあるだけ、という読み方になります。

私が事実判定をモデルに丸投げしない理由は 5 つのフロンティア LLM は事実判定の 67% で割れる に数字付きで書きましたが、ランキングも同じで、集計値は「誰が何のために使ったか」を見ないと意味を取り違えます。

実効単価のからくり — 表示 $0.066 が SiliconFlow 経由で $0.034 になる

巨大なトークン量を説明するもう 1 つの軸が価格です。Hy3 の input 単価は表示上 $0.066 / 1M トークンですが、SiliconFlow 経由の実効単価は $0.034 / 1M まで下がります。桁違いに安いと、データ処理用途のトークンはいくらでも流せます。

ここで効いてくるのが OpenRouter のルーティングです。同じモデルでも、どのプロバイダに流すかで実効単価が変わる。比較対象の DeepSeek V4 Flash も、表示 $0.10 が DeepSeek 自身を provider にすると $0.018 まで落ちます。表示価格だけ見て「高い / 安い」を判断すると、実際の請求と食い違う。私が auto-publish のトークンを削るとき、単価より先に消費量から攻める話は コンテキストエンジニアリングでトークン消費を半分にした実務観点 に書きました。単価は表示とプロバイダで動くので、当てにしすぎない方が安全です。

私はなぜ「最安の謎モデル」に自動で流さないか

ランキング首位 + 激安、と聞くと自動ルーティングで全部そこに流したくなりますが、私はやりません。理由は、出自と継続性が読めないモデルに運用の重心を預けると、出口を失うからです。

Hy3 は free 期間が 2026 年 5 月 8 日ごろに終わり、有料化後も利用が落ちなかった、という経緯があります。安定して見えますが、preview の 1 プロバイダ専売で、いつ値上げ・提供停止になっても文句は言えません。私の auto-publish は Claude にべったり依存している一方で、プロンプトと品質判定はモデル非依存の素のテキストとスクリプトに寄せてあります。明日まったく別のモデルに替えても骨組みは動く。安さに釣られて謎モデルに本文を書かせ、品質と出口の両方を失うのは、私の指がいちばんやりがちな失敗なので、ここは意識して手を止めています(安いと聞くと反射でクリックする指は、たぶん一生直りません)。依存と乗り換え可能性の話は Anthropic が $65B 調達・評価額 $965B を API 運用者として読む でも触れました。

まとめ — ランキングは「読み方」を持って初めて運用判断になる

Hy3 の一件から私が手元に落とせたのは、「利用量ランキング ≠ 品質ランキング」「実効単価は表示とプロバイダで動く」「出自不明 + 激安に重心を預けない」の 3 行でした。首位という見出しは目を引きますが、input 98% という内訳まで降りて初めて、自分のルーティング設計に書き戻せます。

AI が起稿し、私が一次情報で確認して公開する 二段階のパイプライン は、どのモデルが流行っても変えません。流行りのモデルに乗るかどうかの最後のつまみは、数字の内訳を読んでから、人間の私が回します。

Tags

よくある質問

Hy3 とはどんなモデルですか?
Tencent が公開したオープンソースモデルの preview で、OpenRouter からは SiliconFlow という 1 プロバイダ経由でのみ利用できます。ベンチマーク性能は他の中国製モデルと同程度で、Claude Opus 4.7 や GPT 5.5 と張り合う水準ではないとされています。
Hy3 が OpenRouter ランキング首位なのは品質が高いからですか?
いいえ。このランキングはトークン消費量を測るもので、品質ランキングではありません。Hy3 は利用が input 98%・上位 5 app が全体の 1% 未満と偏っており、単一の大規模なデータ処理用途が大量のトークンを流している可能性が指摘されています。
Hy3 のトークン単価はいくらですか?
input 単価は表示上 $0.066 / 1M トークンですが、SiliconFlow 経由の実効単価は $0.034 / 1M まで下がります。OpenRouter ではどのプロバイダに流すかで実効単価が変わるため、表示価格だけで高い・安いを判断すると実際の請求と食い違います。
利用量ランキングで上位のモデルに乗り換えるべきですか?
ランキング首位は「最も賢い」ではなく「最もトークンを消費した」を意味します。出自や継続性が読めないモデルに運用の重心を預けると出口を失うため、内訳と提供体制を確認し、プロンプトや品質判定はモデル非依存に保つのが安全です。

参考文献

  1. The mysterious Hy3 LLM is topping OpenRouter Model Rankings by a large margin — Max Woolf (minimaxir)
  2. OpenRouter Rankings
  3. SiliconFlow

Reaction

Share

X (Twitter)