TAG
#評価
8 件の記事がこのタグでまとめられています。

OpenRouter が $113M 調達・評価額 約 $1.3B — 「ルーティング層」の値段を運用者目線で読む
LLM ルーティング基盤の OpenRouter が CapitalG 主導で $113M のシリーズBを調達し、報道では評価額が約 $1.3B と 1 年で倍増しました。モデルそのものではなく「束ねる層」になぜ値段がつくのか、複数モデルを自前で叩く運用者として gateway を外部に置く損得を翻訳して読みます。

Liquid AI の LFM2.5 8B-A1B を運用視点で読む — 「総8B・アクティブ1B」の意味
Liquid AI が 2026 年 5 月 28 日に公開した LFM2.5 8B-A1B は、総 8B・アクティブ 1B の MoE 構成です。メモリは 8B 級・1 回の推論で動くのは 1B という設計が、自前で LLM を回す運用にどう効くのか。公称スループットとメモリ 6GB の数字を物差しに、品質とのトレードオフまで読み解きます。

謎の LLM「Hy3」が OpenRouter 利用ランキングで Claude を 50% 超で抜いた — 運用者はランキングをどう読むか
出自のはっきりしない Tencent 製モデル Hy3 が、OpenRouter の利用ランキングで Claude をトークン量で 50% 超上回り首位に立った。だが input 98%・上位 5 app が 1% 未満という内訳を見ると、これは品質 No.1 ではなくトークン消費量の話だ。API 運用者として、ランキングの読み方・実効単価・ロックインの 3 点に翻訳して読みます。

5 つのフロンティア LLM は事実判定の 67% で割れる — AI に正誤を委ねる前に
GPT-5.4 や Claude Opus 4.7 などフロンティア LLM 5 つに 1,000 件の主張を判定させると、67% で意見が割れた。Lenz の研究から、AI に事実の正誤を委ねる危うさと、多数決・人間レビューで補う実務の構えを、AI 起稿 + 人間レビューで記事を出す運用者の目線で整理します。

Embedding コストを 1/70 にした 3 つの工夫
hash で再計算スキップ / dim を 1536 → 256 / バッチング。月 $42 が $0.6 になった実測。

評価で曖昧さを残すケース
すべてを 0/1 で判定したくなる衝動を抑える。「微妙に違う」を許容する評価設計が、本当の品質を測る。

プロンプトとログをまとめて版管理する
プロンプトだけ git で管理しても、変更後の挙動を追えない。input / output / プロンプトを 1 つのコミットに含める運用。

評価 (evaluation) を test として書く
プロンプトを改善する作業を「気分」で続けると 1 週間で迷う。RSpec のように、判定可能な eval suite を最初に書く。