TAG

#評価

8 件の記事がこのタグでまとめられています。

OpenRouter が $113M 調達・評価額 約 $1.3B — 「ルーティング層」の値段を運用者目線で読む
AI

OpenRouter が $113M 調達・評価額 約 $1.3B — 「ルーティング層」の値段を運用者目線で読む

LLM ルーティング基盤の OpenRouter が CapitalG 主導で $113M のシリーズBを調達し、報道では評価額が約 $1.3B と 1 年で倍増しました。モデルそのものではなく「束ねる層」になぜ値段がつくのか、複数モデルを自前で叩く運用者として gateway を外部に置く損得を翻訳して読みます。

2026年5月31日 12:16
Liquid AI の LFM2.5 8B-A1B を運用視点で読む — 「総8B・アクティブ1B」の意味
AI

Liquid AI の LFM2.5 8B-A1B を運用視点で読む — 「総8B・アクティブ1B」の意味

Liquid AI が 2026 年 5 月 28 日に公開した LFM2.5 8B-A1B は、総 8B・アクティブ 1B の MoE 構成です。メモリは 8B 級・1 回の推論で動くのは 1B という設計が、自前で LLM を回す運用にどう効くのか。公称スループットとメモリ 6GB の数字を物差しに、品質とのトレードオフまで読み解きます。

2026年5月31日 00:05
謎の LLM「Hy3」が OpenRouter 利用ランキングで Claude を 50% 超で抜いた — 運用者はランキングをどう読むか
AI

謎の LLM「Hy3」が OpenRouter 利用ランキングで Claude を 50% 超で抜いた — 運用者はランキングをどう読むか

出自のはっきりしない Tencent 製モデル Hy3 が、OpenRouter の利用ランキングで Claude をトークン量で 50% 超上回り首位に立った。だが input 98%・上位 5 app が 1% 未満という内訳を見ると、これは品質 No.1 ではなくトークン消費量の話だ。API 運用者として、ランキングの読み方・実効単価・ロックインの 3 点に翻訳して読みます。

2026年5月29日 18:05
5 つのフロンティア LLM は事実判定の 67% で割れる — AI に正誤を委ねる前に
AI

5 つのフロンティア LLM は事実判定の 67% で割れる — AI に正誤を委ねる前に

GPT-5.4 や Claude Opus 4.7 などフロンティア LLM 5 つに 1,000 件の主張を判定させると、67% で意見が割れた。Lenz の研究から、AI に事実の正誤を委ねる危うさと、多数決・人間レビューで補う実務の構えを、AI 起稿 + 人間レビューで記事を出す運用者の目線で整理します。

2026年5月29日 00:08
Embedding コストを 1/70 にした 3 つの工夫
AI

Embedding コストを 1/70 にした 3 つの工夫

hash で再計算スキップ / dim を 1536 → 256 / バッチング。月 $42 が $0.6 になった実測。

2026年5月9日 20:03
評価で曖昧さを残すケース
AI

評価で曖昧さを残すケース

すべてを 0/1 で判定したくなる衝動を抑える。「微妙に違う」を許容する評価設計が、本当の品質を測る。

2025年10月8日 20:00
プロンプトとログをまとめて版管理する
AI

プロンプトとログをまとめて版管理する

プロンプトだけ git で管理しても、変更後の挙動を追えない。input / output / プロンプトを 1 つのコミットに含める運用。

2025年8月27日 22:00
評価 (evaluation) を test として書く
AI

評価 (evaluation) を test として書く

プロンプトを改善する作業を「気分」で続けると 1 週間で迷う。RSpec のように、判定可能な eval suite を最初に書く。

2025年6月25日 21:00