CATEGORIES · 03 / 05

AI

モデル、プロンプト、alignment の周辺。数値と哲学の境界線で書く記事。（62 本）

Anthropic の脆弱性発見ハーネスを運用者目線で読む — Claude に C/C++ のバグを探させる

Anthropic が defending-code-reference-harness をオープンソース公開。脅威モデリング / スキャン / トリアージ / パッチ用の 5 つの Skill と、コードを実行して攻める 7 段の自律ハーネスで構成されています。Claude Opus 4.6 が OSS から 500 件超の脆弱性を見つけたという主張も含め、何が嬉しく何が難しいかを運用者目線で読みます。

2026年6月5日 09:04

Gemma 4 12B を運用者目線で読む — encoder-free で 16GB に載る統合マルチモーダル

Google が 2026 年 6 月 3 日に Gemma 4 12B を公開。vision encoder を単一行列積の埋め込みに置き換え、audio encoder は撤去する encoder-free 構成で、16GB の VRAM / unified memory があればラップトップで動きます。Apache 2.0 ライセンスの統合マルチモーダルモデルを、ローカル運用者の目線で読み解きます。

2026年6月4日 12:04

Microsoft MAI-Code-1-Flash を運用者目線で読む — 自社製コーディングモデルと「60% 少ないトークン」

Microsoft AI が 2026 年 6 月 2 日に発表した軽量コーディングモデル MAI-Code-1-Flash。Copilot harness 専用に焼いた自社製モデル路線と、SWE-Bench Pro の数字・トークン効率の主張を、API を毎日叩く運用者の目線で読みます。提灯ではなく、明日の選択に効く読み方を書きます。

2026年6月3日 12:04

Stanford CS336「LLM をゼロから作る」を、API 運用者目線で読む

Stanford CS336 は言語モデルをゼロから実装させる講義です。自分で学習しない API 運用者にとっても、tokenizer・推論・アライメントという「課金している層の地図」になる。5 課題を自分の請求書の注釈として読み替えます。

2026年6月2日 12:05

1-bit 量子化の Bonsai Image 4B をローカルで動かす — 運用者目線で読む

PrismML が公開した Bonsai Image 4B は、FLUX.2 Klein 4B を 1-bit / ternary に量子化し、iPhone でも 512×512 を 9.4 秒で生成します。メモリ・速度・品質のトレードオフを、API 推論を回す運用者目線で数字から読みます。

2026年6月1日 12:06

モデルの個性は post-training で決まる — API 運用者目線で読む

モデルの口調や癖は、学習データの量よりも post-training（RLHF / RLVR）で大きく決まります。Cybernetic Forests の記事を起点に、版が変わると個性が変わる理由と、API を本番で回す運用者として何に備えるかを整理します。

2026年6月1日 09:34

OpenRouter が $113M 調達・評価額約 $1.3B — 「ルーティング層」の値段を運用者目線で読む

LLM ルーティング基盤の OpenRouter が CapitalG 主導で $113M のシリーズBを調達し、報道では評価額が約 $1.3B と 1 年で倍増しました。モデルそのものではなく「束ねる層」になぜ値段がつくのか、複数モデルを自前で叩く運用者として gateway を外部に置く損得を翻訳して読みます。

2026年5月31日 12:16

Liquid AI の LFM2.5 8B-A1B を運用視点で読む — 「総8B・アクティブ1B」の意味

Liquid AI が 2026 年 5 月 28 日に公開した LFM2.5 8B-A1B は、総 8B・アクティブ 1B の MoE 構成です。メモリは 8B 級・1 回の推論で動くのは 1B という設計が、自前で LLM を回す運用にどう効くのか。公称スループットとメモリ 6GB の数字を物差しに、品質とのトレードオフまで読み解きます。

2026年5月31日 00:05

標準 GPU で LLM 推論 3000 tokens/s/req — 数字の前提を運用者目線で読む

Kog AI が 8 枚の標準 GPU で「1 リクエストあたり毎秒 3000 トークン」を出したと発表しました。確かに速いのですが、これは batch size 1 の単一リクエスト速度で、モデルは 2B。自前推論のコストとレイテンシを気にする運用者として、数字の前提と再現性を読みます。

2026年5月30日 06:06

謎の LLM「Hy3」が OpenRouter 利用ランキングで Claude を 50% 超で抜いた — 運用者はランキングをどう読むか

出自のはっきりしない Tencent 製モデル Hy3 が、OpenRouter の利用ランキングで Claude をトークン量で 50% 超上回り首位に立った。だが input 98%・上位 5 app が 1% 未満という内訳を見ると、これは品質 No.1 ではなくトークン消費量の話だ。API 運用者として、ランキングの読み方・実効単価・ロックインの 3 点に翻訳して読みます。

2026年5月29日 18:05

AI