TAG
#評価
4 件の記事がこのタグでまとめられています。

AI
Embedding コストを 1/70 にした 3 つの工夫
hash で再計算スキップ / dim を 1536 → 256 / バッチング。月 $42 が $0.6 になった実測。
2026年5月9日

AI
評価で曖昧さを残すケース
すべてを 0/1 で判定したくなる衝動を抑える。「微妙に違う」を許容する評価設計が、本当の品質を測る。
2025年10月8日

AI
プロンプトとログをまとめて版管理する
プロンプトだけ git で管理しても、変更後の挙動を追えない。input / output / プロンプトを 1 つのコミットに含める運用。
2025年8月27日

AI
評価 (evaluation) を test として書く
プロンプトを改善する作業を「気分」で続けると 1 週間で迷う。RSpec のように、判定可能な eval suite を最初に書く。
2025年6月25日