SoSoraEndo2025年10月8日1 min255 字
0/1 では掬えないもの
要約タスクで「正解」を 1 つに固定すると、別の表現でより良い要約があっても落とすことになる。
3 段階評価
score: 1.0 完全に意図を捉えている
score: 0.7 本筋は合っているが細部に違和感
score: 0.3 方向は合っているが核を外している
score: 0.0 完全に外している
判定者の問題
この種の評価は人間 or LLM judge が必要。LLM judge の場合は
- judge にも eval を書く(meta-eval)
- 同じ事例を 3 回判定させて分散を測る
- 人間評価と相関 0.8 以上を判定基準にする
曖昧さを残す勇気
0.7 が許される設計だと、改善の余地が見える。0/1 だと、変更の効果が「確率の上下」にしか見えなくなる。
まとめ
二値で測れない品質に、二値の物差しを当てない。曖昧さを保つ物差しを設計する勇気を持つこと。