Vol.042025年10月8日
AI

評価で曖昧さを残すケース

すべてを 0/1 で判定したくなる衝動を抑える。「微妙に違う」を許容する評価設計が、本当の品質を測る。

SoSoraEndo2025年10月8日1 min255

0/1 では掬えないもの

要約タスクで「正解」を 1 つに固定すると、別の表現でより良い要約があっても落とすことになる。

3 段階評価

score: 1.0  完全に意図を捉えている
score: 0.7  本筋は合っているが細部に違和感
score: 0.3  方向は合っているが核を外している
score: 0.0  完全に外している

判定者の問題

この種の評価は人間 or LLM judge が必要。LLM judge の場合は

  • judge にも eval を書く(meta-eval)
  • 同じ事例を 3 回判定させて分散を測る
  • 人間評価と相関 0.8 以上を判定基準にする

曖昧さを残す勇気

0.7 が許される設計だと、改善の余地が見える。0/1 だと、変更の効果が「確率の上下」にしか見えなくなる。

まとめ

二値で測れない品質に、二値の物差しを当てない。曖昧さを保つ物差しを設計する勇気を持つこと。

Tags

Reaction

Share

X (Twitter)