評価で曖昧さを残すケース

SoSoraEndo2025年10月8日1 min255 字

0/1 では掬えないもの

要約タスクで「正解」を 1 つに固定すると、別の表現でより良い要約があっても落とすことになる。

score: 1.0  完全に意図を捉えている
score: 0.7  本筋は合っているが細部に違和感
score: 0.3  方向は合っているが核を外している
score: 0.0  完全に外している

この種の評価は人間 or LLM judge が必要。LLM judge の場合は

0.7 が許される設計だと、改善の余地が見える。0/1 だと、変更の効果が「確率の上下」にしか見えなくなる。

二値で測れない品質に、二値の物差しを当てない。曖昧さを保つ物差しを設計する勇気を持つこと。