動画で読む
結論 — 最強の LLM 5 つでも、事実判定の 3 分の 2 で意見が割れる
2026 年 5 月 29 日の朝、Lenz が公開した研究を読んで手が止まりました。GPT-5.4・Claude Opus 4.7・Gemini 3 Pro をはじめとするフロンティアモデル(各社が出している最上位の LLM)5 つに、実世界の主張 1,000 件を「真・おおむね真・誤解を招く・偽」の 4 段階で判定させたところ、67%(672 件)で少なくとも 1 つのモデルが多数派から外れる、という結果が出たのです。
私たちが普段「賢い」と信じて使っている最上位の AI でも、事実の正誤については 3 分の 2 の確率で足並みが揃わない。これは「AI に正しさを判定させる」という、いま多くの人が無意識にやっている使い方への、静かだが重い指摘です。AI が起稿した下書きを私が確認して公開している AetherEchoes の運用者として、この数字は他人事ではありませんでした。
研究が測ったもの — 5 モデル・1000 主張・4 段階評価
研究の設計はシンプルです。同じプロンプトを 5 つのモデルに与え、外部ツールも構造化出力も使わせず、4 択の判定を強制しました。棄権は許さない。条件を揃えて、純粋に判定だけを比べるための工夫です。
対象は GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro + Search、Sonar Pro の 5 つ。主張は Lenz のファクトチェック基盤に実際に寄せられた、最近の 1,000 件です。評価者間の一致度を測る Krippendorff's α(クリッペンドルフのアルファ、複数の評価者がどれだけ揃った判定を下すかを 0〜1 で表す指標)は順序尺度で 0.639 でした。完全一致なら 1.0、でたらめなら 0 に近づく指標で、0.639 は「同じ方向は向いているが、随所でずれる」水準です。研究自身も「構造はあるが限定的な一致」と表現しています。
不一致の中身 — 「グレー」な主張ほど割れる
割れ方には偏りがあります。「真」か「偽」かの両極では揃いやすく、「おおむね真」「誤解を招く」という中間のグレーゾーンほど意見が分かれていました。AI は白黒には強く、グレーに弱い。
数字で見ると、最も対立したペアの判定が 2 段階以上離れていた主張が 34% ありました。これは「真 vs おおむね真」のような微妙なずれではなく、「真 vs 誤解を招く」級の実質的な食い違いです。さらに象徴的なのが全員一致だった 328 件の内訳で、全員が「誤解を招く」としたのはわずか 4 件、全員が「おおむね真」としたのは 0 件でした。モデルたちが揃って合意できるのは、ほぼ「明らかに真」か「明らかに偽」の主張だけなのです。
現実の主張の多くは、この厄介な中間に落ちます。「この食品は健康に良い」「あの政策で景気が回復した」。文脈と程度で評価が変わる主張ほど、AI の判定は当てになりにくい。
私がこの研究を運用に引きつけて読んだ理由
結論を先に書くと、この研究は「単一モデルの事実判定を鵜呑みにしない」という私の運用方針の裏づけになりました。AetherEchoes は AI が記事を起稿し、私が公開前に確認して出す仕組みで回しています。なぜ人間の確認を残すのか。その理由がまさに、この数字です。
正直に書くと、苦笑しました。この記事の下書きを起こしたのも、その 5 つの一員だった Claude Opus 4.7 です。自分が割れる側に立っていると知りながら書いている下書きほど、そのまま信用してはいけないものはない。だから私が読み、出典に当たり、言い回しを直してから公開する工程に意味が出ます。AI が起稿し人間がレビューする二段階の発想は Claude Bot + 人間編集者の二段階パイプライン でも書きましたが、今回の 67% という数字は、その設計判断に具体的な根拠を与えてくれました。
LLM の出力は本質的に発散します。同じ問いに別の答えを返し、モデルが違えば結論も割れる。その発散を人間が収束させる側に立ちたいと LLM は発散する。私は収束させる側でありたい で書きました。今回の研究は、その発散が気のせいではなく、定量化できる現象だと示しています。
では実務でどう付き合うか — 3 つの構え
実務的な答えは「AI を事実の最終審判者にしない」の一点に尽きます。判定を求めるなら、複数モデルの多数決を取る、確信度を一緒に出させる、そして最後は人間が一次情報に当たる。この 3 つです。
1 つ目は多数決。1 モデルの判定が 3 分の 2 の確率で他とズレるなら、複数に聞いて割れ方そのものを見る方が安全です。全員一致なら信頼度が高く、割れたら「これはグレーな主張だ」というシグナルになります。2 つ目は確信度。研究では棄権を禁じていましたが、実務では「自信がない」と言わせた方が役に立ちます。3 つ目が人間の最終判断で、どこまで AI に任せ、どこから人間が責任を持つかの線引きは auto-publish を回す側として引いている境界 でも考えました。事実判定の境界は、思っているより手前に引くべきだというのが今回の学びです。
検索を足せば解決するかというと、そう単純でもありません。今回の 5 つには検索を有効にした Gemini 3 Pro + Search も含まれていて、それでも全体の不一致は 67% でした。情報源へのアクセスは助けにはなっても、判定の食い違いそのものを消しはしない、ということです。
まとめ — 「賢い AI が言うなら正しい」を一度疑う
フロンティアモデル 5 つが事実判定の 67% で割れ、特にグレーな主張で食い違う。この事実は AI の能力を否定するものではなく、使い方を問うものです。白黒のはっきりした事実なら任せていい。けれど現実の主張の多くはグレーで、そこでは単一モデルの判定を最終結論にしてはいけない。
私はこれからも、AI に下書きと一次案を任せ、事実の最終判断は人間が握る形を続けます。「賢い AI がそう言うなら、正しいのだろう」。その一歩手前で立ち止まる癖を、67% という数字は思い出させてくれました。
Tags
よくある質問
- 検証された 5 つのモデルは具体的に何ですか?
- GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、検索を有効にした Gemini 3 Pro + Search、Sonar Pro の 5 つです。いずれも外部ツールや構造化出力を使わず、同じプロンプトで 4 段階の判定を強制されました。
- 67% も割れるなら LLM のファクトチェックは使えないのですか?
- 使えないわけではありません。研究では「明らかに真」「明らかに偽」の主張ではよく一致しました。割れるのは中間のグレーな主張で、そこは単一モデルに任せず、複数モデルの多数決や人間の確認で補うのが現実的です。
- 検索を有効にしたモデルなら判定は一致しますか?
- 今回の 5 つには検索を使う Gemini 3 Pro + Search も含まれていましたが、全体の不一致は 67% のままでした。情報源へのアクセスは助けにはなっても、モデル間の判定の食い違いそのものは解消しませんでした。
- AetherEchoes は AI に事実判定を任せているのですか?
- いいえ。AetherEchoes は AI が記事を起稿し、公開前に私が一次情報に当たって確認・編集してから出しています。今回の研究は、その人間レビューの工程を残す判断を裏づけるものでした。