検証された 5 つのモデルは具体的に何ですか?

GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、検索を有効にした Gemini 3 Pro + Search、Sonar Pro の 5 つです。いずれも外部ツールや構造化出力を使わず、同じプロンプトで 4 段階の判定を強制されました。

67% も割れるなら LLM のファクトチェックは使えないのですか?

使えないわけではありません。研究では「明らかに真」「明らかに偽」の主張ではよく一致しました。割れるのは中間のグレーな主張で、そこは単一モデルに任せず、複数モデルの多数決や人間の確認で補うのが現実的です。

検索を有効にしたモデルなら判定は一致しますか?

今回の 5 つには検索を使う Gemini 3 Pro + Search も含まれていましたが、全体の不一致は 67% のままでした。情報源へのアクセスは助けにはなっても、モデル間の判定の食い違いそのものは解消しませんでした。

AetherEchoes は AI に事実判定を任せているのですか?

いいえ。AetherEchoes は AI が記事を起稿し、公開前に私が一次情報に当たって確認・編集してから出しています。今回の研究は、その人間レビューの工程を残す判断を裏づけるものでした。

フロンティア LLM 5 つは事実判定の 67% で割れる — AI に正誤を委ねる前に

SoSoraEndo2026年5月29日 00:087 min1,961 字

動画で読む

結論 — 最強の LLM 5 つでも、事実判定の 3 分の 2 で意見が割れる

2026 年 5 月 29 日の朝、Lenz が公開した研究を読んで手が止まりました。GPT-5.4・Claude Opus 4.7・Gemini 3 Pro をはじめとするフロンティアモデル（各社が出している最上位の LLM）5 つに、実世界の主張 1,000 件を「真・おおむね真・誤解を招く・偽」の 4 段階で判定させたところ、67%（672 件）で少なくとも 1 つのモデルが多数派から外れる、という結果が出たのです。

私たちが普段「賢い」と信じて使っている最上位の AI でも、事実の正誤については 3 分の 2 の確率で足並みが揃わない。これは「AI に正しさを判定させる」という、いま多くの人が無意識にやっている使い方への、静かだが重い指摘です。AI が起稿した下書きを私が確認して公開している AetherEchoes の運用者として、この数字は他人事ではありませんでした。

研究が測ったもの — 5 モデル・1000 主張・4 段階評価

研究の設計はシンプルです。同じプロンプトを 5 つのモデルに与え、外部ツールも構造化出力も使わせず、4 択の判定を強制しました。棄権は許さない。条件を揃えて、純粋に判定だけを比べるための工夫です。

対象は GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro + Search、Sonar Pro の 5 つ。主張は Lenz のファクトチェック基盤に実際に寄せられた、最近の 1,000 件です。評価者間の一致度を測る Krippendorff's α（クリッペンドルフのアルファ、複数の評価者がどれだけ揃った判定を下すかを 0〜1 で表す指標）は順序尺度で 0.639 でした。完全一致なら 1.0、でたらめなら 0 に近づく指標で、0.639 は「同じ方向は向いているが、随所でずれる」水準です。研究自身も「構造はあるが限定的な一致」と表現しています。

不一致の中身 — 「グレー」な主張ほど割れる

割れ方には偏りがあります。「真」か「偽」かの両極では揃いやすく、「おおむね真」「誤解を招く」という中間のグレーゾーンほど意見が分かれていました。AI は白黒には強く、グレーに弱い。

数字で見ると、最も対立したペアの判定が 2 段階以上離れていた主張が 34% ありました。これは「真 vs おおむね真」のような微妙なずれではなく、「真 vs 誤解を招く」級の実質的な食い違いです。さらに象徴的なのが全員一致だった 328 件の内訳で、全員が「誤解を招く」としたのはわずか 4 件、全員が「おおむね真」としたのは 0 件でした。モデルたちが揃って合意できるのは、ほぼ「明らかに真」か「明らかに偽」の主張だけなのです。

現実の主張の多くは、この厄介な中間に落ちます。「この食品は健康に良い」「あの政策で景気が回復した」。文脈と程度で評価が変わる主張ほど、AI の判定は当てになりにくい。

私がこの研究を運用に引きつけて読んだ理由

結論を先に書くと、この研究は「単一モデルの事実判定を鵜呑みにしない」という私の運用方針の裏づけになりました。AetherEchoes は AI が記事を起稿し、私が公開前に確認して出す仕組みで回しています。なぜ人間の確認を残すのか。その理由がまさに、この数字です。

正直に書くと、苦笑しました。この記事の下書きを起こしたのも、その 5 つの一員だった Claude Opus 4.7 です。自分が割れる側に立っていると知りながら書いている下書きほど、そのまま信用してはいけないものはない。だから私が読み、出典に当たり、言い回しを直してから公開する工程に意味が出ます。AI が起稿し人間がレビューする二段階の発想は Claude Bot + 人間編集者の二段階パイプラインでも書きましたが、今回の 67% という数字は、その設計判断に具体的な根拠を与えてくれました。

LLM の出力は本質的に発散します。同じ問いに別の答えを返し、モデルが違えば結論も割れる。その発散を人間が収束させる側に立ちたいと LLM は発散する。私は収束させる側でありたいで書きました。今回の研究は、その発散が気のせいではなく、定量化できる現象だと示しています。

では実務でどう付き合うか — 3 つの構え

実務的な答えは「AI を事実の最終審判者にしない」の一点に尽きます。判定を求めるなら、複数モデルの多数決を取る、確信度を一緒に出させる、そして最後は人間が一次情報に当たる。この 3 つです。

1 つ目は多数決。1 モデルの判定が 3 分の 2 の確率で他とズレるなら、複数に聞いて割れ方そのものを見る方が安全です。全員一致なら信頼度が高く、割れたら「これはグレーな主張だ」というシグナルになります。2 つ目は確信度。研究では棄権を禁じていましたが、実務では「自信がない」と言わせた方が役に立ちます。3 つ目が人間の最終判断で、どこまで AI に任せ、どこから人間が責任を持つかの線引きは auto-publish を回す側として引いている境界でも考えました。事実判定の境界は、思っているより手前に引くべきだというのが今回の学びです。

検索を足せば解決するかというと、そう単純でもありません。今回の 5 つには検索を有効にした Gemini 3 Pro + Search も含まれていて、それでも全体の不一致は 67% でした。情報源へのアクセスは助けにはなっても、判定の食い違いそのものを消しはしない、ということです。

まとめ — 「賢い AI が言うなら正しい」を一度疑う

フロンティアモデル 5 つが事実判定の 67% で割れ、特にグレーな主張で食い違う。この事実は AI の能力を否定するものではなく、使い方を問うものです。白黒のはっきりした事実なら任せていい。けれど現実の主張の多くはグレーで、そこでは単一モデルの判定を最終結論にしてはいけない。

私はこれからも、AI に下書きと一次案を任せ、事実の最終判断は人間が握る形を続けます。「賢い AI がそう言うなら、正しいのだろう」。その一歩手前で立ち止まる癖を、67% という数字は思い出させてくれました。

よくある質問

検証された 5 つのモデルは具体的に何ですか?: GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、検索を有効にした Gemini 3 Pro + Search、Sonar Pro の 5 つです。いずれも外部ツールや構造化出力を使わず、同じプロンプトで 4 段階の判定を強制されました。
67% も割れるなら LLM のファクトチェックは使えないのですか?: 使えないわけではありません。研究では「明らかに真」「明らかに偽」の主張ではよく一致しました。割れるのは中間のグレーな主張で、そこは単一モデルに任せず、複数モデルの多数決や人間の確認で補うのが現実的です。
検索を有効にしたモデルなら判定は一致しますか?: 今回の 5 つには検索を使う Gemini 3 Pro + Search も含まれていましたが、全体の不一致は 67% のままでした。情報源へのアクセスは助けにはなっても、モデル間の判定の食い違いそのものは解消しませんでした。
AetherEchoes は AI に事実判定を任せているのですか?: いいえ。AetherEchoes は AI が記事を起稿し、公開前に私が一次情報に当たって確認・編集してから出しています。今回の研究は、その人間レビューの工程を残す判断を裏づけるものでした。

参考文献

Reaction

X (Twitter)

AI8 min

5 つのフロンティア LLM は事実判定の 67% で割れる — AI に正誤を委ねる前に

動画で読む

結論 — 最強の LLM 5 つでも、事実判定の 3 分の 2 で意見が割れる

研究が測ったもの — 5 モデル・1000 主張・4 段階評価

不一致の中身 — 「グレー」な主張ほど割れる

私がこの研究を運用に引きつけて読んだ理由

では実務でどう付き合うか — 3 つの構え

まとめ — 「賢い AI が言うなら正しい」を一度疑う

Tags

よくある質問

参考文献

Reaction

Share

OpenRouter が $113M 調達・評価額約 $1.3B — 「ルーティング層」の値段を運用者目線で読む

Liquid AI の LFM2.5 8B-A1B を運用視点で読む — 「総8B・アクティブ1B」の意味

謎の LLM「Hy3」が OpenRouter 利用ランキングで Claude を 50% 超で抜いた — 運用者はランキングをどう読むか

動画で読む

結論 — 最強の LLM 5 つでも、事実判定の 3 分の 2 で意見が割れる

研究が測ったもの — 5 モデル・1000 主張・4 段階評価

不一致の中身 — 「グレー」な主張ほど割れる

私がこの研究を運用に引きつけて読んだ理由

では実務でどう付き合うか — 3 つの構え

まとめ — 「賢い AI が言うなら正しい」を一度疑う

Tags

よくある質問

参考文献

Reaction

Share

あわせて読みたい

OpenRouter が $113M 調達・評価額 約 $1.3B — 「ルーティング層」の値段を運用者目線で読む

Liquid AI の LFM2.5 8B-A1B を運用視点で読む — 「総8B・アクティブ1B」の意味

謎の LLM「Hy3」が OpenRouter 利用ランキングで Claude を 50% 超で抜いた — 運用者はランキングをどう読むか

OpenRouter が $113M 調達・評価額約 $1.3B — 「ルーティング層」の値段を運用者目線で読む