世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-30

Frontier LLMはどれくらい意見が割れるのか？ 1,000件の事実確認で見えた「67%不一致」の現実

まず結論

Lenz Researchの調査では、1,000件の実際の事実確認（fact-check）クエリに対して、**最先端の5つの frontier LLM のうち少なくとも1つが多数派と食い違った割合は67%**だった。
しかも単なる「ちょっとした言い方の違い」ではなく、**34%は2段階以上ずれる“本質的な不一致”**だった。
5モデルの一致度を示す Krippendorff’s α は 0.639。完全にバラバラではないけれど、「みんな同じ答えを返す」とは全然言えない水準。
とくに True / False の両極には比較的集まりやすい一方で、Mostly True / Misleading の中間ゾーンで壊れやすいのが面白い。
個人的には、LLMの“賢さ”よりも「どこで迷うか」「どこで割れるか」こそ重要な情報だと思う。実運用では、ここがかなり効いてきそうだ。

この調査は何を見たのか

Lenz Researchは、実際のユーザーが提出した事実確認用の主張 1,000件を、5つの最先端LLMに見せて、それぞれに判定を出させた。

対象モデルは以下の5つ。

GPT-5.4
Claude Opus 4.7
Gemini 3 Pro
Gemini 3 Pro + Search
Sonar Pro

ここで大事なのは、これはベンチマーク問題ではないという点。つまり、よくある「正解が公開されているテストセット」ではなく、現実のユーザーが“これ本当？”と持ち込んだ生の主張だ。
この違いはかなり大きい。ベンチマークは答えが固定されていて比較しやすいけれど、現実の事実確認はもっと泥くさい。文脈、時期、言い回し、解釈のズレが全部効いてくる。ここがいかにも実運用っぽくて、私はかなり興味深いと思った。

キーポイント

67%の主張で、少なくとも1つのモデルが多数派と不一致
45%は2モデル以上が食い違う
13%は多数派すらできない
**34%は“本質的な不一致”**（2バケット以上の差）
中間ラベル（Mostly True / Misleading）が特に不安定
5モデルは完全に同じではなく、似ているけど同一ではない
検索付きモデルでも、必ずしも一致率が高いわけではない

67%で意見が割れる、という重い事実

この調査の一番わかりやすい数字は、やはりこれ。

1,000件中672件、つまり67%で少なくとも1つのモデルが多数派に反対した

内訳はこんな感じだ。

全員一致: 328件（33%）
1モデルが反対: 224件（22%）
2モデルが反対: 316件（32%）
多数派なし: 132件（13%）

ここで重要なのは、「多数派＝正解」ではないこと。
元記事もちゃんとそこを注意していて、多数派はあくまで比較のための基準であって、真実そのものではない。

とはいえ、実務上は「5人の専門家に聞いて4人が同じなら、ひとまずその方向を重視する」という見方をすることは多い。LLMもそれに近い挙動をするのかと思いきや、3分の2で割れる。これはなかなかインパクトがある。

つまり何が言えるのか

この結果は、LLM同士が完全に独立した存在ではないにせよ、1つの“単一の賢い判断装置”として扱うのは危ないことを示している。
私はここがかなり本質的だと思う。LLMを「便利な回答装置」として使うのはいい。でも、合議制のように複数モデルを並べたときにすら、かなりの割合でズレるなら、単独利用はなおさら注意が必要だ。

ただの“好みの違い”ではなく、答えそのものが違うケースも多い

元記事は、不一致を2種類に分けている。

Nuance disagreement: 例えば True と Mostly True の違い
→ これは「かなり同じ方向だけど、確信度が違う」程度のズレ
Substantive disagreement: 例えば True と False の違い
→ これは答えそのものが違うレベル

その結果、34%の主張で2段階以上の差が出た。
さらに内訳を見ると、

True ↔ Mostly True のような軽いズレ: 33%
True ↔ Misleading や Mostly True ↔ False のような本質的ズレ: 13%
True ↔ False の極端な対立: 21%

これ、地味にすごい数字だと思う。
「モデルごとの表現の温度差」ではなく、そもそもの判断が真逆になっている主張が5件に1件以上あるわけだから。

ただし注意

もちろん、4段階ラベルはきれいに割り切れるものではない。
たとえば Misleading は、事実の一部は合っていても全体としてミスリードする、みたいな微妙な領域だ。なので、2バケット差が必ずしも「大間違い」を意味するわけではない。
それでも、**“中間の曖昧さ”だけでは説明しきれないズレがかなりある**のは確かだろう。

モデル同士はどれくらい似ている？

モデル同士の一致率も出ている。

最高の一致: Gemini 3 Pro と Gemini 3 Pro + Search が 75%
最低の一致: いくつかの組み合わせで 53%

面白いのは、Search 付きでも必ずしも大きく一致率が上がるわけではないこと。
検索があれば情報が揃うので一致しやすそう、と思いがちだが、実際には検索したとしても、どの情報を重視するか、どう解釈するかで分かれるのだろう。

これはかなり人間っぽい。検索エンジンが答えを出すのではなく、検索結果をどう読むかが勝負だからだ。LLMの「知識不足」を検索で埋めても、解釈のズレまでは消えない、というのがよくわかる。

5モデルの“性格”がかなり違う

元記事で特に興味深いのは、各モデルの判定分布だ。
つまり、同じ主張を見ても、モデルごとに「True寄り」「False寄り」「中間を多く出す」などの癖がある。

ざっくり見ると：

Gemini 3 Pro は True と False に強く寄り、中間ラベルがかなり少ない
Claude Opus 4.7 は中間を比較的よく使う
Sonar Pro も中間がそこそこ多い
GPT-5.4 はその中間っぽい
Gemini 3 Pro + Search は Gemini 3 Pro に似るが、少し分布が変わる

この違い、かなり示唆的だ。
同じ「fact-checkモデル」っぽく見えても、実は判断の癖や保守性が違う。
私はここに、LLM運用の難しさが詰まっていると思う。モデル選定って、単に「性能が高いものを選ぶ」ではなく、どんな癖を許容するかを選ぶことでもあるからだ。

中間ラベルはなぜ壊れやすいのか

元記事では、Mostly True と Misleading の一致がかなり弱いことが示されている。

True は比較的まとまりやすい
False も比較的まとまりやすい
でも Mostly True / Misleading はまとまりにくい

この構造は、かなり納得感がある。
極端な判定はわかりやすいが、中間は「どこまで許容するか」「どこからミスリードとみなすか」というルールの解釈が入る。
つまり、モデルの知識だけでなく、評価基準の読み方が効いてしまう。

個人的には、ここは人間のファクトチェッカーも苦労する部分だと思う。
事実は単純でも、「どの程度ならMostly Trueなのか」は意外と揉める。LLMがそこで割れるのは、むしろ自然なのかもしれない。

ドメイン別に見ると、さらに面白い

分野ごとに見ると、意見の割れ方は少し変わる。

Legal: 不一致 77% と高い
Health: 71%
Politics: 70%
Science: 68%
Tech: 69%
History: 53% と比較的低い

この結果から素直に言えるのは、テーマによってモデルの安定性がかなり変わるということ。
歴史系は比較的まとまりやすく、法律系はかなり割れやすい。これは感覚的にもわかる。法律は文脈・解釈・時点の違いが効きやすいし、曖昧な言い回しも多い。
逆に歴史は、少なくとも一部の主張では比較的明確な事実関係を持ちやすいのだろう。

5モデルをまとめて見たときの限界

Krippendorff’s α が 0.639 というのも重要だ。
これは、全く関係ないバラバラな答えではないが、「1つの信頼できる採点者」とみなせるほどでもない、というニュアンス。

わかりやすく言えば、

まったく適当ではない
でも一致しきるほどでもない
つまり、共同体としてはそこそこ賢いが、安心して任せ切るにはまだ荒い

という感じだと思う。

この“中途半端な一致”がいちばん厄介で、同時にいちばん現実的でもある。
AIは万能ではないけれど、雑に使うには十分それっぽい。だからこそ、どこで意見が割れるかを可視化する価値が大きいのだろう。

この調査の面白さは「精度」ではなく「不一致」を見たこと

多くのAI評価は、「正解率が何%」みたいな話になりがちだ。
でもこの調査はそうではなく、モデル同士がどれだけ割れるかを見ている。

ここがとても良い。
なぜなら、現実の運用では「単独のモデルが正しいか」だけでなく、複数のモデルが一致するか、食い違うかが重要だからだ。

たとえば、以下のような場面ではこの知見が効く。

社内の自動ファクトチェック
SNS投稿のモデレーション
報道補助
ユーザー問い合わせの一次判定
生成AIを使ったリサーチ支援

こうした場面で、もしモデル同士が頻繁に割れるなら、自動判定をそのまま信じるのは危険だ。
逆に言えば、割れやすい領域を検出して人間に回す設計がかなり重要になる。私はむしろ、AIの本当の価値は「自信満々に答えること」より、怪しいところをちゃんと怪しいと示せることにあるのではないかと思う。