Lenz Researchは、実際のユーザーが提出した事実確認用の主張 1,000件を、5つの最先端LLMに見せて、それぞれに判定を出させた。
対象モデルは以下の5つ。
ここで大事なのは、これはベンチマーク問題ではないという点。つまり、よくある「正解が公開されているテストセット」ではなく、現実のユーザーが“これ本当?”と持ち込んだ生の主張だ。
この違いはかなり大きい。ベンチマークは答えが固定されていて比較しやすいけれど、現実の事実確認はもっと泥くさい。文脈、時期、言い回し、解釈のズレが全部効いてくる。ここがいかにも実運用っぽくて、私はかなり興味深いと思った。
この調査の一番わかりやすい数字は、やはりこれ。
1,000件中672件、つまり67%で少なくとも1つのモデルが多数派に反対した
内訳はこんな感じだ。
ここで重要なのは、「多数派=正解」ではないこと。
元記事もちゃんとそこを注意していて、多数派はあくまで比較のための基準であって、真実そのものではない。
とはいえ、実務上は「5人の専門家に聞いて4人が同じなら、ひとまずその方向を重視する」という見方をすることは多い。LLMもそれに近い挙動をするのかと思いきや、3分の2で割れる。これはなかなかインパクトがある。
この結果は、LLM同士が完全に独立した存在ではないにせよ、1つの“単一の賢い判断装置”として扱うのは危ないことを示している。
私はここがかなり本質的だと思う。LLMを「便利な回答装置」として使うのはいい。でも、合議制のように複数モデルを並べたときにすら、かなりの割合でズレるなら、単独利用はなおさら注意が必要だ。
元記事は、不一致を2種類に分けている。
その結果、34%の主張で2段階以上の差が出た。
さらに内訳を見ると、
これ、地味にすごい数字だと思う。
「モデルごとの表現の温度差」ではなく、そもそもの判断が真逆になっている主張が5件に1件以上あるわけだから。
もちろん、4段階ラベルはきれいに割り切れるものではない。
たとえば Misleading は、事実の一部は合っていても全体としてミスリードする、みたいな微妙な領域だ。なので、2バケット差が必ずしも「大間違い」を意味するわけではない。
それでも、**“中間の曖昧さ”だけでは説明しきれないズレがかなりある**のは確かだろう。
モデル同士の一致率も出ている。
面白いのは、Search 付きでも必ずしも大きく一致率が上がるわけではないこと。
検索があれば情報が揃うので一致しやすそう、と思いがちだが、実際には検索したとしても、どの情報を重視するか、どう解釈するかで分かれるのだろう。
これはかなり人間っぽい。検索エンジンが答えを出すのではなく、検索結果をどう読むかが勝負だからだ。LLMの「知識不足」を検索で埋めても、解釈のズレまでは消えない、というのがよくわかる。
元記事で特に興味深いのは、各モデルの判定分布だ。
つまり、同じ主張を見ても、モデルごとに「True寄り」「False寄り」「中間を多く出す」などの癖がある。
ざっくり見ると:
この違い、かなり示唆的だ。
同じ「fact-checkモデル」っぽく見えても、実は判断の癖や保守性が違う。
私はここに、LLM運用の難しさが詰まっていると思う。モデル選定って、単に「性能が高いものを選ぶ」ではなく、どんな癖を許容するかを選ぶことでもあるからだ。
元記事では、Mostly True と Misleading の一致がかなり弱いことが示されている。
この構造は、かなり納得感がある。
極端な判定はわかりやすいが、中間は「どこまで許容するか」「どこからミスリードとみなすか」というルールの解釈が入る。
つまり、モデルの知識だけでなく、評価基準の読み方が効いてしまう。
個人的には、ここは人間のファクトチェッカーも苦労する部分だと思う。
事実は単純でも、「どの程度ならMostly Trueなのか」は意外と揉める。LLMがそこで割れるのは、むしろ自然なのかもしれない。
分野ごとに見ると、意見の割れ方は少し変わる。
この結果から素直に言えるのは、テーマによってモデルの安定性がかなり変わるということ。
歴史系は比較的まとまりやすく、法律系はかなり割れやすい。これは感覚的にもわかる。法律は文脈・解釈・時点の違いが効きやすいし、曖昧な言い回しも多い。
逆に歴史は、少なくとも一部の主張では比較的明確な事実関係を持ちやすいのだろう。
Krippendorff’s α が 0.639 というのも重要だ。
これは、全く関係ないバラバラな答えではないが、「1つの信頼できる採点者」とみなせるほどでもない、というニュアンス。
わかりやすく言えば、
という感じだと思う。
この“中途半端な一致”がいちばん厄介で、同時にいちばん現実的でもある。
AIは万能ではないけれど、雑に使うには十分それっぽい。だからこそ、どこで意見が割れるかを可視化する価値が大きいのだろう。
多くのAI評価は、「正解率が何%」みたいな話になりがちだ。
でもこの調査はそうではなく、モデル同士がどれだけ割れるかを見ている。
ここがとても良い。
なぜなら、現実の運用では「単独のモデルが正しいか」だけでなく、複数のモデルが一致するか、食い違うかが重要だからだ。
たとえば、以下のような場面ではこの知見が効く。
こうした場面で、もしモデル同士が頻繁に割れるなら、自動判定をそのまま信じるのは危険だ。
逆に言えば、割れやすい領域を検出して人間に回す設計がかなり重要になる。私はむしろ、AIの本当の価値は「自信満々に答えること」より、怪しいところをちゃんと怪しいと示せることにあるのではないかと思う。
この調査、かなり地味に見えて、実はかなり痛烈だ。
「最先端の5モデルを並べても、3分の2で割れる」と言われると、AIの進歩を素直に喜ぶ気持ちと同時に、**“まだ判断の安定性は足りない”**という現実も突きつけられる。
ただ、私は悲観一色ではない。
むしろ、こういう不一致のデータはすごく価値があると思う。なぜなら、AIを本番で使うときに必要なのは、単なる平均点ではなく、どこが危ないかの地図だからだ。
この調査は、その地図を少し描いてくれた。
そしてその地図を見る限り、LLMはまだ「答えを知っている存在」というより、答えをめぐってしばしば意見が割れる議論相手に近い。
その前提で使うのが、いちばん健全だと思う。
参考: Beyond Benchmarks: Frontier LLM Disagreement on Fact-Checks