Frontier LLMはどれくらい意見が割れるのか? 1,000件の事実確認で見えた「67%不一致」の現実
Lenz Researchの調査では、1,000件の実際の事実確認(fact-check)クエリに対して、最先端の5つの frontier LLM のうち少なくとも1つが多数派と食い違った割合は67%だった。 しかも単なる「ちょっとした言い方の違い」ではなく、34%は2段階以上ずれる“本質的な不一致”だった。 5モデルの一致度を示す Krippendorff’s α は 0.639。完全にバラバラではないけれど、「みんな同じ答えを返す」とは全然言えない水準。 とくに True / False の両極には比較的集まりやすい一方で、Mostly True / Misleading の中間ゾーンで壊れやすいのが面白い。 個人的には、LLMの“賢さ”よりも「どこで迷うか」「どこで割れるか」こそ重要な情報だと思う。実運用では、ここがかなり効いてきそうだ。 --- Lenz Researchは、実際のユーザーが提出した事実確認用の主張 1,000件を、5つの最先端LLMに見せて、それぞれに判定を出させた。 対象モデルは以下の5
papoo.work