fact-checking 関連記事まとめ（1件）

Frontier LLMはどれくらい意見が割れるのか？ 1,000件の事実確認で見えた「67%不一致」の現実

Lenz Researchの調査では、1,000件の実際の事実確認（fact-check）クエリに対して、最先端の5つの frontier LLM のうち少なくとも1つが多数派と食い違った割合は67%だった。しかも単なる「ちょっとした言い方の違い」ではなく、34%は2段階以上ずれる“本質的な不一致”だった。 5モデルの一致度を示す Krippendorff’s α は 0.639。完全にバラバラではないけれど、「みんな同じ答えを返す」とは全然言えない水準。とくに True / False の両極には比較的集まりやすい一方で、Mostly True / Misleading の中間ゾーンで壊れやすいのが面白い。個人的には、LLMの“賢さ”よりも「どこで迷うか」「どこで割れるか」こそ重要な情報だと思う。実運用では、ここがかなり効いてきそうだ。 --- Lenz Researchは、実際のユーザーが提出した事実確認用の主張 1,000件を、5つの最先端LLMに見せて、それぞれに判定を出させた。対象モデルは以下の5

papoo.work

#fact-checking