生成AIを使っていると、たまに「え、それ本当?」という答えが返ってきます。しかも厄介なのは、その答えがめちゃくちゃ自然な文章で出てくることです。
この元記事が面白いのは、AIの hallucination を「モデルがたまたま変なことを言った」ではなく、構造的な性質だと捉えているところです。
つまり、いまの言語モデルは「うっかりミスをする機械」ではなく、そもそも真実そのものを保証するようには作られていない、というわけです。
著者はこれを「鏡」の比喩で説明しています。
AIは光を出すランプではなく、前にあるものを反射する鏡に近い。人間の質問に対して、過去に見てきた文章の“答えっぽさ”を返す。だから、答えの見た目は整っている。でも、そこに事実の裏取りがあるとは限らない。ここが怖いところです。
個人的には、このたとえはかなりしっくりきます。
AIって、見た目があまりにも賢そうなので、つい「中に知性がある」と感じてしまうんですよね。でも実際には、知っているように見せる能力が高いだけ、という場面がある。かなりうまい鏡だと思う反面、かなり危ない鏡でもあります。
hallucination は、AIがそれっぽいけれど事実ではない内容を出してしまうことです。
たとえば:
厄介なのは、文章としては自然で、文法も正しいことです。
普通のソフトウェアのエラーなら、クラッシュしたりログが残ったりして「ここで壊れた」とわかります。ところがAIの幻覚は、表面上はきれいに動いているように見える。だからこそ見抜きにくい。
この記事では、hallucination をいくつかに分類する話も出てきます。
ざっくり言うと、
ただし著者は、この分類そのものよりも、流暢さと正確さが切り離されていることが本質だと強調しています。ここがかなり重要です。
人間は、普通は流暢に話す人ほど内容を知っていそうだと感じます。
自信満々で筋道立てて話す人を見ると、「この人は理解しているな」と思いやすい。これはある意味、日常生活で役に立つ判断です。
でもAIは、この前提を壊します。
AIは、中身が正しいかどうかと無関係に、流暢な文章を出せるからです。
つまり、
この3つが揃っていても、事実として正しい保証はない。
ここに、AI時代ならではの認知バグがあるわけです。
記事では、言語モデルの学習目的にも触れています。言語モデルは次に来る単語を当てるように学習しますが、その目的自体は真実を判定することではない。
要するに、学習の報酬は「それっぽい文を作ること」に向いていて、「世界の事実を検証すること」ではない。ここはかなり本質的だと思います。
ここで出てくるのが RAG(Retrieval-Augmented Generation) です。
難しそうですが、やっていることはわりと単純で、
という流れです。
つまり、AIに「記憶で答えさせる」のではなく、資料を読ませてから答えさせるやり方です。
著者の見方が面白いのは、RAGが流行っていること自体が、
「AIの内部記憶は真実のソースとして信用しきれない」
という事実を認めている、と言っている点です。
これ、かなり核心を突いていると思います。
もしモデルの中身だけで十分なら、わざわざ外部文書を検索して渡す必要はないはずです。RAGは「AIは賢いけど、知識ベースとしてはそのまま使わない」という、かなり現実的な落とし所なんですね。
ただし、RAGを入れたから幻覚がゼロになるわけではありません。
渡した資料の内容を読み間違えたり、資料にないことを足してしまったりすることはあります。
それでも、**“AIの中だけで完結させない”** という姿勢が大事、という話です。
ここも印象的でした。
AIの性能は上がっていて、ベンチマーク上の hallucination は減っている。でも現場でのリスクは、そんなに単純には減っていない。なぜか。
理由は、残るエラーほどもっともらしいからです。
昔のAIの誤答は、「いやそれはないでしょ」とすぐわかるものも多かった。
でも最近のモデルは、文章がこなれているぶん、間違いも自然に見える。
つまり、明らかにおかしいエラーは減ったが、見抜きにくいエラーが残る。これはかなり厄介です。
医療、法律、金融のような分野では、この問題はさらに深刻です。
たとえば、
こういうミスは、ただの誤字脱字とはわけが違います。
しかも、AIの答えが流暢だと、人はうっかり信じやすい。
ここが本当に怖い。個人的には、AIの危険性は「間違うこと」そのものより、間違いが上手すぎることにあると思います。

この記事は、単に「AIは危ない」で終わりません。
むしろ重要なのは、幻覚が起きる前提でシステムを作ることだと提案しています。
著者が挙げている考え方を、かみくだいてまとめるとこうです。
AIの頭の中の知識を信じるのではなく、外部の資料やDBから取ってくる。
そのうえで答えを書かせる。
AIは「知識の保管庫」ではなく、文章を組み立てる補助役として使う。
AIが出した主張は、どの文書・どの行・どのツール呼び出しに基づいているか追えるようにする。
追えないなら、断定文として見せない。
これは地味ですが、かなり大事です。

UIでAIの出力を、検証済み情報と同じ重みで見せると危険です。
人間は見た目に弱いので、きれいに表示されるほど信じてしまう。
だからこそ、未検証の情報は未検証だと分かる見せ方が必要です。
特に高リスク領域では、AIに最終決定を任せるべきではない。
AIは下書き、要約、一次整理まで。
最後に読むのは人間。
これは「人間至上主義」だからというより、誤り方が危険すぎるからという工学的な判断です。
著者の主張を一言でいうと、
「次のモデルが hallucination を完全に消してくれる」という期待を捨てよう
ということです。
これは少し厳しい見方ですが、かなり現実的でもあります。
なぜなら、言語モデルは「それっぽく返す」ことで機能しているからです。
その性質を保ったまま、完全に幻覚だけを消すのは難しい。
だからこそ、AIを魔法の箱として扱うのではなく、壊れた鏡として扱うほうが健全だ、というわけです。

個人的には、この考え方はAI活用の姿勢をかなり変えると思います。
「AIに正解を出させる」のではなく、
「AIが作る下書きを、人間が安全に使える形に整える」
この発想に切り替えると、現実に使える場面がぐっと増えるはずです。
AIの hallucination は、単なる不具合ではなく、言語モデルの設計に根ざした問題です。
だから、完全除去を期待するより、
という設計のほうが、ずっと筋がいい。

AIは便利です。かなり便利です。
でも、便利さと真実性は別物。
この記事は、その当たり前だけど見落としやすい事実を、鏡の比喩で見事に言語化していると思います。
参考: The cracked mirror: why AI hallucination is structural, not a bug