「AIに健康の相談をする人、かなり増えてるよね」という話は、もはや珍しくありません。
ちょっと体調が気になる、検査結果の意味がわからない、サプリや食事法を調べたい——そんなとき、検索エンジンより先にAIチャットボットを開く人もいるはずです。
でも、今回紹介するDecryptの記事は、その“便利さ”にかなり冷や水を浴びせる内容でした。
要するに、AIの健康アドバイスは、半分くらい当てにならない。しかも厄介なのは、間違っているのに、ものすごくもっともらしく見えることです。
これ、地味に怖い話です。
雑に言えば「自信満々の間違い」は、ただの間違いより危険なんですよね。人は“断言”に弱いので、AIが流暢に説明すると「詳しいから正しそう」と思ってしまう。そこが今回の本質だと思います。
この研究は、UCLA、アルバータ大学、ウェイクフォレスト大学の研究者が行い、BMJ Open に掲載されました。査読付きなので、少なくとも「思いつきの感想」ではありません。
調べたのは次の5つのチャットボットです。

質問は全部で250問。テーマはかなり幅広く、
などが含まれていました。
さらに研究チームは、わざとAIを“変な方向”に誘導しやすいadversarial approach(意地悪な聞き方)を採用しました。
たとえば、
みたいな、かなり危うい質問を投げています。
これは少しフェアではない面もあります。普通の検索より、かなり意地悪に試しているからです。
ただ、こうした聞き方でもAIが平然と危ない答えを返すなら、実際の利用環境ではもっと危ないかもしれない、とも言えます。ここは研究の限界でもあり、同時に警告でもあります。
結論はかなりシンプルです。
つまり、ざっくり言うと2回答に1回は怪しいということです。
しかも問題は「ちょっと表現が不十分」みたいな軽い話だけではなく、誤った治療選択につながりかねないレベルも含まれています。
個人的には、この数字はかなり重いと思います。
AIが“少し不正確”なのは想像できても、健康分野でここまで高い失敗率が出るのは、一般ユーザーにとってかなり実用上の問題です。
記事では、AIの仕組みそのものに理由があると説明しています。
チャットボットはリアルタイムの事実確認をしているわけではなく、学習データの統計的パターンから「それっぽい次の単語」を予測している
要するに、AIは医者みたいに根拠を見比べて判断しているわけではなく、文章の“流れ”を真似しているんです。
ここがすごく大事です。
AIは「知っている」ように見えて、実際にはかなりの部分で文章生成マシンです。
だからネット上に誤情報が多ければ、その誤情報も学習パターンに混ざる。すると、権威ありげで、でも中身が怪しい回答ができあがるわけです。
しかもAIは、間違っていても「わかりません」と言うより、何かしら答えようとしがちです。
この“とにかく返す”性質が、健康相談ではかなり危険だと感じます。
今回の5モデルの中で最も悪かったのが、Grok でした。
研究者は、これをX上の情報環境とも関連づけています。
Xは健康デマが広まりやすい場所として知られているので、Grokの学習・出力傾向に影響しているのではないか、という見方です。
ここはかなり象徴的です。
AIの性能って、モデルの賢さだけじゃなく、どんな情報の海で育ったかにも左右されるんですよね。
SNSのノイズが多い場所で鍛えられたAIは、当然ながらノイズっぽい答えも出しやすい。これは納得感があります。
分野別では、ワクチンとがんは比較的良好でした。
理由としては、これらのテーマは研究が多く、情報が整理されやすいからです。つまり、AIが学びやすい。
一方で、最悪だったのが栄養。次いで運動パフォーマンスでした。
この結果はかなり“らしい”なと思います。
栄養やダイエットの話って、ネットに情報は山ほどあるのに、質がバラバラなんですよね。
「○○は体にいい」「いや逆に悪い」「いや人による」みたいな話が多すぎて、AIが平均的なそれっぽさを返すと、だいたい怪しくなる。
特に「肉だけ食べる carnivore diet は健康的?」みたいな問いは、科学的合意がある話ではないので、AIの雑さが出やすいのだと思います。
今回の調査で地味に重要なのが、引用・参考文献の問題です。
AI界隈でよく言われる hallucination(幻覚) とは、もっともらしいけど実在しない情報を平気で出す現象のことです。
今回もまさにそれで、見た目は立派な参考文献っぽいのに、実はズレている、存在しない、あるいは不正確。
DeepSeekは自分の参考文献について、学習データのパターンから生成されていて「実在する確認可能な情報と一致しないかもしれない」と認めたそうです。
これはある意味、かなり正直。でも、使う側からすると「それなら最初から引用としては信用しにくいよね」となる話です。
さらに面白いのは、読みやすさの問題です。
今回の回答は、すべて Flesch Reading Ease で「Difficult」だったそうです。これは、簡単に言うとかなり読みにくいということ。
しかも、医療情報としては小学6年生レベルまでに抑えるべきというAMA(米国医師会)の目安があります。
それに対して、AIの回答は大学生向けレベル。つまり、一般向けとしてはかなり重い。
これも意外と本質的です。
健康情報って、本当に大事なのは「専門用語を並べること」ではなく、わかるように伝えることなんですよね。
でもAIは、時に“難しく見える言い回し”を過剰に使います。結果として、読んでいる側は「何かすごいことが書いてある」と錯覚しやすい。
この錯覚、けっこう厄介です。
ここは極端に「全部ダメ」と言い切るのも違うと思います。
AIは、

といった用途では、かなり便利です。
でも今回の調査を見る限り、最終判断を任せるのは危険です。
特に、
といった場面では、AIの答えをそのまま信じるべきではないでしょう。
私の感想としては、AI健康相談は「便利な下書きツール」くらいに考えるのがちょうどいいと思います。
つまり、医者の代わりではなく、質問を整理する相棒。それ以上に持ち上げると、かなり危ない。
この研究が示しているのは、単なる「AIは間違う」という当たり前の話ではありません。
本当に怖いのは、間違いが“それっぽさ”に包まれて出てくることです。

しかもAIは、使う人が非専門家であるほど強く見えます。
専門知識がないと、間違いを見抜きにくいからです。
ここが、健康分野でAIが特に危険になりやすい理由だと思います。
記事の最後で研究者は、AIの利用拡大に合わせて、
が必要だと述べています。
これはかなりまっとうな結論です。
技術を止めるのではなく、安全に使うルールを整える。結局そこに落ち着くんでしょうね。
参考: Half of AI Health Advice Is Wrong—And Seems Just Right - Decrypt