世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-07-04

AIにMRIを読ませたら、医師と真逆の答えが出た話

肩が痛い。だからMRIを撮った。そこまではよくある話です。ところがこのブログ記事は、そこで終わりません。著者はそのMRI画像を、OpenAI系のモデルではなく、Claude Code上で動かしたOpus 4.8に読ませて、「もう一つの診断」を引き出そうとします。で、出てきた答えがかなり衝撃的でした。医師は「腱板の部分断裂（Grade III）」と見たのに、AIは「腱は保たれている」と判断したんです。

この差、かなり大きいです。しかも著者は、ただAIに雑に投げたわけではありません。DICOM形式のMRIデータを用意し、Claude Codeに必要なパッケージを入れさせ、かなり本気で解析させています。単なるお遊びではなく、「AIが医療画像をどこまで読めるのか」を自分の体で試した記録、と言ったほうが近いです。

まず、この記事の要点

肩の痛みでMRIを撮った著者が、AIに画像の再読影をさせた
人間の医師は「Grade IIIの部分断裂」と判断した
Opus 4.8は最初、「腱は正常」と報告した
その後、別の条件で再比較させた結果、AIは「明らかな断裂は見当たらない」と結論づけた
ただし著者自身は、AIも医師も完全には信じきれず、判断を保留している
この記事の面白さは、技術実験であると同時に、「医療の不確実さ」がそのまま見えてくるところにある

何を試したのか

著者は数週間続いた右肩の痛みをきっかけに整形外科を受診し、MRI検査を受けます。そこで医師から伝えられたのが、「subscapularis tendon（肩甲下筋腱）」にかなり大きな部分断裂がある、という診断でした。

ここで出てくる「Grade III」は、ざっくり言うと「腱の厚みの半分以上が傷んでいる」という意味です。腱というのは筋肉と骨をつなぐ硬めの組織で、肩を動かすうえではかなり重要です。そこが大きく切れているなら、そりゃ治療も本格的になります。

でも著者は、その場で行われた治療に違和感を持ちます。というのも、MRIを受けた直後から治療がどんどん進んでしまい、「ちょっと早すぎない？」という感覚があったからです。

さらに、あとでGPT 5.5 Proに治療内容を見せたところ、衝撃的な指摘が返ってきます。たとえば、shockwave therapy（衝撃波治療） が行われていたけれど、最近のガイドラインでは、石灰化のない rotator-cuff tendinopathy（腱板炎・腱板障害の一種）に対しては推奨されていない、と示されたそうです。しかも、超音波検査では石灰化はないと言われていた。もう一つ、Traumeel という、ドイツでは「治療適応のない homeopathic medicine（ホメオパシー系薬）」として登録されているものも注射されていて、これも著者の不信感を強めました。

このへん、かなり生々しいです。医療の是非を断定する記事ではないのですが、「なんとなく流れで治療が進む怖さ」はひしひし伝わってきます。正直、読んでいて少し背筋が寒くなりました。

Claude CodeにMRIを読ませる

著者が次にやったのは、MRIデータのAI解析です。使ったのは Opus 4.8（xhigh）を Claude Code 上で動かす方法。ここがポイントで、ただのチャットではなく、コード実行やパッケージ導入ができる環境を使っています。

MRIデータは、数百個のDICOMファイルからなる約266MBの大きなセットでした。DICOMは医療画像でよく使われる標準形式で、簡単に言うと「画像そのものに加えて、撮影条件や部位などの情報も入った医療用ファイル」です。

著者は、AIに対して「右肩が2〜3週間痛む」とだけ伝え、あとはかなり自由に調査させます。人間の医師が持つ背景情報より少ないくらいだった、というのがまた面白い。ここは実験としては不完全だけれど、その不完全さも含めて「AIがどこまで勝手に見抜けるか」を見たかったのだと思います。

約1時間後、AIはレポートを出します。ファイル名まで付いた、ちゃんとしたPDFです。ところが中身は、医師の診断と真っ向からぶつかりました。医師は「大きな部分断裂」と見ていたのに、Opus 4.8は「腱は intact（保たれている）」と書いたのです。

これは単に「少し見解が違う」ではありません。かなり大きなズレです。
MRIって、素人目にはほぼ宇宙文字みたいな世界なのに、そこでここまで違う結論が出る。AIの賢さを信じたくなる一方で、「いや、これ大丈夫か？」という不安も一気に膨らむ。そこがこの話のいちばん面白いところだと思います。

では、どっちが正しいのか

著者はそこで終わらず、今度はAI同士の「仲裁」を試します。人間の診断結果に加えて、GPT 5.5 Proとの会話内容も渡し、Opusに両者を比較させたのです。つまり、最初の判定に対して、別の材料を入れて再検討させたわけです。

その結果、今度のAIはかなりはっきりした結論を出します。要するに、

軽度の insertional tendinosis（腱の付着部あたりの軽い変性）はあるが、明確な部分断裂や完全断裂は見当たらない

という判断です。

tendinosis は、腱がすり減ったり傷んだりしている状態をざっくり指します。いわば「切れてはいないけれど、健康そのものでもない」感じです。AIは細かい争点まで全部解決できるとは言わず、それでも総合判断としては「断裂なし」に寄せました。

ここで著者が面白いのは、AIの断定をそのまま礼賛していないことです。むしろ、「争いを解決できない部分はある」と自分でも認めながら、ある点ではかなり自信満々に答えるAIの態度に驚いています。たしかに、機械があれこれ迷った末に最後だけ妙に強い口調で言ってくると、人間は逆に不安になりますよね。あの感じ、すごくわかります。

この体験が突きつけるもの

この記事を読んでまず思うのは、AIが医療に近づくほど、「便利さ」と「不気味さ」が同時に増える、ということです。

メールの誤字を直すとか、要約を作るとか、そういう用途なら、多少の間違いは笑って済ませやすい。でもMRIの読影となると話は別です。結論ひとつで、治療方針が変わるかもしれない。だからこそ、AIが出した答えが正しそうでも、すぐに信じる気にはなれない。著者が最後にたどり着いたのも、まさにその宙ぶらりんの感覚でした。

個人的には、この「信じたいけど信じきれない」という状態こそ、今のAI医療のリアルだと思います。AIはときどき驚くほど鋭い。でも、鋭さと正確さは別物です。しかも今回は、人間の医師とAIで判断が食い違っている。どちらかが完全に間違い、というより、そもそも画像診断そのものが解釈の仕事で、グレーゾーンがかなりあるのではないか、と感じさせます。

一方で、著者が言うように、将来的には「AIにMRIを読ませる」のが、今の私たちがメールのスペルチェックを使うくらい当たり前になる可能性もあるでしょう。これは大げさな夢物語ではなく、十分ありえる未来だと思います。ただし、そのためには精度だけでなく、責任の所在、説明可能性、誤診時のリスク管理まで含めて整える必要があります。そこはかなり重い課題です。