世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

Harvardの実験でAIが医師を上回る？救急トリアージ診断の衝撃

キーポイント

Harvardの研究で、AIが救急外来のトリアージ診断（緊急度を見極める初期判断）で医師より高い精度を示した
76人の患者データを使った実験では、AIは**67%で正解またはかなり近い診断を出し、医師の50〜55%**を上回った
詳しい情報が増えるとAIの精度はさらに上がり、**82%**に達した
ただし、AIは表情、苦しそうな様子、見た目の印象などは評価していないため、まだ「医師の完全な代わり」ではない
研究者は、AIは医師を置き換えるというより、第2の意見をくれる相棒になっていくと見ている
一方で、責任の所在やAIの誤診リスクは大きな課題として残っている

AIが救急医療で医師を上回った、という話のインパクト

「AIが医師を超えた」と聞くと、つい大げさに感じるかもしれません。ですが、今回の話はなかなか重いです。
The Guardianによると、Harvardの研究チームが、救急外来でのトリアージ診断において、AIシステムが人間の医師を上回る結果を示しました。

トリアージというのは、患者さんが運ばれてきたときに「どれくらい急いで対応すべきか」「何が起きている可能性が高いか」を見極める最初の判断です。
要するに、救急医療の入口での超重要な分岐点です。ここで判断を外すと、その後の流れが全部ずれる。だからこそ、今回の結果はただの“AIのテストで勝った”では済まない、かなり大きな話だと思います。

研究者たちは、これは医療のやり方を変える「深い技術的変化」だと表現しています。ちょっと大仰に聞こえるけれど、数字を見るとたしかに納得感はあります。

何をした研究だったのか

この研究では、Bostonの病院に来た76人の患者の記録を使って、AIと医師を比べました。
AIと2人の医師に、同じ電子カルテ情報を見せたそうです。電子カルテには、たとえば次のような情報が含まれます。

バイタルサイン（体温、脈拍、血圧などの生命反応）
年齢や性別などの基本情報
看護師が書いた「なぜ来院したのか」の短いメモ

ここで使われたAIは、OpenAIのo1 reasoning modelです。
reasoning modelというのは、単に文章をそれっぽく返すだけでなく、考えながら答えを作ることを狙ったモデル、という理解でだいたいOKです。

結果は、AIが**正確またはかなり近い診断を67%で出し、医師は50〜55%**程度でした。
この差はなかなか大きいです。救急の現場は、情報が少なくて時間もない。そんな「ひらめきと経験」がものを言いそうな場面で、AIが強かったのはかなり興味深いです。

AIが強かったのは「情報が少ないとき」

記事で特に面白いのは、AIの強みが急いで判断しなければならない状況で目立ったことです。
これは、いかにもAIらしい強さだなと思います。

人間の医師は、患者の様子、声のトーン、顔色、苦しそうな表情、家族の反応など、たくさんの“空気”を拾えます。
一方でAIは、少なくとも今回の実験では文字で書かれた情報しか見ていません。にもかかわらず、限られた情報を整理して、診断の候補をかなりうまく絞り込んだわけです。

これはつまり、AIが「何でもわかる魔法の道具」なのではなく、限られた紙の情報からでも見落としを減らす補助輪として優秀、ということなのだと思います。
この方向性はかなり現実的で、派手さより実用性がある。個人的には、ここが一番おもしろいポイントです。

詳しい情報があるとAIはさらに強い

患者情報が増えると、AIの精度は82%まで上がりました。
一方で、熟練した医師の精度は70〜79%でしたが、この差は統計的には有意ではなかったとされています。

統計的に有意ではない、というのは簡単に言うと、
「数字上は差があるように見えるけれど、たまたまの可能性を完全には排除できない」ということです。

ここは大事です。
AIが圧勝したと単純化するのは危険で、むしろ「かなり強いが、万能ではない」というのが実態に近いでしょう。

治療方針でもAIは強かった

今回の研究は、診断だけではありません。
医師46人とAIに、5つの臨床ケーススタディを見せて、長期的な治療計画も作らせました。たとえば、抗生物質の使い方や、終末期医療の方針などです。

その結果、AIは89%、人間は**34%**でした。
この差はかなり衝撃的です。しかも人間側は検索エンジンなどの通常の道具を使っていたとのことなので、単なる“AI vs 素手の人間”ではありません。

正直、ここは「えっ、そんなに？」と思う人も多いはずです。私も思います。
ただ、長めの治療計画は、ガイドラインや既知の医学知識を整理して組み合わせる作業でもあるので、AIが得意でも不思議ではありません。むしろ、情報整理マシンとしてのAIの本領が出た結果だと見るほうが自然かもしれません。

それでも、AIは医師を置き換えない

とはいえ、研究者たちは「これで医師は不要」とは言っていません。
むしろ、そうはならないと強調しています。

理由は明確です。今回の実験は、文字で伝えられる患者情報だけが対象でした。
つまり、AIは患者の

苦しさの程度
顔色
ぐったりしている様子
話し方
部屋の空気感

のような、医師が現場で自然に拾う情報を見ていません。

そのため、AIは実際の現場では「医師の代わり」というより、カルテを読んで助言する有能な相談役に近いです。
研究者のArjun Manrai氏も、「AIが医師を置き換えるとは思わない」としつつ、医療を大きく変える技術的転換が起きていると話しています。

もう一人の著者、Adam Rodman氏は、今後は
doctor + patient + AI
の「triadic care model（三者医療モデル）」が広がるかもしれないと述べています。
これ、かなり本質を突いている気がします。AIが主役というより、医師の判断を補強する第三の頭脳として入ってくるイメージです。

具体例: 血栓の患者でAIが見抜いたこと

記事には印象的な例も紹介されています。
ある患者は肺の血栓があり、症状が悪化していました。人間の医師は、抗凝固薬が効いていないのだろうと考えました。
でもAIは、患者のlupus（全身性エリテマトーデス）の既往歴に注目し、それが肺の炎症に関係している可能性を指摘しました。結果的にAIが正しかったそうです。

こういう話は、AIの強みがすごくわかりやすいです。
人間は目の前の目立つ問題に引っ張られやすい。でもAIは、医学知識を広く引っ張ってきて、「見落としそうな前提」を拾うことができる。
これは現場ではかなり頼もしい能力だと思います。

すでに医師はAIを使い始めている

今回の研究が面白いのは、「未来の話」ではなく、もう現実に近いことです。

米国では、約5人に1人の医師がすでにAIを診断補助に使っている
英国では、16%の医師が毎日、さらに15%が毎週AIを使っている
よく使われる用途のひとつがclinical decision-making、つまり臨床判断の補助

つまり、AIはもう医療現場の外野ではありません。
静かに、でも確実に、現場に入り込んでいます。

ただし最大の問題は「間違えたとき誰が責任を取るのか」

ここが一番ややこしいところです。
AIが診断に役立つのはわかった。でも、もしAIが誤診したら？

Rodman氏は、正式な責任分担の枠組みがまだないと話しています。
これは本当に大きな問題です。医師がAIの提案を参考にした結果ミスをした場合、それは医師の責任なのか、病院の責任なのか、AI企業の責任なのか。今の医療制度は、そこがまだあいまいです。

さらに、英国の医師たちがAIに対して抱く最大の懸念は、AIの誤りと責任リスクだという調査結果も紹介されています。
感覚としては、すごく自然です。医療は「便利だから使う」で済む世界ではないので、慎重になるのは当然でしょう。

専門家の見方: これは「第二意見」としてかなり有望

University of EdinburghのProf Ewen Harrison氏は、この研究を重要だと評価し、AIがもはや試験問題を解くだけではなく、臨床医の“セカンドオピニオン”として有用になりつつあると述べています。

この見方はかなり現実的です。
AIに全部任せるのではなく、

見落としを減らす
候補を広く出す
もう一度考え直すきっかけを作る
という役割なら、かなり強い。

私は、医療におけるAIの価値はまさにここにあると思います。
“名医の代わり”を目指すより、凡ミスを減らす仕組みとして入ったほうが、ずっと社会実装しやすいのではないでしょうか。

でも、自由に使えるAIに相談するのは危ない

University of SheffieldのWei Xing氏は、別の重要な注意点を挙げています。
それは、医師がAIの答えに無意識に引っ張られてしまう可能性です。

これはかなりありそうです。
AIが自信たっぷりに答えると、人間はつい「そうなのかも」と思ってしまう。
でも、その反応が強すぎると、医師が独立に考える力を削いでしまうかもしれません。

さらにXing氏は、この研究ではどの患者でAIが苦手だったのかが十分に示されていない点も問題だと指摘しています。たとえば、

高齢者で弱いのか
英語が母語でない人に弱いのか
特定の症状で誤りやすいのか

こういう「苦手分野」が見えないと、安全に使えるかは判断しにくいです。
だから、無料で使えるAIチャットをそのまま医療相談に使うのは危ないという警告は、かなり筋が通っています。

まとめ: AIは医師の敵というより、かなり強い相棒になりそう

この研究は、「AIが医者を完全に置き換える」という単純な話ではありません。
むしろ、

救急の初期判断
限られた情報での診断
見落とし防止
治療計画のたたき台作り

こうした場面で、AIがかなり役に立つ可能性を示した研究だと考えるのがよさそうです。

ただし、医療は正しさだけでは足りません。
患者の状態を実際に見て、話を聞いて、責任を引き受けるのは、やはり人間の医師です。
なので、今後の現実的な着地点は、AIが医師を追い出すことではなく、医師の判断を補助する“第二の脳”として定着することではないかと思います。

そして、そのほうがずっと面白い。
AIが人間を完全に置き換える未来よりも、人間の弱点を補って、医療を少し賢くする未来のほうが、ずっとありそうです。

参考: AI outperforms doctors in Harvard trial of emergency triage diagnoses

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ