【研究結果】ChatGPTが米国医師国家試験で医学部生に勝利

スタンフォード大学の研究者らによる新たな研究で、ChatGPTが米国医師免許試験（USMLE）における難易度の高い臨床試験問題において、医学部の1・2年生よりも高いスコアを出したことが明らかになりました。

本記事では同研究結果について、わかりやすく解説します。

ChatGPTが臨床的な推論能力を測るテストで医学部生よりもハイスコアを出す

スタンフォード大学の研究者らによる新たな研究で、ChatGPTが米国医師免許試験（USMLE）における難易度の高い臨床試験問題において、医学部の1・2年生よりも高いスコアを出したことが明らかになりました。

それ以前の研究においても、米国医師免許試験（USMLE）の選択問題でChatGPTが合格ライン以上の点数を叩き出したとの研究結果が明らかになっていました。
今回の研究では、選択問題よりも複雑で難しい臨床的な推論能力を評価するテストをChatGPTに回答させたところ、医学部1年生・2年生よりも平均4点以上高いスコアを出したことを発見しました。

「ChatGPTが、この種の自由回答の医学的推論問題で、人間の受験者の得点を上回る結果を出したことに、私たちは非常に驚きました」と、スタンフォード大学医学部の病院勤務医で臨床准教授であり、この研究の著者であるエリック・ストロングは言う。

「このような結果が出たことで、文章による医学的推論の教育とテストのあり方が、新しいツールによって根底から覆されようとしています」と、共著者でスタンフォード大学医学部教育マネージャーのAlicia DiGiammarino氏は言う。

ChatGPTなどのAIは、私たちが医学を教える方法、ひいては医学を実践する方法を変えようとしています。
by スタンフォード大学医学部教育マネージャーのAlicia DiGiammarino氏

研究の概要

本研究は14の臨床推論事例を使って研究されました。
数百から1,000語程度の文章で記述された臨床推論事例には、実際の患者のカルテと同じように、無関係な慢性疾患や投薬など無数の余計な詳細な情報も含まれています。

受験者は、これらの事例に記載されている各症例などの情報を読み取った上で、一連の臨床的な質問に対して、自由記述で回答を導き出さなければならない。

このように患者の症例などに関する長文の文章を分析し、自由記述の解答を作成することは、USMLEの選択式試験の問題に比べ非常に複雑で難解だという。

なお、ChatGPTが本研究の臨床推論事例の回答を行うにあたっては、事前にプロンプトエンジニアリングが行われました。ChatGPTはインターネット全体の情報を利用しているため、テストで使われる医療に関する専門用語を正しく解釈できないことがあるためです。
例えば、”problem list”（問題リスト）は、患者の過去と現在の医学的問題を指しますが、他の非医学的な文脈にも現れる可能性があるため、誤った解釈がされる可能性があります。

このようにプロンプトエンジニアリングを行った上で、ChatGPTと医学部の1年生・2年生の学生にそれぞれ同じ臨床推論事例の問題を出題し、回答結果を経験豊富な教員が採点しました。

本研究の著者であるストロング氏によれば、GPT-4を使った本研究ではChatGPTは学生より平均4.2点高く、合格点を出した割合は学生の85％に対し93％と上回った、といいます。

ただ、ChatGPTも完璧ではありませんでした。GPT-4と3.5で特に気になったのは、コンファブレーション（ある症例で患者が発熱していたのに、実際には発熱していなかったというような、誤った詳細情報を追加してしまうこと）です。コンファブレーションによる “偽の記憶 “は、ChatGPTが類似の症例から情報を引き出している、コンフレーション（混同）から生じているのかもしれないという。

医学教育や医療の在り方は見直しが迫られている

これらChatGPTの影響を受け、スタンフォード大学医学部では試験をこれまでのオープンブック（ChatGPTにインターネットからアクセスできる状態）からクローズドブック（ChatGPTの利用を禁止）に切り替えることを決定しました。

これにより、試験を受ける学生は記憶のみに基づいて問題を解かなければならなくなりました。
つまり、試験で学生の情報収集能力は評価されなくなったのです。

スタンフォード大学医学部教育マネージャーのディジャマリーノ氏は、「学校でAIに頼りすぎて、自分で症例を推理する方法を学べなかったような医師にはなってほしくないのです」「しかし、私は、医師がAIを効果的に使う訓練を受けておらず、現代の診療にAIが蔓延していることに気づく世界の方が怖いのです」と言う。

また、スタンフォード大学医学部はChatGPTなどのAIが医学教育に与える影響を検討するためにAIワーキンググループを立ち上げました。
このグループは、将来の臨床医を教育学的に育成することを目的に、学生の学習を補うためにAIツールを取り入れたカリキュラムの見直しを検討しています。

スタンフォード大学医学部教育マネージャーのディジャマリーノ氏は、AIが医療に与える影響についてこう言います。

医師に取って代わられるような事態が起こるのは、まだ数十年先のことかもしれません。しかし、日常医療にAIを取り入れなければならなくなるのは、ほんの数年先のことです。
by スタンフォード大学医学部教育マネージャーのAlicia DiGiammarino氏

📁 chatgpt

🔖 ChatGPT, ニュース, 研究