AIの進歩がすごいと噂なので、皮膚科専門医試験の問題を解かせて合格できるかどうかを検証してみた
結果から言うとChatGPT・Gemini・ClaudeAIのいずれを利用しても合格基準である55%を越えており、「2025年時点のAIは皮膚科専門医レベル」と言えそう
見出し
皮膚科専門医試験の概要と利用したAIモデル
皮膚科専門医試験は選択問題100問 + 記述問題20問の120問で、120点満点。選択問題も記述問題も同じ1問1点で、だいたい55%(66点)くらいが合格ラインになることが多く受験生の80%が合格する※
※医師国家試験と異なり合格最低点や正答は公表されないため推測
問題では臨床写真や病理写真が掲載された画像問題が比較的多く、だいたい1/3くらいを占める(最新の2024年度では120問中39問)
問題文と画像は、日本皮膚科学会雑誌に掲載されたものを利用した。ただし雑誌掲載の画像は白黒で回答に支障がでると思われたため、本番で利用されたカラー写真をスキャンしている
2024年度の問題(要会員):日本皮膚科学会雑誌 135(2), 422-463, 2025
解答については公表されていないが、自分で解いた結果は下記の通り
-
令和6(2024)年度 皮膚科専門医認定試験 過去問 解答解説
続きを見る
利用したAIモデルは3つで、いずれも無料版を利用している(2025/3時点)
- ChatGPT (GPT-4o)
- Gemini (gemini-2.0-flash)
- Claude (Claude 3.7 Sonnet)
プロンプト
AIに問題を解かせる際のプロンプト(指示文)は下記のように設定した
プロンプト
あなたは皮膚科専門医試験の問題を解く皮膚科専攻医です。
問題文と図を添付します。与えられた問題に対して、最も適切な選択肢を選んでください。
以下のルールに従って回答してください:
1. 問題文に「2つ選べ」などの指示がない限り、必ず1つだけ選択してください
2. 問題文で複数選択が指示されている場合のみ、複数の選択肢を選んでください
3. 複数選択の場合は、選択肢を数字順に並べて出力してください(例:12, 34)
回答は以下の形式で出力してください。
"answer": [選択した回答の数字],
"confidence": [0.0-1.0の確信度],
"explanation": [回答の理由を簡潔に]
結果
自分の作成した回答とAIモデルの回答を並べて記載していく。青色はすべてのAIモデルが正解していた問題で、※は画像が含まれる問題を指す
まずは選択問題(100問)について
続いて記述問題(20問)について
これらの結果をまとめると下記の表のようになる
正答率 | GPT-4o | gemini-2.0-flash | Claude 3.7 Sonnet |
選択問題 | 62% | 54% | 57% |
記述問題 | 75% | 75% | 85% |
合計 | 64.2% | 57.5% | 61.7% |
合格基準は選択問題+記述問題の合計で55%程度のため、いずれのAIも合格水準に達していることがわかった
感想・考察
日本の医師国家試験や各科専門医試験におけるAIの正答率
医師国家試験
現時点で最新の第119回医師国家試験(2025/2開催)をAIモデルに解かせる企画の記事では、点数などが詳細に公開されている。プロンプトなどはこの記事をかなり参考に設定した
119回:各AIモデルによる第119回医師国家試験の解答精度の評価 | INFORMA by メディックメディア
それ以前に行われた116回〜118回医師国家試験については論文が公開されている
- 118回:Evaluating the Effectiveness of advanced large language models in medical Knowledge: A Comparative study using Japanese national medical examination
- 117回・116回(画像問題なし):Performance of Generative Pretrained Transformer on the National Medical Licensing Examination in Japan
これらの検証ではいずれも正答率が80〜90%以上となっており、医師国家試験の例年の合格水準(73〜77%程度)を5〜10%上回るスコアを記録している
各診療科の専門医試験
各診療科の日本における専門医試験となると報告数が少なくなってくるが、いくつか紹介
眼科専門医試験ではChatGPT-4で平均的な正答率が50%未満(受験生平均は65.7%)であったとのこと(2023/7)。60%が合格ラインらしいので、やや古い報告ではあるがこの時点では合格ラインに達していない
耳鼻咽喉科専門医試験では図表問題を除外して最大65%の正答率であった(2023/11)
救急科専門医試験ではChatGPT-4で2018〜2022年度の問題を解き、合計得点率は画像なしで65.9%、画像ありで52.0%(総合計62.3%)であり62.5%の合格ラインにほぼ到達していた(2024/2)
整形外科専門医試験ではGPT-4で2021〜2023年度の問題を解き、画像問題を含めて55〜61%の得点率であり、いずれの年度も推定合格ライン(43.7%〜53.8%)を越えていた(2024/3)
放射線診断専門医試験ではGPT-4o, Claude 3 Opus, GPT-4 Vision, Gemini Flash 1.5, Gemini Pro 1.5で2021〜2023年度の問題を解き、GPT-4oは平均45.0%と最も高い正答率だったが合格基準である60%に達しなかった(2024/11)。放射線治療(IVR)専門医試験でもGPT-4o, GPT-4 Vision, Claude-3 Sonnet, Claude-3 Opusで2019〜2023年度の問題を解き、最も高いGPT-4oで正答率は43%となっている(2024/7)
放射線科はサブスペシャルティ領域として「放射線診断」「放射線治療(IVR)」がある
リハビリテーション科専門医試験ではChatGPT4oで2021〜2023年度の問題を解き、画像問題を含めて79.1〜86.3%の正答率であった(2024/12)。合格基準は公開されていないが合格ラインと思われる
- 眼科:Performance of ChatGPT in Board Examinations for Specialists in the Japanese Ophthalmology Society
- 耳鼻咽喉科:耳鼻咽喉科専門医試験における Generative Pretrained Transformer の有効性に関する検討, Performance of GPT-4V in Answering the Japanese Otolaryngology Board Certification Examination Questions: Evaluation Study
- 救急科:Performance of a Large Language Model on Japanese Emergency Medicine Board Certification Examinations
- 整形外科:A Comparison Between GPT-3.5, GPT-4, and GPT-4V: Can the Large Language Model (ChatGPT) Pass the Japanese Board of Orthopaedic Surgery Examination?
- 放射線科:Performance of Multimodal Large Language Models in Japanese Diagnostic Radiology Board Examinations (2021-2023), Diagnostic accuracy of vision-language models on Japanese diagnostic radiology, nuclear medicine, and interventional radiology specialty board examinations
- リハビリテーション科:Evaluating the Accuracy of ChatGPT in the Japanese Board-Certified Physiatrist Examination
- 麻酔科(本文が読めないので詳細不明):ChatGPT's performance on JSA-certified anesthesiologist exam
- 産婦人科(本文が読めないので詳細不明):Outstanding performance of ChatGPT on the obstetrics and gynecology board certification examination in Japan: Document and image-based questions analysis
上記をまとめると、2024〜25年初頭時点のAIは日本の医師国家試験については十分合格水準に達しており受験生(医学生)の中でも優秀な方だが、各科専門医試験については合格ライン未達〜ギリギリ到達くらいと結論できそう
皮膚科専門医試験ではAIの正答率はまだまだ低めだが、記述問題ではかなり優秀
上記119回医師国家試験の記事によると、各社のAIモデルによる得点率は医師国家試験だと88〜95%とかなり高くなっている(合格基準は必修が80%、一般問題が221/300点≒73.7%)。これは医師国家試験受験生の上位5〜15%程度に該当するとのこと
しかし今回検証した皮膚科専門医試験では、とくに選択問題におけるAIモデルの得点率は54〜62%と決して高い正答率ではなかった。どのAIモデルも専門医試験合格ラインには達しているが、皮膚科専門医試験受験生(皮膚科4〜5年目)の中で格別優秀な成績というわけではない
一方で記述問題だと75〜85%と急にAIの得点率が高くなり、とくにClaude 3.7 Sonnetの記述問題17/20問正解は受験生の中でもトップレベルと思われる
皮膚科専門医試験では選択問題よりも記述問題のほうが受験生の実力差が現れやすい(識別指数が高い)とされており、AIのポテンシャルの現れであると感じた
画像問題はやはり鬼門
AIモデルの正答率が低い理由として、皮膚科では臨床写真や病理写真など画像情報が重視される点があると考えられた
実際に画像問題と画像なし問題に分けてみると、明らかに画像を含む問題の正答率が低い(記述問題については問題数が少ないので参考程度)
選択問題の正答率 | GPT-4o | gemini-2.0-flash | Claude 3.7 Sonnet |
画像あり(29問) | 55.2% | 44.8% | 48.3% |
画像なし(71問) | 64.8% | 57.7% | 60.6% |
全合計(100問) | 62% | 54% | 57% |
記述問題の正答率 | GPT-4o | gemini-2.0-flash | Claude 3.7 Sonnet |
画像あり(10問) | 60% | 70% | 80% |
画像なし(10問) | 90% | 80% | 90% |
全合計(20問) | 75% | 75% | 85% |
これに関しては既存の論文でも類似した結果で、画像問題の比率が93.5%と極めて高い放射線診断専門医試験では(最も優秀な)GPT-4oを持ってしても45.0%の得点率で合格基準である60%に達していない。一方、画像問題の比率が9.9%と低いリハビリテーション科専門医試験ではGPT-4oで79.1〜86.3%とかなり高い得点率になっている。
近畿大学の大塚先生の論文では皮膚科専門医と最新AIの診断精度に有意差がなかったと報告されている(使用されているのはGPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet)のだが、少なくともペーパーテストを解く上では画像認識能力に課題が残っていると言えると考えられる
皮膚科専門医試験で画像が含まれる問題をいくつか挙げると、円形脱毛症における脱毛範囲を求めるSALTスコアの計算問題(選択問題11)は計算方法が分かっていれば平易なはずだが、画像をうまく解釈できずすべてのAIで誤答となってしまった。Bowen様丘疹症(選択問題36)についても認識できておらず、Bowen病と考えてすべてのAIが誤答してしまっている。
一方で同じ画像問題といっても、病理や写真をきちんと読まないと解答できない問題と、写真がなくても実質解答に支障がない問題があるので、これらを一律に扱うことができるのか?という疑問も出てくる
- 前者の例(選択問題55):眼瞼周囲の丘疹で生検像が提示されている→画像がなければ稗粒腫が妥当だが、画像的に肉芽腫性病変なのでLMDF(顔面播種状粟粒性狼瘡)の診断になる。ChatGPT以外は解けず
- 後者の例(選択問題53):臨床写真が提示されているが、問題文に皮疹の詳細が記されているので画像解釈ができなくても問題ない。全てのAIが正解
なおGPT-4oは選択問題55で「肉芽腫性病変でありかつ乾酪壊死を伴うのでサルコイドーシスは除外されLMDFとなる」と返答しており他のAIと比べても一際優秀だった
AIにおける今後の改善余地
プロンプトとAIモデル
まずプロンプトについて、より最適化されたものを用いることで正答率が上がる可能性が考えられる
例えば自分の検証では問題文・回答のいずれも日本語で入力/出力を行った
しかし上で取り上げた116・117回医師国家試験を解かせた論文(GPT-3.5, GPT-4)では、日本語でそのまま回答させるよりもプロンプトによって問題文を簡単な英語に訳して回答させたほうが正答率が上がったとされている。GPT-4oになってプロンプトを調節しなくても高いパフォーマンスを発揮するようになった印象はあるが、最適化を図ることでより高い正答率が得られる可能性がある
また同じOpen AI社のモデルでもo3-mini-highなどより高度な推論を行うモデルを使うことで、得点率が上昇するかもしれない(119回医師国家試験でAIモデル毎の正答率を比較して最も高かったのもこのモデル)。ただしこのモデルの利用には有料プランが必要なので今回検証できていない
日本の保険適用などに関する問題
AIは最新情報をすべて反映しているわけではないので、日本における保険適用などについては適当な部分が目立った。これはAIの学習ソースに利用されているのが主に英語であることが原因と思われ、先述した医師国家試験に関する論文でも日本特有の医療制度に関する出題は正答率が低いことが指摘されている
これについては添付文書などのデータをインプットしていれば解決できそうで、改善余地があるように感じた
具体例を下記に挙げておく
- 選択問題17:掌蹠膿疱症に対して保険適用のある生物学的製剤を選ぶ問題。すべてのAIが不正解
- 選択問題19:カンジダ症に保険適用のない抗真菌薬を選ぶ問題(多くの抗真菌薬は白癬・カンジダいずれも保険適用があるが一部白癬のみのものがある)。すべてのAIが不正解
- 選択問題21:白癬菌抗原キット(デルマクイック®爪白癬)の検査方法等に関する問題。すべてのAIが不正解
- 選択問題29:光線療法の保険適用がある疾患を問う問題。円形脱毛症は2020年に追加となっているが、すべてのAIが認識しておらず不正解
- 選択問題39:慢性蕁麻疹に保険適用のある生物学的製剤を選ぶ問題。2024/2にデュピクセントが追加されているが、Geminiは認識できておらず不正解
- 選択問題41:早期梅毒に対するステルイズ®の投与は1回(後期梅毒は3回)だが、すべてのAIが2回投与が必要と答え不正解(海外では使用方法が異なるのかもしれない)
- 選択問題57:水疱性類天疱瘡の評価スコアであるBPDAIに関する問題。名称が類似するPDAI(天疱瘡の評価スコア)と混同したためか、すべてのAIが皮膚病変・粘膜病変のスコアを合計すると回答して不正解になった
- 選択問題59:生物学的製剤で効果不十分な乾癬に対し、全身の光線療法を行うと回答したGeminiとClaudeが不正解になった(正解はエキシマライトなどのターゲット型)。正答根拠となる「乾癬の光線療法ガイドライン」は2016年出版と比較的時間が経っているので意外だった
- 選択問題63:ネモリズマブ(ミチーガ®)の保険適用は「アトピー性皮膚炎にともなうそう痒」であり"皮疹そのものではない"のだが、AIは両者の違いを認識できていなかった
- 選択問題88:ヒドロキシクロロキン(プラケニル®)の投与量は「身長から計算される理想体重」に基づき決定されるのだが、AIは体重と誤答する例が多く正解できたAIはなかった。なお過去問で全く同じ問題が出題されているので受験生の正答率は高めと思われる
- 記述問題18:根治切除不能な進行・再発の上皮系皮膚悪性腫瘍に対し、2024/2に保険適用となった生物学的製剤を問う問題。正解はニボルマブだが、日本では子宮頚癌にしか保険適用のないセミプリマブと回答するAIが多かった(同じくPD-1抗体製剤であり米FDAではこちらが承認されているためと思われる)
最後にAI関係の入門で勉強になった書籍を載せておきます
仕事が爆速化する! Claude Perplexity Glasp NotebookLM 使いこなし術