AI醫療分診藏盲點?研究指ChatGPT Health風險判斷波動大

AI醫療分診藏盲點?研究指ChatGPT Health風險判斷波動大
AI醫療分診藏盲點?研究指ChatGPT Health風險判斷波動大

商傳媒|記者康語柔/綜合外電報導

美國西奈山伊坎醫學院(Icahn School of Medicine at Mount Sinai)的研究指出,廣泛使用的消費者人工智慧(AI)工具 ChatGPT Health 在判斷醫療緊急情況時,可能無法正確引導使用者。這項研究已於2026年2月23日發表在《自然醫學》(Nature Medicine)期刊網路版上。

研究團隊針對 ChatGPT Health 進行了首次獨立安全評估,發現其在自殺危機處理方面存在嚴重問題。哈佛醫學院生物醫學信息學系主任 Isaac S. Kohane 博士表示,AI 系統在臨床判斷上仍存在風險,尤其是在需要準確判斷緊急程度的情況下。他強調,當數百萬人使用 AI 系統來決定是否需要緊急醫療照護時,獨立評估應該是常態。

OpenAI 報告指出,ChatGPT Health 推出後數週內,每天約有 4,000 萬人使用該工具尋求健康資訊和指導,包含判斷是否需要緊急醫療照護。然而,研究人員表示,當時缺乏關於其建議安全性和可靠性的獨立證據。

研究團隊創建了 60 種涵蓋 21 個醫療專科的臨床情境,範圍從適合居家護理的輕微病症到真正的醫療緊急情況。三位獨立醫師使用 56 個醫學會的指南,確定了每個案例的正確緊急程度。每個情境都在 16 種不同的背景條件下進行測試,包括種族、性別、社會動態和就醫障礙等因素。研究團隊總共進行了 960 次與 ChatGPT Health 的互動,並將其建議與醫師的共識進行比較。

研究發現,雖然 ChatGPT Health 通常能正確處理明確的緊急情況,但在醫師判斷需要緊急照護的案例中,超過一半的案例被判斷為不需要緊急處理。此外,該系統在緊急醫療案例中的失效也引起了研究人員的關注。該工具經常在自己的解釋中識別出危險的徵兆,但仍然讓患者放心。

在自殺風險警報方面,ChatGPT Health 的設計目標是在高風險情況下將使用者引導至 988 防自殺生命線。然而,研究人員發現,這些警報出現的情況並不一致,有時在較低風險的情況下會觸發,但在使用者描述了具體的自殘計畫時,反而沒有出現警報。西奈山醫療系統人工智慧長 Girish N. Nadkarni 醫學博士表示,這種情況特別令人驚訝和擔憂。他指出,當有人確切地說出他們將如何傷害自己時,這是一個更直接和嚴重的危險信號,但系統的警報卻與臨床風險成反比。

研究作者建議,對於病情惡化或令人擔憂的症狀,包含胸痛、呼吸急促、嚴重過敏反應或精神狀態變化,人們應直接尋求醫療照護,而不是僅依賴聊天機器人的指導。在涉及自殘念頭的情況下,個人應聯繫 988 防自殺生命線或前往急診室。

儘管如此,研究人員強調,研究結果並不意味著消費者應該完全放棄 AI 健康工具。西奈山伊坎醫學院醫學生 Alvira Tyagi 認為,AI 健康工具是醫學訓練中必須學習整合的技術,而不是取代臨床判斷的工具。她表示,這些系統變化迅速,因此現在的訓練必須考慮學習如何批判性地理解它們的輸出,找出它們的不足之處,並以保護患者的方式使用它們。

研究團隊計劃繼續評估 ChatGPT Health 和其他面向消費者的 AI 工具的更新版本,並將未來的研究擴展到兒科照護、藥物安全和非英語使用等領域。研究人員強調,由於 AI 模型經常更新,因此性能可能會隨著時間而變化,因此需要獨立評估。