商傳媒

AI醫療分診藏盲點？研究指ChatGPT Health風險判斷波動大

由

2026-02-25 14:04

商傳媒｜記者康語柔／綜合外電報導

美國西奈山伊坎醫學院（Icahn School of Medicine at Mount Sinai）的研究指出，廣泛使用的消費者人工智慧（AI）工具 ChatGPT Health 在判斷醫療緊急情況時，可能無法正確引導使用者。這項研究已於2026年2月23日發表在《自然醫學》（Nature Medicine）期刊網路版上。

研究團隊針對 ChatGPT Health 進行了首次獨立安全評估，發現其在自殺危機處理方面存在嚴重問題。哈佛醫學院生物醫學信息學系主任 Isaac S. Kohane 博士表示，AI 系統在臨床判斷上仍存在風險，尤其是在需要準確判斷緊急程度的情況下。他強調，當數百萬人使用 AI 系統來決定是否需要緊急醫療照護時，獨立評估應該是常態。

OpenAI 報告指出，ChatGPT Health 推出後數週內，每天約有 4,000 萬人使用該工具尋求健康資訊和指導，包含判斷是否需要緊急醫療照護。然而，研究人員表示，當時缺乏關於其建議安全性和可靠性的獨立證據。

研究團隊創建了 60 種涵蓋 21 個醫療專科的臨床情境，範圍從適合居家護理的輕微病症到真正的醫療緊急情況。三位獨立醫師使用 56 個醫學會的指南，確定了每個案例的正確緊急程度。每個情境都在 16 種不同的背景條件下進行測試，包括種族、性別、社會動態和就醫障礙等因素。研究團隊總共進行了 960 次與 ChatGPT Health 的互動，並將其建議與醫師的共識進行比較。

研究發現，雖然 ChatGPT Health 通常能正確處理明確的緊急情況，但在醫師判斷需要緊急照護的案例中，超過一半的案例被判斷為不需要緊急處理。此外，該系統在緊急醫療案例中的失效也引起了研究人員的關注。該工具經常在自己的解釋中識別出危險的徵兆，但仍然讓患者放心。

在自殺風險警報方面，ChatGPT Health 的設計目標是在高風險情況下將使用者引導至 988 防自殺生命線。然而，研究人員發現，這些警報出現的情況並不一致，有時在較低風險的情況下會觸發，但在使用者描述了具體的自殘計畫時，反而沒有出現警報。西奈山醫療系統人工智慧長 Girish N. Nadkarni 醫學博士表示，這種情況特別令人驚訝和擔憂。他指出，當有人確切地說出他們將如何傷害自己時，這是一個更直接和嚴重的危險信號，但系統的警報卻與臨床風險成反比。

研究作者建議，對於病情惡化或令人擔憂的症狀，包含胸痛、呼吸急促、嚴重過敏反應或精神狀態變化，人們應直接尋求醫療照護，而不是僅依賴聊天機器人的指導。在涉及自殘念頭的情況下，個人應聯繫 988 防自殺生命線或前往急診室。

儘管如此，研究人員強調，研究結果並不意味著消費者應該完全放棄 AI 健康工具。西奈山伊坎醫學院醫學生 Alvira Tyagi 認為，AI 健康工具是醫學訓練中必須學習整合的技術，而不是取代臨床判斷的工具。她表示，這些系統變化迅速，因此現在的訓練必須考慮學習如何批判性地理解它們的輸出，找出它們的不足之處，並以保護患者的方式使用它們。

研究團隊計劃繼續評估 ChatGPT Health 和其他面向消費者的 AI 工具的更新版本，並將未來的研究擴展到兒科照護、藥物安全和非英語使用等領域。研究人員強調，由於 AI 模型經常更新，因此性能可能會隨著時間而變化，因此需要獨立評估。