人工智慧及機器學習在醫療器材的應用
醫療器材市場在最近幾年發生許多變化。第一是Covid-19疫情讓數位醫療成為顯學,例如遠距醫療或是可穿戴式電子醫療產品的興起。第二是人工智慧/機器學習 (Artificial Intelligence/Machine Learning, 以下簡稱為 AI/ML) 成為醫療器材創新的趨動力。AI/ML在醫療器材市場的用途包括資料庫管理、疾病診斷、預測疾病風險、協助監測病人、以及提供更個人化的治療計畫等。舉例來說,AI/ML能應用在監測和評估住院老年患者的跌倒風險,方便醫療人員預防意外發生。目前最常見的應用是在影像診斷,透過AI/ML演算法的速度和準確性來協助診斷人眼難以識別的圖像異常。比起完全透過醫療人員的人工審核,使用AI/ML醫療器材能夠在短時間內審視更多患者的影像,同時減少潛在的誤診風險。除此之外,數位醫療和AI/ML的結合能使病人更輕易獲得遠端診斷。例如在遠距醫療中使用AI/ML聊天機器人初步判斷患者的症狀並建議是否需要前往醫院,如此一來即能有效藉由遠端方式實施檢傷分類,避免急診室的壅塞。
生醫界生成式人工智慧產品的熱潮
自ChatGPT於2022年11月問世後,使用巨量資料進行訓練的大型語言模型 (Large Language Model)應用便成為最炙手可熱的新興科技。大型語言模型建立在生成式人工智慧技術,根據人類語言的輸入提示產生內容。在生醫產業中,已有不少科技公司推出相關產品,大部份用於輔助醫師書寫病歷及精簡診斷流程。例如Google Cloud在今年推出的Vertex AI Search for Healthcare,它能讓醫師在各式臨床病歷及數據中搜尋關鍵字,並將資訊匯整到臨床工作人員的工作流程中。醫師不只能在Vertex AI Search中搜尋病人過去的病史,這項產品還能整理出相關的臨床治療指引以及研究文章,方便醫師制定治療計畫。除此之外,美國一些大型連鎖醫院的急診室也已開始測試合併使用此產品以及訪談轉錄軟體,將醫師和病人的對談同時整理成病歷,省去紀錄的時間,在經人審閱後直接上傳電子病歷系統。Microsoft旗下的Nuance Communications在2023年3月推出應用GPT-4的病歷紀錄系統。Apple 和Amazon也已開發針對臨床使用的語音轉錄工具。另一間科技公司Oracle預計在2024年第二季推出臨床數位助理的生成式人工智慧軟體,能夠建議臨床醫師下一步的用藥或是協助預約檢查。
短短一年間,生成式人工智慧在輔助臨床決策的應用上便從0來到百家爭鳴的時代。儘管多項應用生成式人工智慧的臨床輔助軟體已在美國某些醫療院所中被使用,只要他們並非直接提供疾病診斷,便不必受到美國食品藥物管理署 (本報告簡稱美國食藥署)的監管。該如何界定哪些在臨床使用的AI/ML軟體屬於醫療器材的範疇,也顯示了政府監管的困難。
美國食藥署批准人工智慧醫療器材的歷史
回顧使用 AI/ML的醫療器材在美國的監管歷史,早在1995年,美國食藥署便批准了第一個應用人工智慧的半自動醫療器材—PAPNET檢測系統。PAPNET應用了神經網絡科技,能夠在子宮頸抹片中迅速找出最具異狀的細胞回傳給實驗室,再由檢驗師確認這些細胞是否有病變。在臨床上,PAPNET常被用來再次檢查已經被檢驗師認定為沒有癌症病變的抹片,以來輔助臨床醫生的決策。23年後,美國食藥署批准了第一個全自動應用人工智慧的醫療器材—IDx-DR。這項診斷軟體能檢測出糖尿病患者的早期視網膜病變,但和PAPNET這類半自動醫療器材的不同是,IDx-DR不需要任何臨床工作者的輔助、能夠自動做出診斷。這對需要鑑別糖尿病患者視網膜病變、但沒有足夠眼科疾病診斷經驗的醫師來說尤其有幫助[1] [w2] 。截至2023年10月為止,美國食藥署核准了692項應用AI/ML的醫療器材,其中大部分應用在放射科和心血管設備。近年AI/ML醫療器材的申請及核准急遽增加,在2022年有92件通過,2023年統計到十月就已經超越前一年度、有108件申請被核准。[1]
美國食藥署監管人工智慧醫療器材的相關指引
隨著AI/ML在醫療器材的應用日益增加,美國食藥署自2019年以來便不斷增定修改相關監管方法 (表一)。其中最重要的開端始於 2019 年 4 月,當時該機構向業界發布了《Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) 》,作為監管架構初步的提案以及徵求利害關係人的回饋。在這份文件中,美國食藥署針對多個主題徵求了意見,包括AI/ML醫療器材上市前審查、上市後修改的監管評估,以及評估品質的方法。美國食藥署於 2021 年 1 月回應了大量利害關係人的回饋,發布《Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) Action Plan》。在此行動計劃中,美國食藥署承諾採取五大點來持續監管應用AI/ML的醫療器材:
- 為應用AI/ML的醫療器材量身訂製監管框架:美國食藥署認知到需要制定特殊的指導方針以支持AI/ML醫療器材的發展,並承諾推廣這些指導方針,尤其是在上市後變更控制方面。
- 良好機器學習實踐 (Good Machine Learning Practice; GMLP) 原則:美國食藥署將與國際監管社群合作制定GMLP 原則,以指導產品開發和維護。
- 以患者為中心、融入對使用者的資訊透明度:美國食藥署將致力於傳播AI/ML醫療器材的相關資訊,包括用於演算法訓練的資料來源,以及確保所有使用者都能輕鬆了解AI/ML醫療器材的益處、風險和限制。
- 與演算法偏見相關的監管方法:美國食藥署承認,雖然偏見並非AI/ML醫療器材所獨有,但大眾會對這些設備及其功能所依據的資料相關的偏見持有特別的擔憂。美國食藥署承諾支持關於監管的科學研究,以確保在AI/ML醫療器材的開發和維護中考慮諸如種族、民族和社會經濟地位等因素。
- 整合實際性能指標:美國食藥署認為真實世界數據 (real-world data) 在AI/ML醫療器材的開發和監管中會是非常重要的議題。AI/ML醫療器材的普遍性,也就是在和模型訓練資料不同的環境、病人下,性能是否能維持將是一大重點。美國食藥署承諾將徵求一些廠商自願提供真實世界數據來試行監測,以此來制定適用於AI/ML醫療器材監管的實際性能指標[3] 。
自宣布 2021 年行動計劃以來,美國食藥署持續發布了多份指導文件,以履行其對AI/ML醫療器材之監管相關的承諾。2021年10月,定義何謂良好機器學習實踐的10項準則在《Good Machine Learning Practice for Medical Device Development: Guiding Principles》率先被發表。2022年的 9 月,美國食藥署在《Guidance document on Clinical Decision Support Software》更加清楚地定義哪些輔助臨床決策的軟體屬於醫療器材並將受到規範,其中部分軟體包括預測敗血病、預測心臟衰竭病患住院機率、以及鑒別可能成癮於鴉片類藥物的病人的演算法都新納入為醫療器材受到食藥署規範。隨後在2023年發表的兩份草案《Marketing Submission Recommendations for a Predetermined Change Control Plan for Artificial Intelligence/Machine Learning (AI/ML)-Enabled Device Software Functions》及《Predetermined Change Control Plans for Machine Learning-Enabled Medical Devices: Guiding Principles》皆針對AI/ML醫療器材廠商在申請上市前需繳交的預定變更控制計劃 (Predetermined Change Control Plan; PCCP) 提出了更詳細的建議。廠商需在PCCP中提供詳細的修改計畫、清楚解釋器材修改的應用及驗證方法學、以及修改可能造成的影響評估。美國食藥署也在草案中指出,廠商必須描述日後會如何跟用戶溝通器材修改的必須資訊。2024年3月,美國食藥署再次發布了最新的指引《Artificial Intelligence and Medical Products: How CBER, CDER, CDRH, and OCP are Working Together》,旨為補充2021 年發布的行動計劃,並強調各部會的合作規畫。
人工智慧醫療器材可能存在的演算法偏見
科技、民主與社會研究中心日前發佈的專家評論AI科技導入的風險由誰承擔?有無「侵害人權」是重點中提及了人工智慧的潛在偏見問題,而本篇將接力以此角度來關注AI/ML醫療器材的潛在風險。現今醫療系統中收集數據的挑戰和不平等都會導致人工智慧軟體產生偏差,而這種偏差將會影響產品的安全性和有效性。由於許多臨床演算法沒有能力建立因果關係,廠商無法解釋為何使用人工智慧或是機器學習軟體的醫療器材在不同人群中會有不同效果。最嚴重的情況下,此類醫療器材可能加劇導致少數族群繼續得到不適當的醫療和遭受健康危害的可能性[4] 。舉例來說,臨床上早已發現有色人種比白人患者更常在病灶嚴重的後期才被診斷出黑色素瘤,如果一個用於幫助檢測黑色素瘤的演算法大量使用淺色皮膚患者的影像及醫師的診斷進行訓練,則在分析有色人種的色素病變時,其表現很可能不佳[2] 。Obermeyer et al. 在2019年研究一款根據健保給付資料開發的商業AI演算法後發現,被預測為需要同樣程度醫療照護的黑人病患較白人患者實際上病得更重,也就是黑人病患的疾病嚴重程度被低估了。作者認為,這可能是由於病患使用多少醫療服務和保險給付多少醫療費用受到了種族的影響—在控制慢性疾病數量的情況下,黑人患者平均比白人病患每年少花費1801美元的醫療費用。由於演算法背後的健保給付資料存在如此偏見,在臨床上使用這樣的AI演算法可能導致真正得到照護的黑人患者比起實際需要照護的人數減少了一半以上[3] 。小型地方醫院要使用AI/ML醫療器材時,也可能因為設備不足及醫院內專科醫師較少,導致效果不如使用大型醫學中心數據的演算法所預期。這也是為何美國食藥署近年來十分關注使用AI/ML的醫療器材是否在驗證、實施和監測過程中納入不同的人群和地理環境的資料,例如不同種族、性別、年齡、疾病嚴重程度、各地醫療系統和科技設備等。但由於美國沒有全民健保,醫療系統破碎而複雜,保險公司彼此的資料庫並不相連,收集具有全國代表性的數據通常很困難且費用高昂[5] 。Kaushal et al. 在 2020 年分析74個使用資料庫訓練圖像診斷 AI 的研究後發現,約 70%的研究使用了來自加州、麻州、或是紐約州的資料來訓練模型,但有34 個州沒有在任何研究中被納入[4] 。如果在開發演算法時沒有考慮地理多樣性,包括疾病發生率和社會經濟差異等,那這些演算法在真實環境下的表現可能會比預期差。
結語
AI/ML在醫療科技上的應用造就了一個可貴的轉型機遇,有望改善患者結果、提高效率並加速醫療保健各領域的研究。因此醫療工作者、軟體開發人員和研究者勢必將繼續開發新的AI/ML醫療器材,美國食藥署也預計在接下來幾年加速核可這類的醫療器材。美國參議院財政委員會也在2024年二月再次針對AI/ML在醫療產業的應用舉辦聽證會。可以預見未來政府監管的方向和力度,將會受到業界期待鬆綁限制的抵抗。人工智慧、機器學習這樣的新科技帶來許多新興的挑戰,而如何在保護公共衛生的同時實踐創新將成為各國政府的難題。科技、民主與社會研究中心將會持續關注美國和其他國家對此在政策方面的因應措施及趨勢。
表一:FDA 對人工智慧醫療器材監管的重要指引
Note: CBER=Center for Biologics Evaluation and Research; CDER=the Center for Drug Evaluation and Research; CDRH=the Center for Devices and Radiological Health; OCP=the Office of Combination Products
短評使用之專有名詞中英文對照
- 人工智慧/機器學習 (本報告簡稱AI/ML;Artificial intelligence / machine learning)
- 美國食品與藥物署 (本報告簡稱美國食藥署;U.S. Food and Drug Administration, FDA)
- 生成式人工智慧 (Generative AI)
- 大型語言模型 (Large Language Model)
- 良好機器學習實踐 (Good Machine Learning Practice; GMLP)
- 真實世界數據 (Real-world data)
- 預定變更控制計劃 (Predetermined Change Control Plan; PCCP)
- 普遍性 (Generalizability)
[1] List of Artificial Intelligence and Machine Learning (AI/ML)-Enabled Medical Devices approved by FDA. https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-aiml-enabled-medical-devices
[2] Adamson AS, Smith A. Machine Learning and Health Care Disparities in Dermatology. JAMA Dermatol. 2018;154(11):1247–1248. doi:10.1001/jamadermatol.2018.2348
[3] Ziad Obermeyer et al. ,Dissecting racial bias in an algorithm used to manage the health of populations.Science366,447-453(2019).DOI:10.1126/science.aax2342
[4] Kaushal A, Altman R, Langlotz C. Geographic Distribution of US Cohorts Used to Train Deep Learning Algorithms. JAMA. 2020 Sep 22;324(12):1212-1213. doi: 10.1001/jama.2020.12067. PMID: 32960230; PMCID: PMC7509620.