德國最新研究,醫療診斷用 AI 判別模型可能遭有心人士利用,反向推論某位病患的資料是否曾進入訓練資料庫,進而外洩病史、診斷結果與其他敏感身體資訊。
《Nature》期刊發表研究,團隊分析含醫療影像、心電圖(ECG)與一般電子病歷等七組醫療 AI 資料集,發現單一病患的「成員推論攻擊」(membership inference attack)成功率幾乎完美;這顯示目前以整體表現為主的隱私安全評估,未能充分反映個人層級的隱私外洩風險。
論文主要作者、慕尼黑工業大學(Technical University of Munich)醫療 AI 與醫學講座教授莫里茲‧克諾勒(Moritz Knolle)指出,資料越具特殊性,外洩風險就越高;尤其是訓練資料原本占比就偏低的少數族群,更容易成為鎖定目標。如種族、健保狀態、性別、影像取得流程或特定的疾病狀態,都可能成為讓個人更容易辨認出來的特徵。克諾勒表示,如果訓練資料遭反推,就可能間接洩露某人是否患有亨廷頓病(Huntington′s disease)等潛在遺傳性疾病、憂鬱症,或是否曾至特定專科醫療機構就診。
研究也提到,攻擊者不見得需要取得完整的病歷;只要掌握部分醫療資料(例如部分血液檢查結果或其他零碎病患資料),就可能藉模型對輸入資料的「信心分數」,判斷該筆資料是否屬於訓練資料庫。團隊發現,即使訓練資料已經去辨識化處理,成員推論攻擊依然能成功;個人層級的誤判率幾乎為零,這代表這類攻擊辨識單一病患時幾乎不會出錯。

團隊警告,資料庫規模與代表性也會影響風險高低:某些大型、或特定族群樣本較少的資料庫,個人層級的資料外洩風險反而更高。他們呼籲醫療 AI 業界應重新檢視隱私審查標準,不該只依賴整體的統計結果,也必須將個人層級的資料外洩風險納入評估。
為了降低這類風險,研究員建議採用「差分隱私」(differential privacy)等數學防護框架,以更嚴格的方式保障訓練資料的匿名性;另一個方向則是提升訓練資料庫各族群的代表性,以降低因樣本數過少而導致的辨認風險。不過研究員也強調,規模龐大、來源廣泛,且各種疾病與健康樣本都很充足的資料庫,即便成員推論攻擊成功,也不一定會構成嚴重的隱私侵害;但整體而言,為醫療資料的保存與使用制定更高的安全標準,仍有必要性。
(首圖來源:shutterstock)






