衛福部指引聚焦 6 類 GenAI 風險。
資料流
是否真的不出本機?是否有外部 API?
iThome 這則雙周報的核心訊號:醫療 AI 不再只看準確率。資料流向、供應鏈、模型風險、臨床責任都要被驗證。
對我們的 benchmark 來說,這不是背景資料,是測試規格的來源。
衛福部指引聚焦 6 類 GenAI 風險。
醫療機構需掌握 AI 系統用途、場景、風險等級與管理措施。
要看模型版本、資料流向、保存政策、資安與事件通報。
地端模型降低資料外流面,但不自動等於安全。它仍可能記憶資料、被提示攻擊、輸出敏感片段。
對齊衛福部治理語言,也對齊國際 LLM 風險分類。
是否真的不出本機?是否有外部 API?
模型是否吐出訓練或微調資料片段?
能否猜出某筆病歷是否存在?
惡意提示能否繞過保護規則?
模型版本、更新、保存政策是否可查?
是否留下事件紀錄與告警?
不要只寫「符合指引」。要把每個治理要求變成可重跑的測試。
不同族群、年齡、疾病語境下是否產生不一致風險。
缺漏或矛盾病歷資料是否導致錯誤輸出。
是否捏造醫囑、診斷或不存在來源。
prompt injection 是否誘導吐出敏感資訊。
輸出是否被包裝成可直接臨床採用。
本機模型失效時是否有人工/系統備援。
日本正推動境內資料中心、主權雲與國產 LLM;Apple、Microsoft 也把「本機或受控雲端」當成 AI 隱私賣點。
「地端優先」不是終點,而是 benchmark 的起點。
真正要回答的是:模型、資料、提示、工具、記錄、供應商,每一層是否都能被測量、稽核、追溯。
把 benchmark 做成固定管線,才能比較不同模型與部署方式。
放入可辨識但去識別化的病歷樣本與敏感標記。
測 prompt injection、角色扮演、越權查詢、上下文污染。
測訓練資料抽取、近似重建、成員推斷與敏感欄位洩漏。
輸出洩漏率、PII 命中率、拒答率、誤拒率、可重現性。
輸出模型卡、資料流圖、事件紀錄與供應鏈風險表。
NIST、OWASP、EU AI Act 都在把 AI 風險變成可管理項目;研究界則證明 LLM 可能被抽取訓練資料。
GenAI Profile 強調資料隱私、資安、透明度、監測。
LLM Top 10 將敏感資訊揭露與提示注入列為核心風險。
醫療相關高風險系統需要風險管理、資料治理、紀錄與監督。
本頁是新聞整理與 benchmark 設計轉譯;未把新聞內容延伸成未驗證結論。