5700万份病历喂出的AI，用全民隐私训练的“医疗先知，英国人又纠结了！

一把老骨头发布于 2025-5-18 08:05 阅读：26 科技新闻

一个名为“Foresight”的AI模型正引发英国医疗界的激烈争议：它声称能通过分析英格兰全民医疗系统（NHS）5700万人的健康记录，预测疾病风险甚至住院概率，但研究人员警告，这一“数据盛宴”可能以牺牲患者隐私为代价。更令人不安的是，其开发者坦言，无法完全排除AI模型意外泄露敏感信息的风险。

一、Foresight：从“局部实验”到“全国性AI怪物”
Foresight的起源可追溯至2023年，当时伦敦大学学院的研究团队使用OpenAI的GPT-3模型，基于伦敦两家医院的150万份患者记录，训练了一个早期版本。如今，这一项目已演变为“全球首个国家级生成式AI健康数据模型”，其数据规模堪称“恐怖”：

数据来源：整合了NHS在2018年11月至2023年12月间收集的8个医疗数据集，涵盖门诊预约、住院记录、疫苗接种等，总计100亿个健康事件；
覆盖范围：涉及英格兰约5700万人（占总人口90%以上），几乎等同于“全民医疗画像”；
技术底座：从GPT-3转向Meta的开源大语言模型Llama 2，声称能实现从个体诊断到流行病趋势预测的“全场景覆盖”。
开发者克里斯·汤姆林森在新闻发布会上宣称：“Foresight的终极目标是提前预测疾病并发症，为预防性医疗打开窗口。”然而，这一愿景的代价，是将全民健康数据置于AI的“黑箱”之中。

二、隐私风暴：去标识化≠绝对安全
尽管NHS数字部门负责人迈克尔·查普曼坚称“所有数据在输入模型前均已去标识化”，但专家指出，去标识化在超大规模数据集面前形同虚设：
“去标识化”的悖论
牛津大学隐私专家吕克·罗彻直言：“健康数据的丰富性使其对AI极具价值，但也让匿名化成为不可能的任务。”例如，通过组合出生日期、邮编和疾病史，攻击者可能以90%的准确率重新识别个体。
2023年，MIT研究团队曾通过分析匿名化医疗数据，成功还原了63%的患者身份。
“数据泄露”的技术风险
帝国理工学院AI伦理学家伊夫-亚历山大·德蒙乔伊指出，大语言模型可能通过“记忆”训练数据中的敏感模式（如罕见病案例），在生成文本时无意泄露信息。
开发者汤姆林森承认，团队尚未对Foresight进行“数据记忆测试”，但计划在未来开展。
“知情同意”的伦理黑洞
牛津大学社会学家卡罗琳·格林批评道：“即使数据被匿名化，公众仍希望掌控自己的健康信息。Foresight未经个体同意使用数据，削弱了医患信任。”
英国现行法律因“去标识化”认定Foresight未使用“个人数据”，从而绕过GDPR的同意条款，但这一解释存在法律争议。

三、技术“护城河”能否抵挡隐私洪流？
为缓解担忧，开发者与NHS宣称已构建“多重安全网”：

数据隔离：Foresight在NHS的“安全数据环境”中运行，仅限获批研究人员访问；
计算外包：亚马逊网络服务（AWS）和Databricks提供算力支持，但无法直接接触数据；
疫情例外条款：开发者辩称，Foresight目前仅用于新冠相关研究，可援引疫情期间的数据保护豁免。
然而，这些措施并未平息质疑：
退出机制缺失：NHS数据集已覆盖绝大多数英格兰居民，且因“去标识化”，现有数据退出选项无法适用；
法律模糊性：英国信息专员办公室（ICO）指出，“去标识化”与“匿名化”在法律上无明确区分，Foresight可能处于灰色地带；
技术依赖风险：若未来Foresight接入实时医疗数据，任何安全漏洞都可能导致灾难性后果。

四、医疗AI的未来：在创新与伦理间走钢丝
Foresight的争议折射出全球医疗AI的普遍困境：
效率 vs. 隐私：AI能通过分析海量数据提升诊疗效率，但患者是否愿为“群体福祉”牺牲个人隐私？
技术至上 vs. 伦理先行：开发者往往将“改进医疗”置于首位，却忽视患者对数据主权的诉求；
法律滞后性：现行数据保护法规难以应对AI的复杂性，例如从模型中删除特定记录的技术挑战。

未来可能路径：

动态同意机制：允许患者选择数据使用范围（如仅限癌症研究），并实时追踪数据流向；
联邦学习应用：通过分布式AI训练，避免数据集中存储；
独立伦理审查：建立跨学科委员会，对医疗AI项目进行强制伦理评估。

AI 训练