«

5700万份病历喂出的AI,用全民隐私训练的“医疗先知,英国人又纠结了!

一把老骨头 发布于 阅读:8 科技新闻


一个名为“Foresight”的AI模型正引发英国医疗界的激烈争议:它声称能通过分析英格兰全民医疗系统(NHS)5700万人的健康记录,预测疾病风险甚至住院概率,但研究人员警告,这一“数据盛宴”可能以牺牲患者隐私为代价。更令人不安的是,其开发者坦言,无法完全排除AI模型意外泄露敏感信息的风险。

一、Foresight:从“局部实验”到“全国性AI怪物”
Foresight的起源可追溯至2023年,当时伦敦大学学院的研究团队使用OpenAI的GPT-3模型,基于伦敦两家医院的150万份患者记录,训练了一个早期版本。如今,这一项目已演变为“全球首个国家级生成式AI健康数据模型”,其数据规模堪称“恐怖”:

二、隐私风暴:去标识化≠绝对安全
尽管NHS数字部门负责人迈克尔·查普曼坚称“所有数据在输入模型前均已去标识化”,但专家指出,去标识化在超大规模数据集面前形同虚设:
“去标识化”的悖论
牛津大学隐私专家吕克·罗彻直言:“健康数据的丰富性使其对AI极具价值,但也让匿名化成为不可能的任务。”例如,通过组合出生日期、邮编和疾病史,攻击者可能以90%的准确率重新识别个体。
2023年,MIT研究团队曾通过分析匿名化医疗数据,成功还原了63%的患者身份。
“数据泄露”的技术风险
帝国理工学院AI伦理学家伊夫-亚历山大·德蒙乔伊指出,大语言模型可能通过“记忆”训练数据中的敏感模式(如罕见病案例),在生成文本时无意泄露信息。
开发者汤姆林森承认,团队尚未对Foresight进行“数据记忆测试”,但计划在未来开展。
“知情同意”的伦理黑洞
牛津大学社会学家卡罗琳·格林批评道:“即使数据被匿名化,公众仍希望掌控自己的健康信息。Foresight未经个体同意使用数据,削弱了医患信任。”
英国现行法律因“去标识化”认定Foresight未使用“个人数据”,从而绕过GDPR的同意条款,但这一解释存在法律争议。

三、技术“护城河”能否抵挡隐私洪流?
为缓解担忧,开发者与NHS宣称已构建“多重安全网”:

四、医疗AI的未来:在创新与伦理间走钢丝
Foresight的争议折射出全球医疗AI的普遍困境:
效率 vs. 隐私:AI能通过分析海量数据提升诊疗效率,但患者是否愿为“群体福祉”牺牲个人隐私?
技术至上 vs. 伦理先行:开发者往往将“改进医疗”置于首位,却忽视患者对数据主权的诉求;
法律滞后性:现行数据保护法规难以应对AI的复杂性,例如从模型中删除特定记录的技术挑战。

未来可能路径

  1. 动态同意机制:允许患者选择数据使用范围(如仅限癌症研究),并实时追踪数据流向;
  2. 联邦学习应用:通过分布式AI训练,避免数据集中存储;
  3. 独立伦理审查:建立跨学科委员会,对医疗AI项目进行强制伦理评估。

AI 训练