在肿瘤治疗领域,精准诊断是实现个性化治疗的关键。随着人工智能(AI)技术的飞速发展,其在疾病诊断、病理分析及新药研发方面展现出巨大潜力。然而,大规模癌症研究中涉及的敏感临床数据,其共享与整合面临着严峻的数据隐私、跨国合规性及伦理挑战,这严重阻碍了全球范围内的协作与高质量AI工具的开发。
联邦学习(Federated Learning, FL)作为一种创新的分布式机器学习范式,为解决上述难题提供了突破口。它允许在不直接共享原始敏感数据的前提下,通过在本地训练模型并仅共享模型更新的方式,实现跨地域生物医学数据的安全整合。尽管联邦学习在保护数据隐私方面前景广阔,但此前其在人类蛋白质组学数据中的应用仍是空白。
ProCanFDL:打破数据孤岛,实现多癌种精准分型
近日,悉尼大学医学与健康学院儿童医学研究所的科研团队取得了里程碑式的进展,成功开发出首个联邦深度学习框架——ProCanFDL。该框架整合了来自全球不同国家30个队列的7,525例人类样本,涵盖19,930次非依赖采集质谱(DIA-MS)检测数据。通过模拟站点进行局部模型训练,并采用聚合参数更新机制构建全局模型,ProCanFDL在14种癌症亚型分类任务中,性能较局部模型提升高达43%,且与集中式模型效果相当。
更令人振奋的是,研究团队进一步利用2个外部DIA-MS队列和8个串联质谱标签(TMT)蛋白质组学队列数据对全局模型进行重训练,成功将识别的癌症亚型扩展至16种。这标志着ProCanFDL成功打破了长期困扰蛋白质组学研究的“数据孤岛”问题,为国际蛋白质组学协作机器学习提供了一个兼顾数据隐私与模型性能的创新解决方案。
ProCan Compendium数据集:构建泛癌蛋白质组学基石
为支持ProCanFDL的开发与验证,研究团队首先构建了庞大的ProCan Compendium数据集。该数据集汇集了来自7个国家、30个队列的4,954例癌症患者的7,525例组织样本。通过7台质谱仪对样本进行19,930次DIA-MS重复检测,成功量化了9,102种蛋白质。这些样本分布广泛,涵盖31种组织来源、29种癌症病理类型及超过65种癌症亚型。经验证,该数据集具有高度可靠性,且无仪器特异性批次效应,为后续的联邦学习模型训练奠定了坚实基础。
图1.ProCan概述
ProCanFDL的四步迭代流程:安全协作的基石
ProCanFDL框架采用严谨的四步迭代流程,确保在保障数据隐私的前提下支持国际联盟开展协作研究:
- 初始化与局部训练: 全局模型以随机权重初始化并分发至各参与站点。各站点利用其私有蛋白质组数据独立训练本地深度学习模型,原始数据绝不跨站点共享。
- 全局模型聚合: 训练后的模型参数被安全传输至中央服务器。通过联邦平均算法,这些参数被聚合更新,生成一个融合所有本地知识的新全局模型,且服务器无需访问任何原始数据。
- 全局模型更新: 新聚合后的全局模型被回传至各站点,作为下一轮局部训练的起点。
- 迭代与收敛: 循环执行上述步骤,持续优化全局模型直至其性能收敛。最终模型精度显著提升,能更全面地代表合并数据集的整体特征。
图2. 局部学习、集中学习和联邦学习。
卓越性能:精准识别多种癌症亚型
为全面评估ProCanFDL的性能,研究团队使用ProCan Compendium的蛋白质组学数据训练了局部模型、集中式模型和ProCanFDL全局模型。在针对乳腺癌、结直肠癌等14种癌症亚型的分型任务中,ProCanFDL全局模型的宏平均AUROC高达0.9992,准确率达到0.965。其性能显著优于局部模型,且与集中式模型(AUROC 0.9999)性能接近。对于其中10种癌症亚型,该模型实现了100%的识别敏感度,充分证实了其强大的预测能力。这些结果表明,ProCanFDL框架成功平衡了数据隐私与模型效能,为全球多中心协作的精准医学研究提供了切实可行的技术路径。
图3. 实验设置和模型性能
泛化能力与临床价值:发现关键生物标志物与药物靶点
为验证ProCanFDL的泛化能力,研究团队进一步纳入了PRIDE数据库的2个DIA-MS队列和CPTAC的8个TMT队列,新增了高级别浆液性卵巢癌和透明细胞肾癌2种亚型,使癌症分型任务扩展至16种。结果显示,ProCanFDL通过联邦学习整合6个站点数据,在外部验证集上宏平均AUROC仍高达0.9987,其中对胰腺导管腺癌、肝细胞癌等9种癌症亚型的敏感性达到100%。
更重要的是,ProCanFDL全局模型在下游临床应用中展现出巨大潜力。通过SHAP值分析,该模型能识别出具有临床意义的特异性标志物,如鳞癌分化标志物DSG3、上皮分化标志物AGR2,以及组织特异性蛋白,包括前列腺癌标志物KLK3和结直肠癌标志物CDH17、LGALS4等。通路富集分析显示,全局模型相比局部模型能更深度地挖掘癌种核心特征,例如在肺癌中识别MET原癌基因及鞘糖脂代谢进展通路,在结直肠癌中发现由脂肪酸结合蛋白驱动的甘油三酯代谢/PPAR信号通路。此外,该模型还识别出ERBB2(乳腺癌治疗标志物)、TACSTD2(ADC靶点)、PD-L1(肺癌免疫治疗标志物)等重要的药物相关靶点,为靶向治疗和免疫治疗提供了新的线索。
图4. 泛化、整合和模型解释
展望:加速个性化癌症治疗进程
综上所述,ProCanFDL的诞生首次实现了跨机构、跨技术的蛋白质组学联邦学习,为全球癌症研究提供了一个兼顾数据隐私与分析效能的标准化方案。这一创新框架不仅推动了AI在肿瘤精准分型中的临床转化,有望成为构建全球蛋白质组基础模型的核心工具,更将加速从基础研究到个性化医疗的转化进程。对于癌症患者而言,这意味着未来有望通过更精准的诊断,获得更匹配的靶向治疗或免疫治疗方案,从而提升治疗效果和生活质量。
参考文献:
https://aacrjournals.org/cancerdiscovery/article/doi/10.1158/2159-8290.CD-24-1488/762852/Federated-deep-learning-enables-cancer-subtyping