在癌症诊断领域,传统方法往往依赖于肿瘤的组织和细胞形态学特征。然而,随着分子生物学和基因测序技术的飞速发展,肿瘤分类正逐步迈向更深层次的分子层面。其中,DNA甲基化作为一种关键的表观遗传修饰,在基因表达调控和细胞分化中扮演着重要角色,其异常与多种人类疾病,尤其是癌症的发生发展密切相关。因此,基于DNA甲基化的肿瘤分类已成为建立临床诊断和深入研究癌症分子特征的重要工具。
尽管DNA甲基化检测方法日益多样,如亚硫酸氢盐全基因组测序(WGBS)、靶向甲基化测序、微阵列等,但不同平台间的数据差异和兼容性问题一直是精准诊断的挑战。现有的机器学习算法常受限于单一平台或固定的甲基化特征空间,难以实现跨平台数据的有效整合与分析。面对这一挑战,医学界迫切需要一种能够跨平台、高精度预测肿瘤分类的创新模型。
crossNN:AI驱动的精准肿瘤分类新突破
为解决上述难题,德国柏林夏里特大学医学院的研究团队取得了突破性进展,他们提出了一种基于神经网络的机器学习框架——crossNN。这项创新成果已发表在国际顶尖期刊《Nature Cancer》上。crossNN模型能够利用来自不同平台、具有不同表观基因组覆盖范围和测序深度的稀疏甲基化数据,实现准确且即时的肿瘤分类。其卓越性能超越了现有深度学习模型和传统机器学习模型,并且具备良好的可解释性。
研究结果令人振奋:基于crossNN训练的泛癌分类模型,能够精准区分人类所有器官部位的超过170种肿瘤类型。在对5000多个肿瘤样本进行跨不同测序平台的验证时,该模型在脑肿瘤分类中的精确度高达99.1%,在泛癌模型中的精确度也达到了97.8%。这充分证明了crossNN模型的高度稳健性和可扩展性,为脑肿瘤诊断及其他多种癌症的精准识别提供了强大支持。
crossNN模型的工作原理与验证
crossNN模型的核心架构是一个基于感知器(perceptron)的单层神经网络,通过PyTorch实现。其设计理念在于捕获输入CpG位点与甲基化分类(MC)之间的线性关系,确保了模型的简洁性和可解释性。
在模型训练阶段,研究团队采用了海德堡脑肿瘤分类器v11b4参考数据集,该数据集包含了来自82种肿瘤类型和亚型以及9种非肿瘤对照的2,801个甲基化谱样本。crossNN模型通过随机和重复屏蔽输入数据进行训练,使其能够适应不同平台上的不同或稀疏表观基因组覆盖的甲基化组分析,从而实现跨平台肿瘤分类。
图1.crossNN模型架构、训练和交叉验证。
研究人员对crossNN模型进行了严格的性能评估。在训练数据集中,该模型的总体准确率在MC水平上达到96.11%,在甲基化分类家族(MCF)水平上更是高达99.07%。即使在不同CpG位点覆盖率下(如0.5%到100%的二次采样),crossNN模型依然表现出卓越的稳健性,并能在几秒钟内完成预测,显著优于传统的ad-hoc RFs模型。
随后,研究团队在由Illumina 450K、EPIC、EPICv2微阵列、纳米孔低通量WGS、Illumina靶向甲基化测序和Illumina WGBS等不同平台生成的独立队列中验证了crossNN模型。该验证数据集涵盖了62种不同的脑肿瘤类型,crossNN模型在MC和MCF水平的总体精度分别达到0.98和0.99,再次印证了其强大的肿瘤分类能力。
图2.验证队列中的分类结果
与ad-hoc RF方法和已发表的深度神经网络方法(Sturgeon DNN)相比,crossNN模型在总体精度方面表现相当,但在预测分数的ROC特征,特别是精度方面更胜一筹。此外,crossNN模型的可解释性分析揭示了个体标记基因的功能重要性,并能量化表观遗传修饰在基因结构中的位置重要性,使其成为一个完全可解释的AI诊断工具。
crossNN泛癌模型:覆盖全身器官的精准诊断
为了进一步拓展应用范围,研究团队集合了一个庞大的泛癌参考数据集,用于训练crossNN泛癌模型。该数据集包含了来自大多数器官部位的178种肿瘤类型的8,382例病例。内部验证和五倍内部交叉验证结果显示,crossNN泛癌模型在MC和MCF水平的总体准确率分别达到94.82%和97.61%。在对5379例未知病例的验证中,该模型在MC和MCF水平的总体准确率分别为0.83和0.88。
crossNN泛癌模型在所有主要肿瘤类型中均表现出高准确率,包括肉瘤、淋巴细胞恶性肿瘤等。研究还引入了“鳞状细胞癌超家族”MCF,以降低潜在的错误分类,例如在乳头状肾癌和透明细胞肾癌等亚型中的诊断。这表明crossNN模型在复杂癌症亚型识别方面也具备强大的潜力。
图3.crossNN泛癌模型的验证
结语:AI诊断助力精准医疗与靶向治疗
这项研究提出的跨平台、基于DNA甲基化的机器学习框架crossNN,为开发快速、灵活、可解释且准确的癌症诊断工具开辟了新途径。crossNN模型不仅简单易用、可解释性强,还能使用来自不同平台的DNA甲基化谱对实体瘤进行即时分类,在精度、简便性以及计算需求方面均优于其他机器学习模型。
其鲁棒性和可扩展性已在低通量纳米孔WGS、WGBS、靶向甲基测序和微阵列脑肿瘤队列中得到充分验证,而crossNN泛癌模型则进一步证明了其高度可扩展性,能够覆盖全身器官的多种癌症类型。这种轻量级可扩展架构还允许crossNN快速再训练和交叉验证,有助于其迅速适应新的癌症参考图谱。
通讯作者Philipp Euskirchen博士强调,新开发的模型在脑肿瘤诊断中能达到99.1%的极高准确率,超越了现有AI解决方案。同时,它能区分来自所有器官的170多种肿瘤类型,准确率高达97.8%,这意味着它可广泛应用于除相对罕见脑肿瘤外的所有器官癌症类型。
crossNN模型的即时预测能力极大地改善了时间紧迫的临床应用,例如术中诊断。此外,crossNN将DNA甲基化分类的应用范围扩展到脑肿瘤之外,在未知原发癌症的诊断工作中将发挥重要作用。更重要的是,该模型与EPICv2微阵列平台兼容,并已开发出直观的基于web的图形用户界面(https://crossnn.charite.de),允许用户上传甲基化数据并即时预测实体瘤。模型和源代码也已公开,可供本地部署和与机构工作流集成。
未来,该研究团队将与德国癌症联盟合作,计划在德国所有八个联盟地点进行临床试验,以进一步测试crossNN的准确性。这项技术的发展,无疑将为癌症患者带来更精准的诊断,从而为靶向治疗和精准医疗方案的选择提供更坚实的基础。
论文原文:
Yuan, D., Jugas, R., Pokorna, P. et al. crossNN is an explainable framework for cross-platform DNA methylation-based classification of tumors. Nat Cancer (2025). https://doi.org/10.1038/s43018-025-00976-5