面对复杂多变的癌症,每一次医学上的新发现都像是一束希望之光。对癌症患者和家属而言,最渴望的就是能找到更精准、更有效的治疗方法。近年来,单细胞测序技术以其能“一览众山小”的独特视角,成为探索生命奥秘、尤其是癌症研究的强大工具。但这项技术在分析时,也曾面临一些挑战,比如如何精准识别那些隐藏在“人群”中的少数派癌细胞。而现在,清华大学张学工、魏磊团队带来了一项突破性成果——scATAC-seq通用参考集cPeak,这项创新技术有望帮助我们更深入地理解癌症,为未来的精准诊疗和药物研发铺平道路。
癌症治疗的“盲区”与精准医疗的渴望:为什么“个性化”如此重要?
癌症之所以难治,一个重要的原因在于它的“狡猾”和“多变”。我们常说“癌症”,但实际上,即使是同一种癌症,比如肺癌,不同的患者之间,甚至同一个患者体内的不同肿瘤区域,癌细胞的性质都可能千差万别。这种差异被称为“肿瘤异质性”,它就像是癌细胞给自己穿上的“伪装”,让治疗变得复杂。有些癌细胞可能对某种药物敏感,而另一些则可能天生耐药,甚至在治疗过程中,癌细胞还会发生变异,产生新的耐药性。
传统的癌症诊断和治疗方法,往往只能看到肿瘤的“平均面貌”,难以捕捉到这些细微的个体差异和稀有变异。这就好比我们想了解一群人的特点,却只统计了所有人的平均身高、体重,而忽略了其中可能隐藏的、拥有特殊技能的“少数派”。正是这些“少数派”癌细胞,往往在肿瘤的复发、转移或耐药中扮演着关键角色。因此,实现“精准医疗”,也就是根据每个患者、甚至每个癌细胞的独特基因特征来定制治疗方案,成为了现代癌症治疗的最高追求。
洞察细胞“开关”——scATAC-seq技术解析
要实现精准医疗,我们就需要深入了解癌细胞内部的运行机制。细胞的功能,归根结底是由基因决定的。而基因并不是总在工作,它们像灯泡一样,有“开关”控制着它们的“亮”和“灭”,这个过程就叫“基因调控”。
在细胞中,我们的遗传物质DNA并非裸露存在,而是紧密地缠绕在一种叫做“组蛋白”的蛋白质上,形成了一个复杂的结构,我们称之为“染色质”。想象一下,DNA是一根很长的线,组蛋白是线轴,DNA就缠绕在线轴上。只有当DNA从线轴上松开,变得“可及”,基因的“开关”才能被打开,相关的基因才能开始工作。这种染色质“可及性”的变化,直接决定了细胞的特性和功能。
单细胞转座酶可及性染色质测序(scATAC-seq)技术,正是为了探测这种“可及性”而生。它能像一把高精度的“剪刀”,在单个细胞的层面上,精准地找出哪些区域的染色质是松散的、开放的,哪些区域是紧密的、关闭的。简单来说,scATAC-seq就是给每一个单独的细胞拍摄一张独一无二的“基因开关地图”,告诉我们这个细胞里哪些基因是活跃的,哪些是沉默的。
这项技术的出现,极大地弥补了传统方法只能获取“细胞群体平均信息”的不足。它能让我们看到每个细胞的个性,而不是“一锅粥”的平均值,这对于理解肿瘤内部复杂性、发现罕见癌细胞的独特调控机制至关重要。
告别“盲人摸象”——传统分析的挑战与cPeak的应运而生
尽管scATAC-seq技术强大,但其数据分析本身也面临一些挑战。传统的分析流程,常常采用一种“伪批量”(pseudo-bulk)的策略。这就好比把所有细胞的数据先混合在一起,然后再从中寻找“基因开关”的特征。这样做的问题在于,它在一定程度上削弱了scATAC-seq技术原有的“单细胞分辨率”优势。更糟糕的是,那些数量稀少、但在肿瘤进展中可能发挥关键作用的罕见细胞类型,其独特的染色质特征很容易被大量普通细胞的特征所掩盖,导致我们错失重要的信息。
为了解决这一“盲人摸象”的困境,清华大学张学工、魏磊团队深入研究发现,在基因组上,许多潜在的染色质可及区域在不同条件下表现出相对保守的位置和高度一致的“形状”特征。这一发现给研究团队带来了灵感:既然这些“基因开关区域”具有共性,那我们能否像转录组分析中依赖“参考基因组”一样,也为染色质可及性数据构建一个标准化的、通用的“基因开关参考地图”呢?
基于这一构想,研究团队系统整合了涵盖多种人体组织器官的624个高质量的bulk ATAC-seq公共数据集(这些数据集是不同细胞或组织中染色质可及性的“批量”测量结果)。通过深度挖掘这些海量数据,他们定义了约140万个高置信度的“共识峰”(consensus Peak, cPeak)。“共识峰”可以理解为:在大量不同细胞和组织中,都被认为是“可及”的、具有代表性的基因组区域。为了让这个“地图”更完善,研究团队还开发了基于人工智能(卷积神经网络,CNN)的深度学习模型,预测并额外增加了约28万个全新的cPeak,从而构建了一个前所未有的、包含近170万个“基因开关区域”的通用参考集。
经过严格评估,cPeak在不同组织器官和测序平台上都展现出极高的形状一致性和优异的真实数据覆盖率,这意味着它就像一张高度准确、普适性强的导航地图。同时,研究还发现cPeak与基因组中关键的基因调控元件紧密相关,证实了其重要的生物学意义。

▲文章发表在Nature Communications

cPeak:精准识破“伪装者”——罕见癌细胞的“侦探”
有了cPeak这个“通用基因开关地图”,scATAC-seq数据分析的准确性和效率都得到了显著提升。研究团队在多种不同数据集上进行了测试,结果表明,无论采用何种分析方法或特征数量,cPeak都能稳定地取得最优或接近最优的性能,这证明了它作为scATAC-seq数据分析通用特征集合的稳健性。
最令人振奋的是cPeak在识别**罕见细胞类型**方面的卓越能力。为什么罕见细胞如此重要?在癌症中,这些数量稀少的细胞可能具有非凡的意义,它们可能是:
- 肿瘤复发和转移的“种子”:即便大部分癌细胞被清除,少数具有强大生命力和转移能力的细胞也可能导致疾病复发。
- 药物耐药性的“源头”:某些罕见癌细胞可能天然就对特定药物具有抵抗力,并在治疗压力下存活下来,最终导致治疗失败。
- 癌症干细胞:一类具有自我更新和分化能力的细胞,被认为是肿瘤生长的驱动力。
传统的伪批量分析方法,由于细胞丰度较低,往往会过滤掉这些罕见细胞的特异性“基因开关”信号。而cPeak的构建融合了广泛的组织类型,不受单一数据集中细胞频率的限制,因此能够有效保留区分低丰度细胞群体的关键信息。这使得cPeak在鉴别罕见细胞类型时展现出极高的敏感度。
一个生动的例子是,在对人类外周血单核细胞(一种重要的免疫细胞)的数据分析中,cPeak成功且精准地鉴定出占比均不足1%的多种罕见细胞亚群。其中,针对一种名为浆细胞样树突状细胞(pDC)的深度挖掘中,cPeak不仅鉴定出了数量远超传统方法和其他特征集的差异可及性区域,更是精准捕获到了pDC细胞标志基因启动子区域(即基因的“开关”位置)极具特异性的染色质可及信号。这意味着cPeak能够以前所未有的精度,揭示这些罕见细胞独特的生物学特性,为理解其在疾病中的作用提供了宝贵线索。
对于癌症患者而言,这意味着未来医生可能能够更早、更准确地发现这些决定癌症命运的“少数派”癌细胞,从而采取更具针对性的治疗策略,或者开发出能够清除这些“顽固分子”的新型药物。

追踪“癌变轨迹”——cPeak揭示肿瘤演化的动态密码
cPeak的价值不仅在于提供了一个标准化的“基因开关地图”,更在于其内在的“形状”特征还能揭示基因调控的深层机制。研究团队依据“基因开关”区域边缘的长度与定位模式,巧妙地将cPeak划分为三种调控模式:**精确定位(well-positioned)**、**不对称定位(asymmetrically-positioned)**和**弱定位(weakly-positioned)**。其中,well-positioned cPeak的形成与一种叫做“先锋因子”的蛋白质以及两侧核小体的精确排列密切相关。你可以把“先锋因子”想象成基因组上的“侦察兵”,它们能率先找到并打开紧密的染色质区域,为其他调控蛋白的结合创造条件。
通过深入分析这三种模式,研究团队在细胞发育和肿瘤演化过程中发现了惊人的动态规律。在人类胎儿视网膜发育的数据分析中,他们发现well-positioned cPeak的比例在细胞谱系转换的关键时期显著上升,随后在发育后期逐渐回落。进一步的对比表明,胚胎细胞的well-positioned cPeak比例普遍高于成年细胞,这强有力地提示,这些精确定位的“基因开关”在早期细胞分化和器官形成过程中,可能发挥着至关重要的作用。
更重要的是,这项研究为我们追踪肿瘤的演化轨迹提供了全新的视角。在妇科恶性肿瘤(如子宫内膜癌和卵巢癌)的数据分析中,基于cPeak的特征,研究人员能够清晰地区分具有不同基因拷贝数变异(CNV)的肿瘤子克隆。这意味着cPeak可以帮助我们识别肿瘤内部的复杂“家族树”。
随着肿瘤的进展,well-positioned cPeak的比例也呈现出有趣的非单调变化:从早期到中期显著上升,而在晚期则略有下降。这一规律在独立的肝细胞癌数据集中也得到了验证,表明well-positioned cPeak的动态变化可能成为追踪肿瘤演化、预判疾病走向,甚至评估治疗效果的重要“信号”。这项技术有望为MedFind这样的平台,在协助患者理解最新药物信息和治疗方案上,提供更精准的科学依据。


开启精准医疗新篇章——cPeak的未来展望与患者获益
cPeak的问世,为scATAC-seq数据分析带来了革命性的变化。它提供了一个统一、稳定且具有明确生物学解释性的“基因开关”特征集合,不仅大大简化了分析流程,更重要的是,它最大程度地保留了单细胞数据的分辨率,使我们能够更细致地观察细胞世界的奥秘。这项研究结果告诉我们,尽管不同细胞类型在表型上千差万别,但在潜在的染色质可及性层面,它们可能共享一套基础的特征结构。
正如转录组学研究依赖于标准化的基因注释体系,cPeak有望为表观组学(研究基因功能可逆的、不改变DNA序列的遗传机制)研究建立一个统一的“特征字典”。这将是推动多组学数据整合、甚至催生“表观组学大模型”的重要基石,为未来更全面的生命科学研究奠定基础。
对于广大癌症患者和家属来说,这项看似高深的生物信息学研究,却蕴含着深远的希望:
- 更精准的癌症早期诊断:未来,通过分析少数可能具有癌变潜力的细胞,我们或许能更早地发现疾病的苗头。
- 发现新的治疗靶点:cPeak帮助我们识别那些对癌细胞生长、扩散至关重要的“基因开关”,从而开发出更有效、副作用更小的靶向药物。
- 个性化治疗方案的制定:通过分析患者肿瘤内部不同癌细胞的“基因开关地图”,医生可以更精确地选择最适合的药物组合,减少试错,提高疗效。
- 监测肿瘤复发和耐药性的新工具:通过动态监测“基因开关”的变化,我们有望更早地预警肿瘤复发或对治疗产生耐药性,及时调整治疗策略。
医学的进步永无止境,每一次基础研究的突破,都可能成为未来挽救生命的希望。清华大学团队的这项工作,正是这样一颗闪亮的星,照亮了我们深入理解癌症、迈向精准医疗的道路。我们相信,随着像cPeak这样的先进技术不断发展,人类终将战胜癌症,让生命绽放更多光彩。
参考文献
- Meng, Q., Wu, X., Chen, W. et al. A generic reference defined by consensus peaks for single-cell ATAC-seq data analysis. Nat Commun (2026). https://doi.org/10.1038/s41467-026-69461-6
教程及全套工具代码已开源至GitHub:https://github.com/MengQiuchen/cPeaks
