Nature:利用lentiMPRA技术解锁基因表达的秘密

时间:2025-01-18 12:10:58   热度:37.1℃   作者:网络

引言

在基因组研究领域,研究人员一直在努力揭示控制基因表达的复杂机制。这些机制的核心部分是转录调控元件(cis-regulatory elements, cCREs),它们如同基因表达的“开关”,决定了基因在何时、何地以及如何表达。然而,尽管研究人员已经发现了成千上万的潜在调控元件,许多关于它们功能和作用的谜团仍然未解。特别是,如何准确预测这些元件在不同细胞类型中的活动,以及它们如何影响基因的表达,仍然是一个巨大的挑战

为了填补这一知识空白,1月15日Nature的研究报道“Massively parallel characterization of transcriptional regulatory elements”,研究人员开发了创新的技术手段——大规模并行报告基因组活动测序(lentiMPRA)。这种技术可以同时测试成千上万的调控元件,并在细胞内观察它们的活性,从而为我们提供关于这些元件功能的前所未有的见解。通过lentiMPRA,研究人员能够以极高的精度评估这些元件在不同细胞类型中的表现,揭示其与基因表达之间的关系,甚至预测基因变异可能对细胞功能的影响。

该研究的一个重要发现是,启动子和增强子这两类调控元件在不同细胞类型中的表现差异。启动子通常具有更强的定向偏好,能够作为基因表达的开关,而增强子则表现出更多的细胞类型特异性,调控着基因的活跃程度。研究人员进一步运用了机器学习模型,如MPRALegNet,来预测这些调控元件的活性,并且成功地揭示了调控元素如何通过不同的转录因子组合共同作用,调节基因表达。

这种基于大规模数据的研究不仅为我们提供了一个更加清晰的基因调控图谱,还为理解基因变异与疾病之间的关系提供了新的思路。通过深入挖掘基因组中的调控信息,未来我们有望实现更加精准的基因编辑和疾病预测,为个性化医学的发展奠定基础。

图片

基因表达的“开关”:转录调控元件的奥秘

基因的表达不仅仅依赖于基因本身的序列信息,还受到转录调控元件(regulatory elements, REs)的强大调控。转录调控元件就像是基因表达的“开关”,它们位于基因组的特定位置,通过与特定转录因子的结合,控制基因在何时、何地以及如何被激活。虽然这些调控元件在基因组中的分布极为广泛,已有的研究却只是揭示了它们的部分功能,许多细节仍然扑朔迷离。特别是如何理解这些“开关”在不同细胞类型中的行为,仍然是一个难题。

该研究中,研究人员通过一种名为lentiMPRA的创新技术,对超过200,000个转录调控元件的功能进行大规模的并行检测,揭示了这些基因调控“开关”在不同细胞类型中的表现差异。研究显示,在HepG2(肝细胞)、K562(白血病细胞)和WTC11(诱导性多能干细胞)等三种细胞类型中,这些调控元件的活性差异显著。这种细胞特异性的调控元件活性是基因表达多样性和细胞功能差异的基础。

从“黑箱”到明镜:lentiMPRA技术的突破

传统的技术,如自转录活跃调控区测序(STARR-seq),虽然在某些方面取得了突破,但仍然存在显著的局限性。特别是,这些技术通常只能在少数几种细胞类型中进行实验,且常常依赖外源性载体(如质粒),导致其结果可能并不完全反映基因组内真实的调控活性。此外,许多细胞类型难以高效转染,限制了这些技术的广泛应用。

为了解决这些问题,研究人员开发了创新的lentiMPRA(lentivirus-based Massively Parallel Reporter Assay)技术。与传统的技术不同,lentiMPRA利用慢病毒载体将成千上万的潜在转录调控元件直接插入细胞基因组内。这种“内源性”的插入方式不仅避免了质粒载体的局限,还能够保证调控元件在细胞内的活动更加接近自然状态。通过这种方法,研究人员能够在大规模并行的实验中精确地检测这些元件的活性。

lentiMPRA的创新之处在于,它能够在不同细胞类型中同时测试大量的转录调控元件,而无需依赖外源性转染或过度复杂的实验设置。具体来说,研究人员在实验中利用独特的条形码技术,每个调控元件都带有一个特定的条形码标签,这使得研究人员能够在高通量测序中追踪到每个调控元件的RNA和DNA表达水平,从而计算出其活性得分。通过这种方式,lentiMPRA技术为研究人员提供了前所未有的能力,不仅能够在细胞内精确检测成千上万的调控元件活性,还能系统地揭示这些元件如何在不同的细胞环境中发挥作用。

图片

lentiMPRA技术在三种细胞类型中的应用(Credit: Nature

lentiMPRA策略(图a):lentiMPRA技术的策略是将数千个候选转录调控元件(cCREs),包括潜在增强子(通过DNase敏感区标记)和启动子(以转录起始位点(TSS)为中心),插入到一个报告质粒中,并使用条形码标记这些元件。通过慢病毒载体将这些质粒导入细胞中,然后通过高通量测序分析整合的DNA和转录的RNA条形码,从而定量评估cCRE的活性。这种方法能够在大规模的实验中同时评估不同调控元件在细胞中的功能。

HepG2、K562和WTC11库的组成(图b): 展示了三个细胞系(HepG2、K562和WTC11)使用的lentiMPRA库的组成。每个库中包含了成千上万的潜在增强子和启动子、负控制组和正控制组。不同方向的条形码被用来标记实验元件,并且每种元件的类型和数量在图中有所标注。通过这种方式,研究人员可以比较不同细胞类型中调控元件的活性。

元件活性的比较(图c): 展示了不同调控元件的活性分布,活性是通过log2转化的RNA/DNA比值来衡量的。通过小提琴图,研究人员比较了启动子、增强子以及随机重排组(shuffled category)的活性分布。统计分析显示,启动子和增强子相较于随机重排组具有显著不同的活性分布(P < 10−8)。这种活性差异表明,启动子和增强子在细胞中扮演着重要的调控角色,而lentiMPRA技术则能够精确地量化这些元件的活性。

启动子与增强子的对比:基因调控的双重角色

启动子和增强子作为两类关键的转录调控元件,各自承担着不同的角色,且在不同细胞类型中展现出各自独特的作用。启动子是基因表达的“开关”,位于基因的转录起始点附近,它们的主要任务是启动基因的转录过程。启动子通常具有较强的定向性,一旦激活,就会启动下游基因的转录。而增强子则更像是基因表达的“调节器”,通过与启动子互相作用,增强基因的表达水平。增强子常常位于基因的远离转录起始点的区域,它们并不直接决定基因的转录起始,而是通过与启动子的协同作用,提升特定基因的表达强度。

通过lentiMPRA技术,研究人员发现启动子和增强子在不同细胞类型中的表现差异显著。在HepG2、K562和WTC11等细胞中,启动子表现出较为一致的高活性,其“开关”功能不受细胞类型的显著影响。特别是在细胞内的转录启动子区域,研究表明这些区域的200碱基核心序列能够非常精准地控制基因的表达,且其转录活动与细胞的基本功能密切相关。这也解释了为何启动子能够作为基因表达的核心调控“开关”,在不同细胞中发挥着类似的作用。

相比之下,增强子则在细胞类型之间展现出更强的特异性。研究发现,某些增强子在K562细胞中展现出显著的调控活性,而在其他细胞类型中却表现较弱。这表明增强子的活性不仅与其与启动子的相互作用密切相关,还受到细胞类型特异性因素的调控。因此,增强子不仅仅是一个增强信号的元素,它们还是细胞类型特异性基因调控的关键因素,决定了细胞如何在特定环境下激活或抑制基因表达。

细胞类型如何决定基因调控:多细胞研究的发现

在该研究中,研究人员选择了三种代表性细胞类型:HepG2(肝细胞系)、K562(白血病细胞系)和WTC11(诱导性多能干细胞系),以探索转录调控元件在不同细胞类型中的活性差异。这三种细胞类型不仅在生物学功能上存在差异,而且在基因调控的方式和机制上也呈现出各自的特点。通过lentiMPRA,研究人员能够系统地比较这些细胞中的调控元件活性,揭示了细胞类型如何影响基因表达的精细调控。

在HepG2细胞中,研究发现大量的启动子和增强子具有较高的活性,且这些活性在不同的重复实验中保持一致。这表明,HepG2细胞作为肝细胞系,其基因表达调控较为稳定,调控元件的活性较少受到细胞外部因素的干扰。而在K562细胞中,调控元件的表现则展示了更为复杂的特性,尤其是增强子在调控基因表达中的作用更加突出。K562细胞作为白血病细胞,其转录调控元件的活性在细胞的增殖和分化过程中发生了显著变化,这种变化可能与细胞类型特异性功能的需求密切相关。

WTC11细胞作为诱导性多能干细胞,展现了与HepG2和K562细胞不同的基因调控模式。与其他细胞类型相比,WTC11细胞的调控元件在不同实验中的活性波动较大,尤其是在增强子活性方面,表现出了更为显著的细胞类型特异性。这表明,作为多能干细胞,WTC11细胞的基因调控网络可能处于一个更加灵活和动态的状态,能够根据外部环境或内在条件的变化来调整基因表达。

这些差异揭示了细胞特异性在基因调控中的重要性。不同细胞类型对调控元件的响应差异,反映了细胞在维持自身特定功能和适应环境变化时对基因表达的精确控制。研究表明,虽然调控元件本身具有一定的普遍性,但它们在不同细胞类型中的作用和活性,决定了基因在不同组织和生理状态下的差异性表达。

机器学习的力量:MPRALegNet如何预测调控元件的活性

在基因调控研究中,解读大量调控元件的活性和功能一直是一项极具挑战性的任务。随着技术的进步,传统的实验方法已经无法满足对大规模基因组数据进行高效分析的需求。幸运的是,机器学习技术,特别是深度学习模型,如MPRALegNet,正在为基因调控数据的解析提供强有力的支持。这些模型通过对基因调控元件的深入学习,能够识别出影响调控元件活性的重要特征,极大地提高了研究的效率和准确性。

MPRALegNet是一个基于卷积神经网络(CNN)的深度学习模型,专门用于从基因组序列中预测转录调控元件的活性。在该研究中,研究人员使用MPRALegNet模型分析了超过200,000个调控元件的数据,发现其在不同细胞类型中的表现和调控机制。这种深度学习模型通过提取DNA序列中的关键生物学信息,能够预测哪些调控元件会在特定细胞类型中表现出较高的活性。例如,MPRALegNet不仅能识别出调控元件的活性水平,还能揭示其可能与哪些转录因子结合,从而影响基因的表达。

通过对比传统的生物化学模型,MPRALegNet显示出了更高的准确性和预测能力。在多轮交叉验证中,MPRALegNet在预测调控元件活性时的Pearson相关系数达到了0.83,远超传统方法。其强大的学习能力使得它能够识别出在调控元件中发挥重要作用的转录因子结合位点,这些位点通常是基因调控的关键元件。例如,模型成功识别了与启动子和增强子结合的转录因子家庭,如KLF家族、ETS家族等,这些因子在不同细胞类型中的活动具有显著差异。

MPRALegNet的优势不仅体现在对调控元件活性的准确预测上,还在于其能够系统地发现新的转录因子结合位点,推动了我们对基因调控网络的理解。这些发现为进一步探索基因调控的复杂机制提供了新的工具,尤其是在疾病研究和个性化医疗中,深度学习模型的应用展现了巨大的潜力。

变异如何影响基因调控:从疾病研究到个性化医学

基因变异不仅直接改变了编码蛋白的基因序列,还可能通过影响转录调控元件的功能,进而改变基因的表达水平,从而引发一系列疾病。这类变异通常发生在非编码区域,尤其是调控元件,如增强子和启动子,这些区域在基因表达的调控中扮演着至关重要的角色。尽管大多数基因变异位于这些非编码区域,但它们的影响可能比编码区变异更为广泛和深远。GWAS揭示,许多与常见疾病相关的遗传变异实际上位于调控元件中,而这些变异通过改变调控元件的活性,进而影响目标基因的表达。

在该研究中,lentiMPRA技术为研究这些基因变异的具体机制提供了新的途径。通过使用lentiMPRA,研究人员能够高效地在细胞内测试调控元件的功能,并观察基因变异对这些元件活性的影响。这种技术能够精确评估每个调控元件在基因组中的活性,同时为每个元件提供具体的条形码标签,使得研究人员可以追踪和分析不同基因变异对元件功能的影响。例如,位于RBM38基因内的变异,通过干扰其调控元件的功能,显著影响基因的表达,从而可能导致相关疾病的发生。

机器学习模型,如MPRALegNet,也在这方面发挥了重要作用。通过对大量基因调控数据的学习,MPRALegNet能够预测基因变异如何影响调控元件的功能,并且帮助研究人员识别潜在的致病变异。这些模型通过深入分析DNA序列的变化,揭示了哪些变异可能会引起基因表达的异常变化,进一步影响细胞的功能或导致疾病的发生。通过这种方式,lentiMPRA和机器学习的结合为个性化医学的发展提供了重要的工具,能够帮助预测和诊断特定基因变异对个体健康的具体影响,为未来的精准医疗提供了数据支持。

基因调控研究正处于快速发展的前沿,随着技术的不断进步,研究人员已经能够以前所未有的方式探索基因组的功能。然而,该研究依然面临着许多挑战和未知的领域。未来,随着对调控元件功能的深入理解,我们将能够更加全面地解码基因组,揭示基因表达如何在不同的生物学背景下得到精确调控。

参考文献

Agarwal, V., Inoue, F., Schubach, M. et al. Massively parallel characterization of transcriptional regulatory elements. Nature (2025). https://doi.org/10.1038/s41586-024-08430-9

上一篇: 频频梦中“拳打脚踢”,伴胡言乱语,这位4...

下一篇: Int Forum Allergy Rh...


 本站广告