一台观察人类DNA的AI“显微镜”:谷歌AlphaGenome问世

AI快讯 2025-06-26
智东西 6 月 25 日报道,谷歌 DeepMind 于今日推出了一款名为 AlphaGenome 的 AI 模型,它就像一台神奇的 “观察人类 DNA 的 AI 显微镜”,能够帮助人们快速预测基因变化带来的影响。


AlphaGenome 可以将长达 100 万个碱基对的长 DNA 序列作为输入,进而预测数千种表征其调控活性的分子特性。并且,它还能通过比较突变序列与未突变序列的预测结果,来评估遗传变异或突变产生的影响。


预测的属性包含基因在不同细胞类型和组织中的起始与终止位置、基因剪接的具体位置、产生的 RNA 数量,以及哪些 DNA 碱基可接近、彼此靠近或与某些蛋白质结合等。其训练数据源自大型公共联盟,像 ENCODE、GTEx、4D Nucleome 和 FANTOM5,这些联盟通过实验测量获得了涵盖数百种人类和小鼠细胞类型及组织中基因调控重要模式的数据。


AlphaGenome 架构先利用卷积层初步检测基因组序列中的短模式,接着通过转换器在序列的所有位置传递信息,最后借助一系列层将检测到的模式转化为不同模态的预测。在训练过程中,计算分布在单个序列的多个互连张量处理单元(TPU)上。


该模型以谷歌之前的基因组学模型 Enformer 为基础,与专门对蛋白质编码区内变异的影响进行分类的 AlphaMissense 相互补充。蛋白质编码区仅覆盖基因组的 2%,其余 98% 的非编码区对调控基因活动至关重要,还包含许多与疾病相关的变异,而 AlphaGenome 为解读这些广泛的序列及其内部的变异提供了全新视角 。


当下,谷歌通过 AlphaGenome API 提供 AlphaGenome 预览版,供非商业研究使用,并且计划在未来正式发布该模型。纪念斯隆・凯特琳癌症中心的博士 Caleb Lareau 评价道:“这是该领域的一个里程碑。我们首次拥有一个能够统一远程上下文、基础精度和各种基因组任务的尖端性能的单一模型。”

1. 高分辨率的长序列上下文,综合多模态预测

与现有的 DNA 序列模型相比,AlphaGenome 具备多个独特优势:


  • 高分辨率的长序列上下文:谷歌的这款模型能够分析多达一百万个 DNA 碱基,并以单个碱基的分辨率进行预测。长序列上下文对于覆盖远处调控基因的区域非常关键,而碱基分辨率则有助于捕捉精细的生物学细节。以往的模型在序列长度和分辨率之间难以平衡,限制了联合建模和准确预测的模态范围。但谷歌的技术突破解决了这一难题,而且训练单个 AlphaGenome 模型(未进行数据蒸馏)仅耗时 4 小时,所需计算预算仅为训练原始 Enformer 模型的一半。
  • 综合多模态预测:AlphaGenome 解锁了长输入序列的高分辨率预测能力,能够预测更多样化的模态,为科学家提供了有关基因调控复杂步骤更全面的信息。
  • 高效变异评分:除了预测各类分子特性,AlphaGenome 能在一秒钟内高效评估基因变异对所有这些特性的影响。它通过对比突变序列和未突变序列的预测结果,并针对不同模式采用不同方法高效总结这种对比来实现。
  • 新颖的剪接连接模型:许多罕见遗传疾病,比如脊髓性肌萎缩症和某些形式的囊性纤维化,都可能由 RNA 剪接错误引发。RNA 剪接是指 RNA 分子部分被移除再重新连接的过程。AlphaGenome 首次实现直接从序列中明确模拟这些连接的位置和表达水平,有助于深入了解遗传变异对 RNA 剪接的影响。

2. 超 20 项基准测试中表现最佳

AlphaGenome 在广泛的基因组预测基准测试中展现出最先进的性能,比如预测 DNA 分子哪些部分会靠近、遗传变异是否会增减基因表达,或者是否会改变基因的剪接模式等。


在对单个 DNA 序列进行预测时,AlphaGenome 在 24 项评估中,有 22 项的表现优于市面上已有的最佳模型。在预测变异的调控效应时,它在 26 项评估中,有 24 项的表现与最佳外部模型相当甚至超越了最佳外部模型。本次比较涵盖了针对特定任务的模型,而 AlphaGenome 是唯一能够联合预测所有评估模态的模型,充分彰显了其通用性。

3. 统一模型,更快地生成和测试假设

AlphaGenome 的通用性让科学家通过单个 API 调用,就能同时探索一个变异对多种模式的影响。这意味着科学家可以更快速地生成和测试假设,无需使用多个模型分别研究不同模式。


此外,AlphaGenome 的出色表现说明它已经在基因调控的背景下学习到了相对通用的 DNA 序列表征,为更广泛的研究社区奠定了坚实基础。一旦该模型全面发布,科学家们就能在自己的数据集上对其进行调整和微调,以更好地解决各自独特的研究问题。


这种方法还为未来提供了一个灵活且可扩展的架构。通过扩展训练数据,AlphaGenome 的功能有望得到拓展,进而获得更好的性能,覆盖更多物种,或包含更多模态,使模型更加全面。

4. 助力疾病理解、基础研究等

AlphaGenome 的预测能力能在多个研究领域发挥作用:


  • 疾病理解:通过更精准地预测基因突变,AlphaGenome 可以帮助研究人员更准确地查明疾病的潜在病因,更好地解释与某些性状相关的变异的功能影响,从而可能发现新的治疗靶点。该模型尤其适用于研究可能产生巨大影响的罕见变异,例如导致罕见孟德尔遗传病的变异。
  • 合成生物学:其预测结果可用于指导具有特定调节功能的合成 DNA 的设计,比如仅激活神经细胞中的基因,而不激活肌肉细胞中的基因。
  • 基础研究:它可以协助绘制基因组的关键功能元素并明确其作用,识别调节特定细胞类型功能的最重要 DNA 指令,加速我们对基因组的理解。


例如,谷歌利用 AlphaGenome 研究了一种癌症相关突变的潜在机制。在一项针对 T 细胞急性淋巴细胞白血病(T-ALL)患者的现有研究中,研究人员观察到基因组特定位置的突变。借助 AlphaGenome,他们预测这些突变会通过引入 MYB DNA 结合基序来激活附近的 TAL1 基因,这不仅验证了已知的疾病机制,还凸显了 AlphaGenome 将特定非编码变异与疾病基因关联起来的能力。


伦敦大学学院 Marc Mansour 教授表示:“AlphaGenome 将成为该领域的一个强大工具。确定不同非编码变异之间的相关性可能极具挑战性,尤其是在大规模研究的情况下。该工具将提供关键的线索,帮助我们更好地理解癌症等疾病。”

5. 结语:AI 基因预测重要一步

AlphaGenome 标志着 AI 基因预测向前迈出了重要一步,但它也存在一定的局限性。和其他基于序列的模型一样,准确捕捉极远距离调控元件(如那些相距超过 10 万 DNA 碱基的调控元件)的影响仍是一个尚未攻克的难题。


同时,谷歌尚未设计或验证 AlphaGenome 用于个人基因组预测。虽然 AlphaGenome 可以预测分子结果,但它并不能全面展示基因变异如何导致复杂的性状或疾病。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

相关文章