基因编辑

从基因编辑到蛋白质结构解析,再到量子计算,以下七项技术或在科学界产生重大影响。

端粒到端粒(T2T)合作组正在对所有染色体进行测序 | Adrian T. Sumner/SPL

1 完整版基因组

2019年,加州大学圣克鲁兹分校的基因组学研究员Karen Miga和美国国家人类基因组研究所的Adam Phillippy成立了端粒到端粒(T2T)合作组,当时约有1/10的人类基因组仍然未知。如今,这个数字已经降到了零。在去年5月发布的一篇预印本论文中,T2T合作组公布了首个人类基因组的端到端序列,为大量使用的人类参考基因组序列GRCh38新增了近2亿个碱基对,并为人类基因组计划(Human Genome Project)补全了最后一章[1]。

首次于2013年公布的GRCh38是一个很重要的研究工具,也是绘制测序序列的框架,但这个框架上还开着很多“天窗”。这主要是因为广泛使用的测序技术(由加州Illumina公司开发)虽然读长很准确,但太短,无法清晰绘制出高度重复的基因组序列,包括染色体末端的端粒以及在细胞分裂中协调新复制DNA分裂的着丝粒。

长读长测序技术被证明能改变之前的测序规则。这一技术由美国太平洋生物科学公司(Pacific Biosciences)和英国牛津纳米孔技术公司(ONT)联合开发,可以一次性读取数万乃至数十万个碱基并进行排序,虽然在刚开始时并不绝对准确。

然而,当2020年T2T合作组首次重组了单独的X染色体和8号染色体时[2,3],Pacific Biosciences公司的测序技术已经可以让T2T的科学家检测到长片段重复序列中的微小突变。这些微小“指纹”让长段重复的染色体片段变得更易处理,基因组的其余部分也能迅速归位。ONT公司的平台还发现了许多调节基因表达的DNA修饰,而T2T合作组也能在全基因组范围内绘制这些“表观遗传标记”[4]。

T2T合作组解析的这个基因组来自一个包含两组相同染色体的细胞系。正常的二倍体人类基因组中,每个染色体都有两个版本,研究人员正在研究“基因分型”(phasing)策略,这种策略可以将每个序列准确分配给对应的染色体拷贝。Miga说:“我们已经获得了一些非常出色的分型组装。”

这项二倍体组装工作是与T2T的合作组织——人类泛基因组参考合作组(Human Pangenome Reference Consortium)——共同完成的,该合作组希望基于来自世界各地的数百个捐赠,绘制出更具代表性的基因组图谱。

合作组的首席研究员、纽约洛克菲勒大学遗传学家Erich Jarvis说:“我们的目标是了解平均97%的人类等位基因多样性。”作为脊椎动物基因组项目(Vertebrate Genomes Project)的主席,Jarvis还希望通过这些完整基因组的组装能力,获得地球上每一种脊椎动物的完整基因序列。他说:“我相信在未来10年内,端粒到端粒的基因组组装将是一种常态。”

2 蛋白质结构解析

结构决定功能,但鉴定结构却很难。在过去的两年里,实验与计算方面的进步提供了更多的趁手工具,让研究人员能以空前的速度和分辨率解析蛋白质的结构。

AlphaFold2结构预测算法由位于伦敦的谷歌子公司DeepMind开发,它能依靠“深度学习”策略,从折叠蛋白质的氨基酸序列推断其形状[5]。在2020年的蛋白质结构预测大赛CASP上,计算生物学家同台竞技,比拼各自的蛋白质结构预测算法,但最终AlphaFold2所向披靡,知名度和普及率也一路飙升

欧洲生物信息研究所高级科学家、前所长Janet Thornton说:“AlphaFold2对某些结构的预测可以说好得出奇。”自去年7月对外公开以来,AlphaFold2已被应用于蛋白质组学研究,以确定人类[6]和20种模式生物表达的所有蛋白质的结构(见Nature 595, 635; 2021;颠覆生命科学!AlphaFold预测完整人类蛋白质组结构),并用来鉴定Swiss-Prot数据库中近44万种蛋白质的结构,大大增加了拥有高置信度建模数据的蛋白质数量。AlphaFold2的算法也证实了它具有解析多链蛋白质复合物的能力[7]。

与此同时,冷冻电镜(cryo-EM)的升级换代也使研究人员能用实验方法来对付那些最棘手的蛋白质及其复合物。冷冻电镜利用电子束扫描快速冻结的分子,从多个角度生成蛋白质的图像,再通过计算将这些图像重新组装成一个3D结构。2020年,冷冻电镜的软硬件得到升级后,两个团队获得了1.5埃以下的结构分辨率,确定了单个原子的位置[8,9]。

纽约结构生物学中心西蒙斯电镜中心联合主任Bridget Carragher说:“在那之前,虽然我们动不动就说什么‘原子分辨率’,但那都只能算是接近原子水平,而这才是真正的原子水平。”Carragher说,尽管两个团队使用的都是脱铁铁蛋白这种经过充分研究的模式蛋白,但他们的研究表明,对于其他更难的目标,达到近原子分辨率也是可行的。图片

来自冷冻电镜的图像能帮助解析复杂的结构 | Paul Emsley/MRC分子生物学实验室

许多最初对AlphaFold2将信将疑的实验学家,现在也把它看作是对冷冻电镜这类实验方法的有效补充。AlphaFold2的计算模型可以帮助数据分析和重建,而冷冻电镜则能发现目前还无法用计算机预测的结构。比如Carragher团队就在使用“时间分辨”(time-resolved)冷冻电镜捕捉蛋白质与其他分子相互作用时的快速构象变化。她说:“我们可以让变化定格,看到100毫秒的时间里究竟发生了什么。

另一种相关技术名为冷冻电子断层扫描(cryo-ET),这种方法可以捕捉到冷冻细胞薄切片中自然发生的蛋白质行为。但是,这些纷繁复杂的图像解读起来非常难。Carragher认为,机器学习领域在计算能力上的进展将是不可或缺的。她问道:“不然还能如何解决这些几乎无法解决的问题呢?”

3 量子模拟

原子肯定都是原子尺寸的。但在正确的条件下,原子能处于高度激发态,直径变为1微米或更大。通过对数百个原子精心排列的阵列进行可控激发,物理学家证明了他们可以解决很有挑战的物理学问题,进而超越传统计算机的极限。

量子计算机以量子比特为单位处理数据。量子比特通过名为纠缠(entanglement)的量子力学现象耦合在一起,进而在一定距离内相互影响。相对于经典计算机中相同数量的比特,这些量子比特可以显著提高算力。

多个团队已经成功利用单个离子作为量子比特,但它们所带的电荷使之难以进行高密度组装。法国国家科学研究中心(CNRS)的Antoine Browaeys和哈佛大学的Mikhail Lukin等物理学家正在研究另一种方法。他们的团队使用光学镊子将不带电原子精确固定在紧密排列的2D和3D阵列中,然后用激光将这些粒子激发成大直径的里德堡原子(Rydberg atom),使其与附近原子纠缠[10,11]。韩国科学技术院的物理学家Jaewook Ahn解释道,“里德堡原子系统是独立可控的,它们的相互作用可以打开和关闭。”这反过来又赋予了其可编程性。

这种方法在短短几年里就大放异彩,技术进步让里德堡原子阵列的稳定性和性能双双得到提升,量子比特的数量也从几十个迅速扩展到几百个。虽然该技术的早期应用主要集中在已经提出的问题上,如材料性能的预测,但它的用途非常广泛。Browaeys说:“目前为止,理论学家提出的任何理论模型都有其实现方法。”

该领域的先锋人士已经成立了公司,目前正在开发供实验室使用的里德堡原子阵列系统,Browaeys预计这种量子模拟器将在一两年内投入商用。这项工作也为量子计算机的广泛应用铺平了道路,包括在经济学、物流和加密领域的应用。研究人员还无法确定这项创新技术在计算领域中的地位,但Ahn将其比作莱特兄弟在航空领域的早期摸索。他说:“第一架飞机毫无交通优势可言,却改变了整个世界。”

4 精确基因组调控

尽管CRISPR-Cas9技术拥有惊人的基因组编辑能力,但它更适用于让基因失活而非基因修复。这是因为Cas9酶靶向基因组序列虽然还算精准,但细胞对随后双链切割的修复却并不精准。CRISPR-Cas9修复通常由一种称为非同源末端连接(non-homologous end-joining)的过程介导,经常会混入小片段插入或缺失的问题。

哈佛大学化学生物学家刘如谦(David Liu)指出,大多数遗传疾病需要的是基因修正而非基因破坏。刘如谦和他的团队已经为此开发了两种很有前景的方法。这两种方法都利用了CRISPR精准的靶向能力,同时限制了Cas9在该位点切割DNA的能力。

第一种方法叫做碱基编辑(base editing),能将催化受损的Cas9与一种酶结合,这种酶能将一种核苷酸转化为另一种——例如将胞嘧啶转化为胸腺嘧啶,或是将腺嘌呤转化为鸟嘌呤(参见Nature https://doi.org/hc2t; 2016;CRISPR技术又上一层楼!现在可以编辑DNA单个碱基了)。不过,目前只有特定的碱基-碱基转换可以使用这种方法实现。

第二种方法是引导编辑(prime editing),也是该团队最新的研究成果,能将Cas9与逆转录酶联系起来,并使用一种经过修改的向导RNA,这种向导RNA可以将所需的编辑内容整合到基因组序列中(见Nature 574, 464–465; 2019;基因编辑研究又下一城:更精准的CRISPR工具面世)。经过一个多阶段的生化过程,这些成分将向导RNA复制到最终取代目标基因组序列的DNA中。

重点是,碱基编辑和引导编辑都只剪切一条DNA链,这对细胞来说是一个更安全、破坏性更小的过程

2016年首次报道的碱基编辑正在走向临床应用:刘如谦在美国坎布里奇市创立的Beam Therapeutics公司在11月获得了美国食品药品监督管理局(FDA)的批准,允许其在人体内首次试验该技术,用于修复导致镰状细胞病的基因

虽然引导编辑的出现时间还不久,但它一直在升级换代,发展前景也很明朗。首尔延世大学医学院的基因组编辑专家Hyongbum Henry Kim和他的团队证明,使用引导编辑修正小鼠的视网膜基因突变,可以达到16%的有效率[12]。他说:“如果我们使用最新报道的更先进的版本,效率还会得到更大的提升。”刘如谦团队还发现,引导编辑可以帮助将基因尺寸大小的DNA序列插入基因组,有望成为一种更安全、更严格可控的基因疗法[13]。刘如谦说:“虽然这个方法的有效率不算高,但即使是很少的修复,也可以大有裨益。在某些情况下,如果你能以10%甚至1%的有效率替换一个基因,这种病就有救了。”

5 靶向基因疗法

基于核酸的药物可以在临床上产生重大影响,但它们可应用的组织仍有诸多限制。大多数药物要么只能局部给药,要么需要从患者体内提取细胞进行体外处理后,再移植回去。但有一个例外——肝脏。肝脏可以过滤血液,经证实是选择性药物递送的可靠靶点。这种情况下,静脉注射甚至是皮下注射都可以使用。

麻省理工学院化学工程师Daniel Anderson说:“当你认真思考这个问题时,单单是把药物递送到任何组织这件事就够难的。我们的身体天生就善于使用已有的遗传信息,不喜欢接受外来者。”不过,研究人员正在开发一些策略,可以引导药物进入特定器官系统,而不影响其他非靶点组织,这些工作正取得稳步进展。

腺相关病毒是许多基因疗法的首选载体,动物研究也表明,仔细挑选合适的病毒再加上组织特异性基因启动子,就能实现局限于特定器官的高效药物递送[14]。然而,病毒有时难以大规模生产,还会调动免疫应答,破坏疗效或产生不良反应。

脂质纳米粒是一种非病毒载体,过去几年发表的多项研究展示出对其特异性进行调控的潜力。例如,美国德克萨斯大学西南医学中心生物化学家Daniel Siegwart等人开发的选择性器官靶向(SORT)方法能帮助快速合成和筛选脂质纳米粒,找出能有效靶向组织(如肺或脾脏)细胞的纳米粒[15]。

荷兰埃因霍温理工大学生物医学工程师Roy van der Meel说:“这是最早的其中一篇论文,它表明如果对这些脂质纳米粒进行系统筛选,并改变它们的组成,就能扰乱其生物分布。”Anderson说,许多团队也在研究如何利用蛋白质成分(如细胞特异性抗体)协助这一靶向过程。

Anderson对Beam Therapeutics和Intellia等公司在靶向骨髓中血液和免疫细胞前体上取得的临床前进展尤为兴奋,这两家公司都在使用经过特殊设计的脂质纳米粒。他说,如果能成功靶向这些组织,患者就能摆脱当前体外基因疗法带来的痛苦,包括在移植前用化疗杀死现存的骨髓细胞。Anderson说:“把这些任务放到体内完成或将彻底改变治疗的概念。”

6 空间多组学

单细胞组学的迅猛发展意味着如今研究人员可以很容易地从单个细胞中获得遗传学、转录组学、表观遗传学和蛋白质组学方面的认知,甚至可以同步获得这些认知(见go.nature.com/3nnhooo)。但是,单细胞技术将这些细胞从它们的原始环境中剥离出来,这可能会遗漏关键的信息

2016年,瑞典皇家理工学院研究员Joakim Lundeberg领导的团队设计了一种策略来解决上述问题。该团队用条形码寡核苷酸(barcoded oligonucleotide)——RNA或DNA短链——制备载玻片,这些条形码寡核苷酸可以从完整的组织切片中捕获信使RNA,这样每个转录本就能根据其条形码对应到样本中的特定位置。Lundeberg说:“之前没有人相信我们真的能从一个组织切片进行全转录组的分析,但结果证明这非常简单。”

自此,空间转录组学领域迎来了大爆发。目前已有多种商用系统问世,包括10x Genomics公司使用Lundeberg的技术开发的Visium Spatial Gene Expression平台。许多学术研究团队也在研发新的方法,用更好的深度和空间分辨率来绘制基因表达图谱。图片

CRISPR-Ca9基因编辑复合物使用一个向导RNA(红色)切割DNA(蓝色)。来源:Mulekuul/SPL

现在,研究人员正在他们的空间图谱上叠加组学数据。例如,耶鲁大学生物医学工程师Rong Fan就开发了一个名为DBiT-seq16的平台,该平台采用微流控系统,可以同时为数千个mRNA转录本和以标记寡核苷酸抗体作为标签的数百个蛋白质生成条形码。

与只使用转录组数据相比,这对细胞基因表达如何影响蛋白质生成和活性的问题能够给出更准确的评估,而且Fan的团队一直在用它研究免疫细胞激活等过程。他说:“我们看到了皮肤免疫细胞如何应对Moderna新冠疫苗的早期迹象。”一些商用系统也可以在获得转录组数据的同时从多种蛋白质获取空间数据,包括这里的Visium平台和Nanostring的GeoMx系统。

同时,Lundeberg的团队也改进了他们的空间转录组学方法,以同时捕获DNA序列数据。这使得他的团队能够开始绘制肿瘤发生背后的时空事件。他说:“我们可以追踪这些基因的空间变化,看看它们如何演化出额外的基因变异,最终导致肿瘤。”

Fan的团队已经演示了如何对组织样本中染色质修饰进行空间定位,这可以揭示影响发育、分化和细胞间通讯等过程的细胞基因调控[17]。Fan相信这种方法可以与RNA甚至蛋白质的空间分析相结合。他说:“我们的数据初步显示,这是可以做到的。”

7 基于CRISPR的诊断

CRISPR-Cas系统精确切割特定核酸序列的能力,源于它作为细菌“免疫系统”对抗病毒感染的作用。这一联系激发了最早使用这项技术的研究人员去思考其对病毒诊断的适用性。麻省理工学院-哈佛大学博德研究所的遗传学家Pardis Sabeti说:“发挥它们与生俱来的功能很正确,毕竟它们已经演化了几十亿年。”

但并不是所有的Cas酶都是一模一样的。Cas9是CRISPR基因组操作的首选酶,但基于CRISPR诊断的大部分研究使用的都是Cas13这种靶向RNA分子家族,该家族由博德研究所的分子生物学家张锋及其团队在2016年首次发现。

加州大学伯克利分校的Jennifer Doudna解释道,“Cas13利用其RNA向导通过碱基配对来识别RNA靶点,并激活核糖核酸酶活性,这种活性可通过报告RNA作为诊断工具加以利用。”Doudna与目前供职于马克斯·普朗克病原体科学研究所的Emmanuelle Charpentier因开发CRISPR-Cas9的基因组编辑能力而共同荣膺2020年诺贝尔化学奖。这是因为Cas13不仅会切割向导RNA靶向的RNA,它还会对附近的所有其他RNA分子进行“旁系切割”(collateral cleavage)。许多基于Cas13的诊断使用一个报告RNA,将荧光标记拴在抑制荧光的淬灭分子上。

当Cas13在识别病毒RNA后被激活时,它会切断报告基因并从淬灭基团释放荧光标记,产生可检测的信号。有些病毒会释放很强的信号,可以在不扩增的情况下检测到,大大简化了即时诊断(point-of-care diagnostics)。例如,去年1月,Doudna和旧金山Glastone病毒学研究所的Melanie Ott演示了一种基于鼻拭子的CRISPR-Cas13快速检测方法,可使用手机摄像头对新冠病毒(SARS-CoV-2)进行无扩增检测[18]。

RNA扩增可以提高对微量病毒序列的灵敏度,Sabeti和她的同事已经开发了一种微流控系统,利用从仅仅几微升样本中扩增出的遗传物质,就可以同时筛查多种病原体[19]。她说:“目前,我们有一种同时检测21种病毒的方法,每个样本的成本还不到10美元。”她还表示,他们已经开发出了基于CRISPR检测的工具,可以同时检测169种以上的人类病毒。”

Doudna表示,其他Cas酶有望继续扩充这个诊断工具箱,包括Cas12蛋白,这种蛋白拥有与Cas13相似的特性,但其目标是DNA而非RNA。这些酶可以让检测病原体的范围更广,甚至可以快速诊断其他非传染性疾病。Doudna说:“如果你能提高速度,那将非常有用,特别是考虑到现在不同的癌症亚型已经开始按照特定类型的突变进行分类。”

Published
返回首页