• 中文
    • English
  • 注册
  • 查看作者
    • 突破人类参考基因组的未知数

      2001年人类基因组草案的发布是一个里程碑式的成就12科学家们首次可以逐个碱基地研究每个人类染色体的长链。这样,研究人员便可以开始理解各个基因的排序方式,以及周围的非蛋白质编码DNA的结构和组织方式。尽管取得了令人惊奇的进步,但基因组草图仍然不完整,缺少1.5亿个碱基3在随后几年的技术进步已经使研究人员能够添加到草案,终于没有实现染色体的完整测序45 结果在2020年。人类基因组的新的和未表征的部分开始浮出水面,迎来了生物学探索的又一个激动人心的时期。

       

      基因组草案中到底包括了什么?原始草案包含许多以前未开发的基因间区域。它还涵盖了绝大多数基因。国际人类基因组测序联合会1最初估计该基因组包含30,000–40,000个蛋白质编码基因,尽管2004年更新的基因组6的发布以及改进的基因预测方法7导致该数字被修订为约20,000个。 。2004年的基因组提供了来自常染色质的28.5亿个核苷酸的高分辨率图,常染色质是DNA松散包装的区域,该区域富含基因,约占人类基因组的92%。

      参考基因组使科学界进入了基因组探索的时代,将重点从单一基因转移到更完整的全基因组研究。但是,在23对人类染色体中的每条染色体上仍存在缺口,据估计其中包含超过150兆碱基的未知序列3(图1)。最大的缺口是在富集高度重复的DNA或序列的位置,而这些序列或序列具有许多几乎相同的副本。这些部分原本很难克隆,测序和正确组装。结果,人类基因组计划故意低估了这些重复序列。尽管研究人员对这些区域的序列性质有非常基本的了解,但是该区域的高分辨率基因组组织仍然难以捉摸。

      突破人类参考基因组的未知数图1 填写人类基因组中缺失的序列。,2001年草案人类基因组12覆盖最丰富的基因DNA,其松散地封装在细胞核中的。但是,在紧密包装的区域中仍然存在许多缺口,这些区域富含重复的DNA序列,这些序列通常不被转录(为了便于解释,此处夸大了缺口的整体范围)。b由于测序和生物信息学的进步,研究人员现在可以研究所有这些缺失的序列。这些包括覆盖染色体的端粒和亚端粒区域。对细胞分裂至关重要的着丝粒结构;特别是短而高度重复的染色体臂,称为acrocentric臂。现在也可以分析在一个位置或以分段方式复制DNA的区域。

      早期的缩小缺口的尝试使用了长序列读取来跨越重复序列,但是这种读取最初很容易出错。在2010年代,由于读取更长序列的能力的提高(例如,参考文献8和9概述)以及可扩展的生物信息学工具的开发,出现了新的机遇。几十到几百个千碱基的序列读数允许研究许多中等大小的缺口的基因组组织。这提供了对某些亚端粒区域9的见解-邻近染色体末端端粒结构的富含重复序列的DNA。它也使第一个着丝粒卫星阵列10的研究成为可能。,其中短序列串联重复约300千个碱基。节段性重复的子集(顺序的伸展其碱基的份额90-100%,并在多个位置被发现)也解决了,许多含有基因先前从所述参照基因组缺失911但是,许多最大的,数百万碱基大小的重复序列丰富的区域仍然很难处理。

      在过去的几年中,超长读取9和高度准确的长读取数据12的组合已证明是改变这些区域1314的游戏规则,这首次揭示了极长的串联重复序列和富含片段重复的区域。通过打破这些技术壁垒,科学家现在发现了可覆盖数百万个碱基并构成染色体整个短臂的广泛的重复序列丰富的区域。

       

       

      研究人员尚未完全理解为什么人类基因组的某些部分以这种方式组织。但是获得这样的理解无疑将是有价值的,因为这些重复序列丰富的序列通常位于对生命至关重要的位点。例如,核糖体DNA(rDNA)的长片段重复编码细胞的蛋白质合成机制的RNA成分,并在核组织15中发挥重要作用称为着丝粒的结构的重复DNA对于细胞分裂过程16中正确的染色体分离至关重要

      就基因组的组织和进化而言,这些大量的重复性DNA具有不同的规则集。他们也受到不同表观遗传调控(分子修饰DNA和相关蛋白不改变底层的DNA序列),这导致重复DNA从常染色质在其组织,复制定时和转录活性方面不同17 – 19许多全基因组工具和数据集仍无法从极其重复的DNA区域中完全捕获所有这些信息,因此科学家尚未完全了解哪些转录因子与其结合,这些区域在细胞核中的空间组织方式或在发育过程中和疾病状态下,我们基因组这些部分的调控如何变化。现在,就像几十年前基因组的首次发布一样,研究人员面临着人类基因组中一个新的,尚未开发的功能领域。获得这些信息将推动技术和创新纳入这些重复区域,从而再次拓宽了我们对基因组生物学的理解。

       

       

       

      在过去的一年里,科学家们极长的使用和高度精确的序列读取从端粒重建整个人类染色体端粒45去年还从有效的“单倍体”人类细胞系中释放了近乎完整的人类参考基因组,仅剩下五个标记rDNA阵列位点的缺口(go.nature.com/3rgz93y)。在这条线中,细胞具有两对相同的染色体,与典型的人类细胞(二倍体,具有从母体和父亲继承的不同染色体)相比,简化了重复装配的挑战。这些图谱共同提供了着丝粒区域,节段重复,亚端粒重复序列以及五个acrocentric染色体中每一个的高分辨率的一瞥,它们的末端非常短,几乎完全由高度重复的DNA组成。

      极有可能认为科学家们终于接近终点线了。然而,即使完整的基因组序列精度接近完美,单个基因组装配也不足以作为研究整个人群中存在的序列变异的参考。绘制图谱的常染色体部分的多样性的现有图谱必须扩展以完全捕获重复区域,其中个体之间的拷贝数和重复组织会有所不同。这样做将需要开发用于常规生产和完整人类二倍体基因组分析的策略。达到更完整,更全面的人类参考的理想目标无疑将增进我们对基因组结构及其在人类疾病中的作用的理解,并与人类基因组计划的承诺和遗产保持一致。

       

       

    • 4
    • 0
    • 0
    • 9.7k
    • 沐涵月亮女神达人会华东总监howceo

      请登录之后再进行评论

      登录
    • 做任务
    • 实时动态
    • 偏好设置
    • 单栏布局 侧栏位置: