植物的基因序列

小编:优质农业网   人气:0℃   发布时间:2025-02-20 19:29:13
字号:

植物基因组通常具有较高的重复序列,且很多为多倍体,因此组装植物基因组具有一定的挑战性。双子叶模式植物拟南芥、单子叶模式植物水稻基因组序列分别在2000年、2005年公布,它们都是基于BAC克隆及sanger法测序的方法获得的,至今在植物基因组序列中其质量依然是最好的。

植物的基因序列

二代测序技术的出现及发展,极大地加快了植物基因组的研究进程,已经有超过200种植物获得了基因组序列,但是由于二代测序读长短,大部分的基因组组装结果都不高,含有数千个scaffolds;虽然基因区相对完整,但是富含转座元件的区域都装得比较碎,且明显低估了这些区域的比例,仅有少部分组装到了染色体水平。

近年来,随着三代PacBio、Oxford Nanopore测序技术的发展,可以获得较长的DNA片段,采用一定的组装软件,较为容易获得高质量的组装结果,尤其是在提高序列的完整性及重复序列组装方面有了很大的改善。不过到目前为止,依然只有少数植物基因组组装的完整性较好,contig N50>5Mb的只有6个;另外即使是基于长读长reads得到较长的contigN50(>1Mb),要想获得染色体水平的序列依然是不太容易的。

下面,小编通过Nature Plant一篇文献“Chromosome-scale assemblies of plant genomes using nanopore long reads and optical maps”了解下如何通过采用三代测序加上optical maps、Illumina二代数据及遗传图谱的策略获得染色体级别的植物基因组序列吧。

组装结果

文章研究了三个物种,分别为双子叶芸薹属的B. rapa(yellow sarson,Z1),B.oleracea(broccoli, HDEM)及单子叶芭蕉属的Musa schizocarpa(banana),这3个物种B.rapa Chiifu、B. oleracea To1000、Musa acuminate Pahang-HD曾采用short-reads策略获得了基因组序列,不过序列多为片段化(contig N50<50kb)。

TGACv1版本的基因。

一个转录单位相当于一个基因或模拟分子上的一个基因座。转录单元以一种精确的命名规则储存在数据库中,合适名字如:x.tyyyyy 。其中,x指的是BAC或模拟分子的收录编号,yyyyy是转录单位的特异标识符。

在编号系统中提供了足够的空间用于物理间隔,在序列上允许已经在物理间隔上填满的新基因的插入。为了促进基因的新位点标识符在以前两种表示方式中的整合,我们已经开发了一个版本转换器,允许使用者容易地找到以前的基因和模块所对应的新位点标识符,这些以前的基因和模块是根据合适名字被标志的 。

版权声明:本站文章来源互联网,如有侵犯您的权益,请及时联系我们处理;

原文链接:https://baike.tt44.com/zz/2_830270.html