发表期刊:国家科学评论
影响因子:8.843
文章题目蒲公英的基因组分析提供了新的见解
橡胶生物合成
摘 要
俄罗斯蒲公英属的一员
复合材料系列和天然橡胶的潜在替代来源
菊粉是研究橡胶生物合成的理想模型系统。我们到了
展示第一株合成天然橡胶的杂草植物TKS的基因组草图。
TKS基因组组装草案的长度为1.29 Gb,包含46,731个
预测的蛋白质编码基因和68.56%的重复序列,其中
元素主要有助于基因组的扩大。我们分析了
杂合子区域/基因,表明其可能与近亲繁殖有关
抑郁症。通过橡胶生产和非橡胶生产的对比研究
生产橡胶的植物,我们发现了甲羟戊酸(MVA)途径的酶
橡胶伸长可能对橡胶生物合成至关重要
已经分离出主要在胶乳中表达的关键同种型,
表明它们在橡胶生物合成中的关键作用。此外,对两个人来说
橡胶伸长率的重要系列,欧洲防止酷刑委员会/CPTL和参考文献/SRPP系列,
已经揭示了不同的进化轨迹。这些结果提供了有价值的
天然橡胶生物合成机制的资源和新见解
促进替代天然橡胶生产作物的发展。
图1 橡胶草的不同生长阶段和不同组织部位
研究背景
橡胶草也叫俄罗斯蒲公英,它富含天然橡胶和菊粉,是研究橡胶合成的理想模型。在2015年全球消费天然橡胶超过1214万吨,价值约170亿美元,但是现在帕拉橡胶树(橡胶树
巴西)几乎是天然橡胶的唯一来源,但由于种植面积有限、遗传背景狭窄、疾病严重、工作辛苦,产量进一步增加严重受损。因此,对于天然橡胶的生产和研究,探索一个替代的来源和一个模型研究物种是至关重要的。
橡胶草起源于中国和哈萨克斯坦的天山地区,能够广泛生长在高纬度地区。橡胶草的根可以产生大量的天然橡胶(可达干重的20%),而且比橡胶树的分子重量更大。橡胶草的根部也含有大量的菊粉,可用于生物乙醇的生产。广泛种植面积、高含量、高质量的橡胶、易种植和采收、短时间能够成
熟等优势,使橡胶草成为天然橡胶的优良替代资源。测序材料
橡胶草(Taraxacum kok-saghyz ),2n=2X=16;
测序方法
Illumina 58X 49.76Gb;PacBio RSⅡ 48X 60.48Gb;
研究内容
1.基因组组装和注释
橡胶草基因组通过19-mer分析,基因组的大小为1.04Gb,是小于流式细胞仪预估的基因组大小,流式细胞仪预估基因组的大小为1.18Gb。共测得123.31Gb的mate-
pair文库,长度是从5Kb到13Kb。最终组装出的基因组序列大小为1.29Gb,包含19227个scaffolds,N50长度为100.21Kb。含有31965个contigs,N50的大小为47.63Kb。通过基因预测得到46731个蛋白编码基因,注释出162
rRNAs, 836 tRNAs, 265 miRNAs, 22 SRPRNAs, 167 snRNAs, 594 snoRNAs, and 214
other ncRNAs 。
2.LTR-RT元素导致橡胶草基因组的扩张
橡胶草基因组鉴定出875.81Mb(组装基因的68.56%)为重复序列,是略低于橡胶树(71.2%)的重复序列的。在转座因子(TE)中,长末端重复(LTRs)被发现在TKS中占主导地位。组装基因组的40.73%(~
520 Mb)为LTR,其中Copia(~ 260.5 Mb,20.39%)和Gypsy-type(~ 252.9 Mb,19.79%)是最丰富的两个亚族。
比较了4个菊科物种,橡胶草、朝鲜蓟、加拿大蓬和向日葵,1个唇形科物种丹参,还有其他6种植物。结果发现橡胶草包含6154个LTR-RTs,是所有物种里最高的。
图2 橡胶草和近缘种的韦恩图分析
3.基因组进化
橡胶草与其他10种植物进行比较基因组学分析,共同鉴定了16169个基因家族在橡胶草中。其中有1907个特有的基因家族,其中10021个家族与朝鲜蓟和向日葵共有的。通过组织特异表达模式鉴定出340个特有的基因家族与丰富聚半乳糖醛酸酶、胁迫反应、细胞氧化还原反应平衡有关系。
应用64个单拷贝直系同源基因利用最大似然法。构建了橡胶草和另外10个物种的系统发育进化树(见下图)。
图3 系统进化及基因家族的收缩和扩张
4\. 橡胶草中橡胶和菊粉的生物合成途径
为了研究橡胶草的橡胶生物合成途径,我们对橡胶生物合成基因进行了同源分析。在基因组中共有102个候选基因被鉴定与橡胶的生物合成有关系。在MVA通路的6个过程中包含40个基因,在MEP通路中的7个过程23个基因,另外19个是与起始物合成相关的。此外,有20个基因被预测是与橡胶粒的橡胶伸长有关系。
通过与产橡胶的橡胶树和不产橡胶的朝鲜蓟进行比较,发现在3个物种中的每个步骤都有至少一种酶存在,在MEP途径和橡胶起始物合成上酶的数量是相似的,但是不同的是在MVA途径橡胶伸长方面。
图4 橡胶草生物合成的代谢通路研究
此外,我们确定了8个TkCPT和2个TkCPTL基因与橡胶粒子“橡胶伸长”有关在组装的橡胶草基因组中。REF /
SRPP家族蛋白质是橡胶颗粒生物起源和稳定性的重要组成部分。该文章也对CPT/CPTL 和REF/SRPP两个基因家族进行进一步分析。
小编总结
该基因组利用了2代和3代测序技术完成基因组组装,但该基因组大小只有1Gb左右,即使有着70%的重复序列,但近50X的三代数据,Contig N50
不但没上Mb,甚至没有达到100Kb,组装结果还是有很大提升空间的。此外,在构建Scaffold的时,没有选择光学图谱,也没用Hi-
C技术连到染色体。选择了二代大片段文库,最大的只有13Kb,甚至低于三代的平均读长。所以构建出的Scaffold提升不大。但是这很可能是先用了二代组装结果发现不好,又加测了三代数据。
但是该文章能够把握橡胶草的特性,对橡胶代谢合成通路的深度研究挖掘,以及对相关功能的基因家族的深入分析,很值得我们基因组研究工作者的学习,这也是该文能够发到National
Science Review高水平杂志的原因。
参考文献
Tao Lin , Xia Xu , Jue Ruan, et al. Genome analysis of Taraxacum kok-saghyz
Rodin provides new insights into rubber biosynthesis[J].National Science
Review,2017.