细菌基因组测序常见问题及结果解读FAQ

2017-07-14 14:01:13植物微生物组

原文主要参考自诺禾致源公众号，作者杨萍，本人对文章内容修改，并添加自己的理解。

单菌基因组测序常见问题

碱基测序的质量值Q是准确度(P)的一种格式转换，是为了方便使用一个字符表示非常复杂的准确度，占用最小空间；转换公式为P=1-10^(-Q/10)，如Q=30/20/10的准确度分别为99.9%，99%，90%。

它们是基因组组装中常用的组装指标，要知道是越大越好。大于N50长度的序列占基因组总长的50%，大于N90长度的序列占基因组总长的90%。

具体计算方法：将所有拼接序列按照长度从大到小排列，找到TopNr 序列总长度刚好大于基因组总长度的50%（90%）位置，则该序列的长度定义为N50（N90）；该数值反映了基因组50%（90%）以上的区域，都能被该数值以上长度的序列覆盖，同时体现了组装质量对于后续数据分析的质量贡献。

不同物种会有非常多的同源序列，高度相似序列会对组装软件产生干扰，而软件为保证组装的准确性，只能将可疑的部分切断成不同的碎片序列

不同质粒拷贝数和被测到的深度不同

真菌全基因组数据库太少，连ITS注释都很少，这几年正在快速发展

在次级代谢产物基因簇注释分析中，分两步进行分析：

首先，我们先对是否存在PKS（聚酮合酶）和NRPS（非核糖体肽合成酶）进行预测；
其次，根据目前软件训练集中的基因簇的结构进行预测，如果训练集中的基因簇中有匹配的结构就会被预测出来，否则就会无法预测到；
简而言之，如果无法预测到PKS（聚酮合酶）和NRPS（非核糖体肽合成酶）结构，可能是由于样本本身就不存在这两种酶，或者是这两种酶的结构与训练集中的结构不匹配。
根据文献中的经验，常预测出的代谢物基因簇，按出现频率分别为： nrps,
nonribosomal peptide synthetase; t1pks, type I PKS; t3pks, type III PKS; t2pks, type II PKS; hserlactone, homoserine lactone; transatpks, trans-AT PKS (Hadjithomas2015, Fig.2:)

http://mp.weixin.qq.com/s/jMa9Hb6HaYfR71WOLgjr5w
Hadjithomas, M., et al. (2017). “IMG-ABC: new features for bacterial secondary metabolism analysis and targeted biosynthetic gene cluster discovery in thousands of microbial genomes.” Nucleic Acids Res 45(D1): D560-D565.
Hadjithomas, M., et al. (2015). “IMG-ABC: A Knowledge Base To Fuel Discovery of Biosynthetic Gene Clusters and Novel Secondary Metabolites.” MBio 6(4): e00932.