QIIME 2教程. 27参考数据库DataResources(2024.2)
数据资源 Data resourceshttps://docs.qiime2.org/2024.2/data-resources/q2-feature-classifie使用的分类学分类器Taxonomy classifiers for use with q2-feature-classifier严重警告: 可与q2-feature-classifier一起使用的预训练分类器目前存在安全风险。如果
数据资源 Data resources
https://docs.qiime2.org/2024.2/data-resources/
q2-feature-classifie使用的分类学分类器
Taxonomy classifiers for use with q2-feature-classifier
严重警告: 可与
q2-feature-classifier
一起使用的预训练分类器目前存在安全风险。如果使用预先训练的分类器(例如此处提供的分类器),您应该信任训练分类器的人和为您提供qza文件的人。这种安全风险将在未来版本的q2-feature-classifier
中解决。警告: 这些分类器使用scikit-learn 0.22.1进行训练,因此只能与scikit-learn 0.22.1一起使用。如果您使用的是QIIME的本地安装,则在使用这些分类器之前,应运行以下命令以确保使用正确版本的scikit-learn。如果您使用的是QIIME 2024.2虚拟机,则将安装scikit-learn 0.21.2并且您无需运行此命令。scqit-learn版本限制将在未来版本的
q2-feature-classifier
中放宽。
conda install --override-channels -c defaults scikit-learn=0.21.2
注意: 根据您的特定样品制备和测序参数,包括用于扩增的引物和序列读长的长度,分类器在训练时才能表现最佳。因此,一般来说,您应该遵循以下说明:用q2-feature-classifier训练特征分类器来训练您自己的分类学分类器(例如,来自下面的标记基因参考数据库)。
朴素贝叶斯分类器训练:
Silva 138按99%相似度聚类OTUs的 全长序列 (MD5:
b8609f23e9b17bd4a1321a8971303310
)Silva 138按99% OTUs聚类V4区515F/806R的序列 (MD5:
e05afad0fe87542704be96ff483824d4
)Greengenes2 2022.10 全长序列 (MD5:
98d34227fe67b34f62b464466cca4ffa
)Greengenes2 2022.10 来自 515F/806R 序列区域 (MD5:
43de361005ae6dcae61b078c0c835021
)
警告:Greengenes2 接替了 Greengenes 13_8。如果您仍然需要访问过时的 13_8 分类器,例如重现旧结果或与新分类器进行比较,您可以通过较旧的 QIIME 2 数据资源页面访问它们。
警告:此处提供的Silva分类器包括物种级分类法。虽然Silva的注释确实包括物种,但Silva没有管理物种级别的分类法,因此这些信息可能不可靠。在QIIME 2的未来版本中,我们将不再在Silva分类器中包含物种水平的信息。这在QIIME 2论坛上讨论过(见物种标签:警告emptor!)。
对于 Silva 138,如果您使用这些预训练分类器中的任何一个,请引用以下参考资料:
Michael S Robeson II, Devon R O’Rourke, Benjamin D Kaehler, Michal Ziemski, Matthew R Dillon, Jeffrey T Foster, Nicholas A Bokulich. RESCRIPt: Reproducible sequence taxonomy reference database management for the masses. bioRxiv 2020.10.05.326504; doi: https://doi.org/10.1101/2020.10.05.326504
Bokulich, N.A., Kaehler, B.D., Rideout, J.R. et al. Optimizing taxonomic classification of marker-gene amplicon sequences with QIIME 2’s q2-feature-classifier plugin. Microbiome 6, 90 (2018). https://doi.org/10.1186/s40168-018-0470-z
有关此参考数据库的最新引文信息,请访问 SILVA 网站
对于Greengenes2,请引用:
McDonald, D. et al. Greengenes2 enables a shared data universe for microbiome studies. bioRxiv (2022).https://doi.org/10.1101/2022.12.19.520774
如果将朴素贝叶斯分类器与Greengenes2一起使用,请引用:
Bokulich, N.A., Kaehler, B.D., Rideout, J.R. et al. Optimizing taxonomic classification of marker-gene amplicon sequences with QIIME 2’s q2-feature-classifier plugin. Microbiome 6, 90 (2018). https://doi.org/10.1186/s40168-018-0470-z
请注意,这些分类器是使用 scikit-learn 0.24.1 训练的,因此只能与 scikit-learn 0.24.1 一起使用。如果您发现与scikit-learn版本不匹配相关的错误,请确保您使用的是随QIIME 2版本一起发布的预训练分类器。
加权分类器
这些16S rRNA基因分类器经过了权重训练,考虑到并非所有物种都同样可能被观察到的事实。如果您的样本来自我们测试的14种栖息地类型中的任何一种,这些加权分类器应该为您提供卓越的分类精度。如果您的样本不是来自这些栖息地之一,他们可能仍然有帮助。如果您有时间,使用特定于您栖息地的重量进行训练应该会更有帮助。此处提供了一系列栖息地的权重。
Weighted Silva 138 99% OTUs full-length sequences(MD5:
48965bb0a9e63c411452a460d92cfc04
)Weighted Greengenes 13_8 99% OTUs full-length sequences(MD5:
2baf87fce174c5f6c22a4c4086b1f1fe
)Weighted Greengenes 13_8 99% OTUs from 515F/806R region of sequences(MD5:
8fb808c4af1c7526a2bdfaafa764e21f
)
除了上面列出的那些之外,如果您使用这些加权预训练分类器中的任何一个,请引用一下参考:
Kaehler, B.D., Bokulich, N.A., McDonald, D. et al. Species abundance information improves sequence taxonomy classification accuracy. Nature Communications 10, 4643 (2019). https://doi.org/10.1038/s41467-019-12669-6
注意:此处提到的Silva分类器包括物种级分类法。虽然Silva的注释确实包括物种,但Silva没有管理物种级别的分类法,因此这些信息可能不可靠。在QIIME2的未来版本中,我们将不再在Silva分类器中包含物种水平的信息。这在QIIME 2论坛上讨论过(见物种标签:警告emptor!)
标记基因参考数据库
Marker gene reference databases
这些标记基因参考数据库已经被格式化并适合QIIME 1和QIIME 2的使用。如果你正在用QIIME 2分析平台来使用这些数据库,你在使用前必须先将其导入为“对象”。
Greengenes (16S rRNA)数据库的各种版本及下载链接如下:
13_8 (most recent)
13_5
12_10
February 4th, 2011
在这二篇文献中你可以可以获得关于Greengenes更多的信息:DeSantis (2006)和McDonald (2012)。
Silva (16S/18S rRNA)数据库
关于SILVA数据库对于QIIME的兼容性以及商业和非商业用途授权的信息可以在这个网址中查询到:https://www.arb-silva.de/download/archive/qiime。
我们还在此处提供使用 RESCRIPt 处理的预先格式化的 SILVA 参考序列和分类文件。如果您使用这些文件,请参阅下面的许可信息。
Silva 138 SSURef NR99 full-length sequences (MD5:
de8886bb2c059b1e8752255d271f3010
)Silva 138 SSURef NR99 full-length taxonomy (MD5:
f12d5b78bf4b1519721fe52803581c3d
)Silva 138 SSURef NR99 515F/806R region sequences (MD5:
a914837bc3f8964b156a9653e2420d22
)Silva 138 SSURef NR99 515F/806R region taxonomy (MD5:
e2c40ae4c60cbf75e24312bb24652f2c
)
如果您使用这些预先格式化的文件中的任何一个,请引用以下参考资料:
Michael S Robeson II, Devon R O’Rourke, Benjamin D Kaehler, Michal Ziemski, Matthew R Dillon, Jeffrey T Foster, Nicholas A Bokulich. RESCRIPt: Reproducible sequence taxonomy reference database management for the masses. bioRxiv 2020.10.05.326504; doi: https://doi.org/10.1101/2020.10.05.326504
有关Silva的最新引文信息 SILVA website
注意:此处提供的Silva参考文件包括物种水平的分类法。虽然Silva的注释确实包括物种,但Silva没有管理物种级别的分类法,因此这些信息可能不可靠。在QIIME 2的未来版本中,我们将不再在Silva参考文件中包含物种水平的信息这在QIIME 2论坛上讨论过(见物种标签:警告emptor!)。
许可证信息:
上述预先格式化的 SILVA 参考序列和分类文件可在知识共享署名 4.0 许可 (CC-BY 4.0) 下获得。有关详细信息,请参阅SILVA 许可证。
上述文件是使用 RESCRIPt 插件 和 q138 特征分类器 从 SILVA 2 版本数据下载和处理的。下载序列,反向转录并过滤,以根据长度,是否存在模糊的核苷酸和/或均聚物来去除序列。分类法被解析为生成甚至 7 级等级分类标签,包括物种标签。序列和分类法使用RESCRIPt进行重复。使用q515特征分类器提取代表806S SSU rRNA基因16F/2R区域的序列和分类,然后使用RESCRIPt进行重复删除。
UNITE (fungal ITS)数据库
UNITE (fungal ITS)
所有关于该数据库的发行版本信息都可以在这个网址中查到:https://unite.ut.ee/repository.php。
如果要获得更多该数据库的信息请访问:https://unite.ut.ee。
微生物组生物信息学评估 Microbiome bioinformatics benchmarking
许多微生物组生物信息的校准比较研究是使用“模拟群落”进行的。模拟群落是一种人工制作的微生物群,这些微生物的种类和丰度是已知的,比如:Bokulich et al., (2013)和Caporaso et al.(2011)。公共模拟群落可以从这个链接下载mockrobiota,关于此模拟群落的信息在这篇文章中有详细介绍:Bokulich et al., (2016)。
公共微生物组数据 Public microbiome data
Qiita提供了进入许多公共微生物组数据的访问入口。如果你在寻找微生物组数据用于整合分析,那Qiita是一个很好的选择。
SEPP多序列比对参考数据库 reference databases
以下数据库旨在与q2-fragment-insertion
一起使用,并直接从SEPP-Refs
项目中构建。
Silva 128 SEPP参考数据库 (MD5:
7879792a6f42c5325531de9866f5c4de
)Greengenes 13_8 SEPP参考数据库 (MD5:
9ed215415b52c362e25cb0a8a46e1076
)
译者简介
刘永鑫,研究员,博士生导师。2014年博士毕业于中国科学院大学生物信息学专业,之后在中国科学院遗传与发育生物学研究所工作历任博士后、工程师、高级工程师,2022年10月加入中国农业科学院深圳农业基因组研究所担任课题组长。研究方向为宏基因组方法开发、功能挖掘和科学传播。参与QIIME 2项目,主导开发了易扩增子(EasyAmplicon)、易宏基因组(EasyMetagenome)、培养组(Culturome)分析流程、数据分析网站(EVenn、ImageGP) 和R包(amplicon、ggClusterNet)等,目标是全面打造宏基因组领域方法学基础设施,推动微生物组学发展。以(共同)第一或通讯作者在Nature Biotechnology、Nature Microbiology、iMeta等期刊发表论文30余篇。合作在Science、Cell Host & Microbe、Microbiome等期刊发表论文20余篇,累计发表论文50余篇,被引用17000+次。主编《微生物组实验手册》专著,由300多位同行参与,共同打造本领域长期更新的中文百科全书。创办宏基因组公众号,16万+同行关注,分享原创文章3千余篇,累计阅读量超4千万,打造本领域最具影响力的科学传播平台。发起《iMeta》期刊,联合全球千位专家共同打造宏基因组学、微生物组和生物信息学顶刊,解决我国本领域期刊出版卡脖子问题。课题组长期招聘博士后、客座研究生,有兴趣可加微信yongxinliu详谈。
杨海飞,青岛农业大学,生物信息学硕士在读,基因组所刘永鑫组客座硕士。负责本次版本的更新和测试。
Reference
https://docs.qiime2.org/2024.2
Evan Bolyen, Jai Ram Rideout, Matthew R. Dillon, Nicholas A. Bokulich, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight & J. Gregory Caporaso#. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019, 37(8): 852-857. https://doi.org/10.1038/s41587-019-0209-9
宏基因组推荐
本公众号现全面开放投稿,希望文章作者讲出自己的科研故事,分享论文的精华与亮点。投稿请联系小编(微信号:yongxinliu 或 meta-genomics)
猜你喜欢
iMeta高引文章 fastp 复杂热图 ggtree 绘图imageGP 网络iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature
一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索 Endnote
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
点击阅读原文
更多推荐
所有评论(0)