ensembl-vep/VEP 注释软件安装及测试 超简单版(conda vep、百度网盘数据库)
ensembl-vep/VEP 注释软件安装及测试 超简单版(conda vep、百度网盘数据库)
VEP是一款强大的注释、分析软件,在我们的变异检测中经常使用其进行SNP、INDEL、CNV和SV的注释,同时借助数据库的内容,对变异结果进行过滤。
如此一款强大和功能齐全的软件,其参数必然会非常之多,对于初次接触的人来说,过多的参数非常影响对此软件的理解和使用,甚至耗费大量时间来安装软件。
笔者也面对了此问题,耗费大量时间在软件调研和安装步骤中,为了方便后来者的快速使用,特此将安装使用心得分享给大家~~~~
一、conda 安装VEP
官网: Ensembl Vep :: Anaconda.org
1、感谢conda的强大,我们可以直接使用conda来安装vep软件,省去了多余的配置问题,但是由于vep涉及到的软件版本和依赖较多,因此建议新建一个虚拟环境来安装VEP,如下:
conda create -n vep
conda activate vep
2、conda 安装VEP 具体安装方式为:(任选其中一个可以跑通的安装方式即可)
To install this package with conda run one of the following:
conda install -c bioconda ensembl-vep==101.0
conda install -c bioconda/label/cf201901 ensembl-vep==101.0
请注意:笔者下载的是 vep=101.0版本,目的是为了与已有的数据库配套,数据库会在后面详解。
3、测试一下安装的VEP是否可以运行,尝试直接在窗口上输入 vep,发现可以跑通了:
(vep) [xxx@xxx]$ vep
Possible precedence issue with control flow operator at /pwd/envs/vep/lib/site_perl/5.26.2/Bio/DB/IndexedBase.pm line 805.
#----------------------------------#
# ENSEMBL VARIANT EFFECT PREDICTOR #
#----------------------------------#
Versions:
ensembl : 101.856c8e8
ensembl-funcgen : 101.b918a49
ensembl-io : 101.943b6c2
ensembl-variation : 101.819eef2
ensembl-vep : 101.0
Help: dev@ensembl.org , helpdesk@ensembl.org
Twitter: @ensembl
http://www.ensembl.org/info/docs/tools/vep/script/index.html
Usage:
./vep [--cache|--offline|--database] [arguments]
Basic options
=============
--help Display this message and quit
-i | --input_file Input file
-o | --output_file Output file
--force_overwrite Force overwriting of output file
--species [species] Species to use [default: "human"]
--everything Shortcut switch to turn on commonly used options. See web
documentation for details [default: off]
--fork [num_forks] Use forking to improve script runtime
For full option documentation see:
http://www.ensembl.org/info/docs/tools/vep/script/vep_options.html
二、VEP相应数据库下载配置
至此为止,VEP软件安装完成了,我们可以看到VEP的运行参数,但是还不能完全运行VEP软件进行数据分析,因为VEP的运行需要下载相应的database文件,包括:
cache(可以理解成其定义的一系列数据集合,vep可以直接从中调取使用数据),cache数据集版本需需要与VEP软件版本对应,笔者选择的是VEP=101.0 、cache=101.0
参考基因组,我们分析时使用的参考基因组即可
1、cache 数据集下载:
此数据集有多种下载方式:
1)运行VEP软件自带的 INSTALL.pl 进行下载,非常之慢,pass!
仍然顽强附上使用方式,若果运气好网速好,直接都配置完成:
####下载VEP的安装包,里面有相应的下载database的脚本、测试数据
git clone https://github.com/Ensembl/ensembl-vep
cd ensembl-vep
perl INSTALL.pl
2)自行从官网下载,使用wget即可下载:
需要下载cache数据集:
ftp://ftp.ensembl.org/pub/release-101/variation/indexed_vep_cache/homo_sapiens_vep_101_GRCh37.tar.gz
以及参考基因组数据(可以直接使用自己用于比对的基因组):
同样的非常之慢,但是仍然附上下载方式:
#####cache 数据库
ftp://ftp.ensembl.org/pub/release-101/variation/indexed_vep_cache/homo_sapiens_vep_101_GRCh37.tar.gz
tar xzf homo_sapiens_vep_101_GRCh37.tar.gz
#####参考基因组:
wget -c ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz
3)自制cache数据库,VEP貌似也提供了相应的脚本和说明,感兴趣的可以自己去看。
4)!!!重点来了,最快的获得数据集的方式:笔者提供了下载好的cache数据集,版本为homo_sapiens_vep_101_GRCh37.tar.gz
已经放置于百度云,感兴趣的自行下载,有需要的联系笔者要分享链接吧~~
三、VEP测试
在安装完成VEP、下载好cache文件后,即可进行vep真正的测试,测试方式如下:
####下载VEP的安装包,里面有相应的下载database的脚本、测试数据
git clone https://github.com/Ensembl/ensembl-vep
cd ensembl-vep/examples
vep -i homo_sapiens_GRCh37.vcf --fork 4 -o homo_sapiens_GRCh37.out.vcf --assembly GRCh37 --cache --cache_version 101 --dir /path/envs/vep/share/ensembl-vep-101.0-1 (我们下载的cache文件的路径) --offline --fasta /path/envs/vep/share/ensembl-vep-101.0-1/homo_sapiens/101_GRCh37/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz --force_overwrite
测试不报错,同时生成指定名称的文件:
homo_sapiens_GRCh37.out.vcf
至此安装及测试结束~
更多推荐
所有评论(0)