基因组共线性和结构重排检测SyRI (Synteny and Rearrangement Identifier) 仅从基因组层面上检测结构变异的软件,有效地预测基因组之间差异。安装
#如果环境的python不是3.5,就创建一个新的conda环境 #如果python也是3.5可以跳过创新环境和进入syri环境 conda create -n syri python=3.5 conda activate syri conda install cython numpy scipy pandas=0.23.4 biopython psutil matplotlib=3.0.0 conda install -c conda-forge python-igraph conda install -c bioconda pysam
git clone https://github.com/schneebergerlab/syri.git python3 setup.py install cd syri chmod +x syri/bin/syri syri/bin/chroder syri/bin/plotsr syripath=`pwd` 运行
#设置Syri的工作路径 PATH_TO_SYRI=$syripath/syri/bin/syri #设置poster的执行路径 PATH_TO_PLOTSR=$syripath/syri/bin/plotsr mkdir syriWokespace
Lc.Chr1.fasta Ly.Chr1.fasta
seqkit seq -rp ly.chr1.fasta > ly.chr1-rp.fasta ln -s Lc.Chr1.fasta refgenome ln -s ly.chr1-rp.fasta qrygenome
#-m会删除冗余比对,maxmatch 会识别所有比对 nucmer --maxmatch -c 100 -b 500 -l 50 qrygenome refgenome #筛选长度>100bp,匹配度>90% 的匹配情况 delta-filter -m -i 90 -l 100 out.delta > out.filtered.delta #展示可被SyRI识别的文本格式 show-coords -THrd out.filtered.delta > out.filtered.coords
python3 $PATH_TO_SYRI -c out.filtered.coords -d out.filtered.delta -r refgenome -q qrygenome
python3 $PATH_TO_PLOTSR syri.out refgenome qrygenome -H 4 -W 10
-H -W 分别对应高和宽。可以通过设置数值调整比例。 结果分析
syri.out #检测序列变异的文本信息 syri.vcf #检测序列vcf syri.summary #变异类型统计文件 syri.pdf #输出图
Chr1 99004 99004 T C Chr1 2430581 2430581 SNP1276 INV334 SNP - Chr1 99009 99009 T C Chr1 2430576 2430576 SNP1277 INV334 SNP - Chr1 99026 99026 T A Chr1 2430559 2430559 SNP1278 INV334 SNP - Chr1 99031 99035 CGATT C Chr1 2430554 2430554 DEL1279 INV334 DEL - 其中 INV-反转区域,SYN-共线区块
还是相对直观地看到一对同源染色体的情况,灰色区域为共线关系区域,黄色为翻转区域,绿色为易位区域,蓝色为发生重复的区域。 原理简述
最后事实上,准备SyRI运行的文件还是比较麻烦,毕竟我今天一直在雷区蹦迪。
|
|