A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始


解压序列文件
gzip -d *.gz
重命名fq文件为fastq
rename 's/fq/fastq/' *.fq
rename 's/1\.fq/\_R1\.fastq/'  *.fq
rename 's/2\.fq/\_R2\.fastq/' *.fq


拼接序列
usearch -fastq_mergepairs *R1*.fastq -relabel @ -fastq_maxdiffs 10 \
  -fastq_pctid 80 -fastqout merged.fq
删除引物和barcode序列
usearch -fastx_truncate merged.fq -stripleft 26 -stripright 27 -fastqout stripped.fq
下载RDP训练集
https://www.mothur.org/wiki/RDP_reference_files#Version_14
训练集小写转成大写
cat trainset16_022016.pds.fasta | tr a-z A-Z >trainset16.fasta
将互补连同一方向到同一条链(ITS序列用UNITE99作为参考序列)
usearch -orient stripped.fq -db trainset16.fasta -fastqout orient.fq
质量控制并删除质量信息(设定maximum expected error为1)
usearch -fastq_filter orient.fq -fastq_maxee 1.0 -fastaout filtered.fa
查看序列长度分度
usearch -fastq_eestats2 stripped.fq -output eestats2.txt -length_cutoffs 100,300,10
mothur > summary.seqs(fasta=filtered.fa,processors=88)

序列修剪到相同长度(配对ITS不需要修剪)
usearch -fastx_truncate filtered.fa -trunclen 250 -fastaout reads250.fa
mothur > screen.seqs(fasta=current,start=95%value,end=5%value, maxhomop=10)


序列去冗余
usearch -fastx_uniques filtered.good.fa -minuniquesize 4 -fastaout uniques.fasta -sizeout -relabel Uniq # mothur 修剪
usearch -fastx_uniques reads250.fa -minuniquesize 4 -fastaout uniques.fasta -sizeout -relabel Uniq
删除数量少的序列
usearch -sortbysize uniques.fasta -fastaout uniques.fasta -minsize 4
聚成OTU
usearch -cluster_otus uniques.fasta -otus otus.fa -relabel Otu
生成OTU表(输入文件要用未去冗余的序列)
usearch -otutab filtered.good.fa -otus otus.fa -otutabout otutab.txt -mapout map.txt #mothur
usearch -otutab reads250.fa -otus otus.fa -otutabout otutab.txt -mapout map.txt
OTU序列和参考序列比对
usearch -usearch_global otus.fa -db sh_refs_qiime_ver7_99_10.10.2017.fasta -id 0.9 -strand both \
  -alnout otu.aln -uc otu.uc
标出丢失的OTU序列
cut -f1 otutab.txt | grep -v "^#" > table_labels.txt
grep "^>" otus.fa | sed "-es/>//" > seq_labels.txt
sort seq_labels.txt table_labels.txt table_labels.txt | uniq -u > missing_labels.txt
usearch -fastx_getseqs otus.fa -labels missing_labels.txt -fastaout missing.fa
标出未丢失的OTU序列
sort missing_labels.txt missing_labels.txt seq_labels.txt | uniq -u > notmissing_labels.txt
usearch -fastx_getseqs otus.fa -labels notmissing_labels.txt -fastaout notmissing.fa
把未丢失的OTU序列和丢失的OTU序列比对
usearch -usearch_global missing.fa -db -notmissing.fa -strand both -id 0.97 \
  -uc missnot.uc -alnout missnot.aln
多样性指数
OTU的树文件
计算距离矩阵
usearch -calc_distmx otus.fa -tabbedout mx.txt -maxdist 0.2 -termdist 0.3
利用距离矩阵生成tree文件
usearch -cluster_aggd mx.txt -treeout clusters.tree -clusterout clusters.txt \
  -id 0.80 -linkage min
注释信息
usearch -sintax reads.fastq -db uchime_reference_dataset_untrimmed_28.06.2017.fasta  -tabbedout reads.sintax -strand both -sintax_cutoff 0.8
vsearch --usearch_global otus.fa --db uchime_reference_dataset_untrimmed_28.06.2017.fasta --biomout out_tax.txt --id 0.97
计算α多样性指数
usearch -alpha_div otutab.txt -output alpha.txt

---------------------
【转载】
作者:知远识
原文:https://blog.csdn.net/weixin_42480153/article/details/84072493


4 个回复

倒序浏览
回复 使用道具 举报
回复 使用道具 举报
回复 使用道具 举报
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马