二代数据质控
fastqc
该软件只做评估,不会进行过滤。
项目地址:https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
安装
conda install -c conda-forge -c bioconda fastqc
一般默认参数运行即可
fastqc --outdir ./qc_out --threads 8 in_R1.fastq.gz in_R2.fastq.gz
会生成网页版的报告。
fastp
原始测序数据下机后,可能会包含低质量、接头等,该软件可以对测序数据进行过滤。
项目地址:https://github.com/OpenGene/fastp
安装
conda install -c conda-forge -c bioconda fastp
一般默认参数运行即可
fastp \
--thread 8 \ # 线程数
-i in_R1.fastq.gz \ # 输入数据fq1
-I in_R2.fastq.gz \ # 输入数据fq2
-o filter_R1.fastq.gz \ # 输出数据fq1
-O filter_R2.fastq.gz \ # 输出数据fq2
-j fastp.json \ # json格式日志
-h fastp.html \ # 网页版日志
1>fastp.log \
2>fastp.err
除了过滤后的数据,还会生成网页版和json版的报告,包括过滤前后的数据量等。
三代测序数据质控
LongQC
项目地址:https://github.com/yfukasawa/LongQC
安装
conda install -c conda-forge -c bioconda longqc
运行
longQC.py \
sampleqc \
-p8 \ # 线程
-o qc_hifi \ # 输出目录
-x pb-hifi \ # 数据类型
hifi.fastq.gz # 输入数据
会输出json和html格式的评估报告。包含质量值、测序覆盖度、GC含量信息。
chopper
对三代测序数据进行过滤。
通过--contam提供参考序列,可以对污染reads进行过滤。
项目地址:https://github.com/wdecoster/chopper
安装
conda install -c conda-forge -c bioconda chopper
运行
gzip -dc ont.fastq.gz | \
chopper -q10 \ # 要求的平均质量值
-l1000 \ # 长度阈值
--headcrop 20 \ # trim 开 头
--tailcrop 20 \ # trim 结 尾
| gzip > ont.filter.fastq.gz
multiqc
可以对100+种生信软件的日志进行汇总。