内容

注意:可以找到最新版本的本教程在这里

1介绍

Systempiper.为下一代序列(NGS)应用程序,如RNA-Seq, ChIP-Seq, VAR-Seq和许多其他应用程序,提供了构建分析工作流的工具和自动报告生成(Girke 2014)。一个重要的特性是支持在单机或计算集群上运行命令行软件,比如NGS对齐器。这包括向集群的队列系统提交交互式作业或批处理。例如,Systempiper.可以与大多数命令行对齐器一起使用,例如BWA.(恒李2013;李浩和杜宾2009)TOPHAT2(Kim等人2013)Bowtie2(朗米德和萨尔茨伯格2012),以及基于r的NGS对准器Rsubread(廖,Smyth和Shi 2013)gsnap (gmapR)(Wu and Nacu 2010)。定义良好的样本注释基础设施有助于高效处理复杂样本集和实验设计,这提高了NGS领域许多典型分析工作流的重现性和用户友好性(Lawrence et al. 2013)

设计工作流程的中央概念Sytempiper.环境是使用样本管理容器Sysargs.。类构造这个S4对象类的实例systemArgs函数从两个简单的表格文件目标文件和一个帕纳文件。后者对于缺少命令行软件的工作流步骤是可选的。通常,一个Sysargs.实例存储所有样本级输入以及对应输出的路径,这些输出是由命令行或基于r的软件生成的样本级输出文件,例如读取预处理器(裁剪/过滤的FASTQ文件)、对齐器(SAM/BAM文件)、变体调用者(VCF/BCF文件)或峰值调用者(BED/WIG文件)。每个样本级别的输入/输出文件操作使用自己的Sysargs.实例。出口的出口Sysargs.通常为下一个定义样例输入Sysargs.实例。控件编写输出路径来建立这种连通性令人愤怒函数传递给新目标文件,该文件作为下一个目标文件的输入systemArgs调用。通过链接几个Sysargs.步骤结合在一起,可以使用任何命令行或基于r的软件组合构造包含许多样例级输入/输出文件操作的复杂工作流。

SystemPipeR_Workflow

跑步的预期方法Sytempiper.工作流是Via*。Rnw*。限制型心肌病文件,可以以交互式模式逐行执行,也可以使用来自R的单个命令或使用makefile.。通过这种方法,可以以完全自动化的方式生成PDF或HTML格式的全面和可重复的分析报告。设置自定义项目报告的模板如下所示*。Rnw文件中的文件小插曲此包的子目录。此报告模板的相应PDF在此处链接:systemPipeRNAseqsystempipechipseq.systempipevarseq.。一起工作*。Rnw*。限制型心肌病文件有效,基本知识swkn乳胶r markdown v2.是必需的。

2入门

2.1安装

运行的R软件Systempiper.systempiperdata.可以从中下载cr。这Systempiper.环境可以安装从R使用Bioclite.安装命令。

源(“http://biocondudard.org/bioclite.r”)#sources源bioclite.r安装脚本Bioclite(“systempiper”)#从Biocumon Bioclite(“Tgirke / Systempiperdata”,Build_Vignettes = True,依赖关系= True)来自github

2.2加载软件包和文档

库(“systempiper”)#加载包库(HELP =“Systempiper”)#列表包信息Vignette(“Systempiper”)#打开Vignette

2.3示例FASTQ文件

此概述Vignette使用的Mini示例FASTQ文件以及相关的工作流程报告Vignettes可以从中下载在这里。所选数据集SRP010938.包含18对端(PE)读集rabidposis thaliana(Howard等,2013)。为了减少测试过程中的处理时间,每个FASTQ文件被划分为90000 -100,000个随机抽取的PE读取,映射到每个染色体的前100,000个核苷酸A. Thalina基因组。相应的相应参考基因组序列(FASTA)及其GFF注释文件(在同一下载中提供)已相应截断。以这种方式,整个测试样本数据集在存储空间中小于200MB。已选择PE读取集以用于该测试数据集以进行灵活性,因为它可以用于测试需要SE(单端)读取或PE读取的两种类型的分析例程。

2.4的结构目标文件

目标文件定义所有输入文件(例如FASTQ, BAM, BCF)和分析工作流程的样本比较。下面显示了一个示例的格式目标此包提供的文件。在具有单个类型的输入文件的目标文件中,这里的FASTQ文件的单端(SE)读取,前三列是必需的,包括它们的列名,而对于PE读取是FASTQ文件的四个必填列。所有后续列都是可选的,可以根据需要添加任何数量的附加列。

库(Systempiper)TargetSpath < -  system.file(“extdata”,“targets.txt”,package =“systempiper”)read.delim(targetspath,comment.char =“#”)
## FileName SampleName Factor SampleLong Experiment Date ## 1. /data/SRR446027_1. # FileName SampleName Factor SampleLong Experiment Date ## 1. /data/SRR446027_1. # FileNamefastq M1A M1 Mock.1h。A 1 23-Mar-2012 ## 2 ./data/SRR446028_1。fastq M1B M1 Mock.1h。23日- 3月- 2012 B 1## 3 ./data/SRR446029_1.fastq A1A A1 Avr.1h.A 1 23-Mar-2012 ## 4 ./data/SRR446030_1.fastq A1B A1 Avr.1h.B 1 23-Mar-2012 ## 5 ./data/SRR446031_1.fastq V1A V1 Vir.1h.A 1 23-Mar-2012 ## 6 ./data/SRR446032_1.fastq V1B V1 Vir.1h.B 1 23-Mar-2012 ## 7 ./data/SRR446033_1.fastq M6A M6 Mock.6h.A 1 23-Mar-2012 ## 8 ./data/SRR446034_1.fastq M6B M6 Mock.6h.B 1 23-Mar-2012 ## 9 ./data/SRR446035_1.fastq A6A A6 Avr.6h.A 1 23-Mar-2012 ## 10 ./data/SRR446036_1.fastq A6B A6 Avr.6h.B 1 23-Mar-2012 ## 11 ./data/SRR446037_1.fastq V6A V6 Vir.6h.A 1 23-Mar-2012 ## 12 ./data/SRR446038_1.fastq V6B V6 Vir.6h.B 1 23-Mar-2012 ## 13 ./data/SRR446039_1.fastq M12A M12 Mock.12h.A 1 23-Mar-2012 ## 14 ./data/SRR446040_1.fastq M12B M12 Mock.12h.B 1 23-Mar-2012 ## 15 ./data/SRR446041_1.fastq A12A A12 Avr.12h.A 1 23-Mar-2012 ## 16 ./data/SRR446042_1.fastq A12B A12 Avr.12h.B 1 23-Mar-2012 ## 17 ./data/SRR446043_1.fastq V12A V12 Vir.12h.A 1 23-Mar-2012 ## 18 ./data/SRR446044_1.fastq V12B V12 Vir.12h.B 1 23-Mar-2012

2.5的结构目标配对结束的文件(PE)样本

targetSpath < -  system.file(“extdata”,“targetspe.txt”,package =“systempiper”)read.delim(targetspath,comment.char =“#”)[1:2,1:6]
## 1. /data/SRR446027_1. FileName1 FileName2 SampleName Factor SampleLong Experimentfastq。/数据/ SRR446027_2。fastq M1A M1 Mock.1h。A 1 ## 2 ./data/SRR446028_1。fastq。/数据/ SRR446028_2。fastq M1B M1 Mock.1h。B 1

2.6样品的比较

类的标题行中定义了示例比较目标以'开头的文件”。这个函数readComp导入比较并将它们存储在列表。或者,readComp可以从相应的情况下获得比较信息Sysargs.对象(见下文)。注意,标题线是可选的。它们主要用于根据某些生物预期控制比较分析,例如RNA-SEQ实验中的简单成对比较。

ReadComp(File = TargetSpath,Format =“Vector”,Delim =“ - ”)
## $ cmpset1 ## [1]“M1-A1”“M1-V1”“A1-V1”“M6-A6”“M6-V6”“A6-V6”“M12-A12”“M12-V12”“A12-V12“## ## $ CMPSET2 ## [1]”M1-A1“”M1-V1“”M1-M6“”M1-A6“”M1-V6“”M1-M12“”M1-A12““M1-V12”“A1-V1”## [10]“A1-M6”“A1-A6”“A1-V6”“A1-M12”“A1-A12”“A1-V12”“V1-M6”“V1-A6”“V1-V6”## [19]“V1-M12”“V1-A12”“V1-V12”“M6-A6”“M6-V6”“M6-M12”“M6-A12”“M6-V12”“A6-V6”## [28]“A6-M12”“A6-A12”“A6-V12”“V6-M12”“V6-A12”“V6-V12”“M12-A12”“M12-V12”“A12-V12”

2.7的结构帕纳文件和Sysargs.容器

帕纳文件定义命令行软件的参数。下面显示了一个示例的格式帕纳此包提供的文件。

parampath < -系统。文件("extdata", "tophat.param", package="systemPipeR") read.delim(parampath, comment.char = "#")
##成对名称值## 1模块 bowtie2 / 2.1.0 ## 2模块 tophat / 2.0.8b ## 3软件 tophat ## 4 cores -p 4 ## 5其他 -g 1  -  segment-length 25 -i 30 -i 3000 ## Outfile1 -o  ## 7 Outfile1路径./results/ ## 8 Outfile1 remove  ## 9 outfile1附加.tophat##10 Outfile1 Outextension .tophat / accepted_hits.bam ## 11参考 ./data/tair10.fasta ## 12 infile1   ## 13 infile1路径 ## 14 infile2   ## 15 infile2路径

systemArgs函数导入两者的定义帕纳文件和目标文件,并将所有相关信息存储为Sysargs.对象。要在没有命令行软件的情况下运行管道,可以分配sysma而不是帕纳文件。此外,还可以启动Systempiper.工作流,通过提供目标文件,其中文件名列给出BAM文件的路径和sysma被分配

args < -  suppresswarnings(systemargs(syssma = parampath,mytargets = targetspath))args
##在18个样本上运行'tophat'的“sysargs”的实例

类的槽名命名有几个可用的访问器函数Sysargs.对象类。

名(参数)
## [1] "targetsin" "targetsout" " targetheader " "modules" "software" "cores" ## [7] "other" "reference" "results" "infile1" "infile2" "outfile1" ## [13] "sysargs" "outpaths"
模块(args)
## [1] "bowtie2/2.1.0" "tophat/2.0.8b"
核心(args)
## [1] 4
外阴道(args)[1]
## m1a ##“/tmp/rtmpjpraud/rbuild2fe51fd5c47e/systempiperdata/vignettes/results/srr446027_1.fastq.tophat/accepted_hits.bam”
sysargs(args)[1]
## M1A ## "tophat -p 4 -g 1——segment-length 25 -i 30 -i 3000 -o /tmp/RtmpJpRaUD/Rbuild2fe51fd5c47e/systemPipeRdata/vignettes/results/SRR446027_1.fastq。大礼帽/ tmp / RtmpJpRaUD / Rbuild2fe51fd5c47e systemPipeRdata /片段/数据/ tair10。fasta。/数据/ SRR446027_1。fastq。/数据/ SRR446027_2.fastq”

3.工作流程概述

3.1定义环境设置和样本

加载包

图书馆(Systempiper)

构造Sysargs.对象从帕纳目标文件。

args < -  systemargs(systemargs(sysma = trim.param“,mytargets =”targets.txt“)

3.2读取预处理

这个函数Preprocessreads.允许应用预定义的或自定义的读取预处理函数到所有FASTQ文件引用Sysargs.容器,如质量过滤或适配器修整例程。生成的输出FASTQ文件的路径存储在出差槽段Sysargs.对象。在内部,Preprocessreads.用来FastqStreamer.从中的功能缩短包流通过大的FASTQ文件在内存效率的方式。下面的示例使用trimLRPatterns从中的功能Biostrings包中。在修改步骤之后,将生成一个新的目标文件(这里targets_trim.txt),包含被修剪的FASTQ文件的路径。新的目标文件可以用于更新后的下一个工作流步骤Sysargs.实例,使用修剪的FASTQ文件运行NGS对齐。

preprocessreads(args = args,fct =“trimlrpatterns(rpattern ='gcccgcgggtaa',projects = fq)”,batchsize = 100000,overwrite = true,compress = true)writetargetsout(x = args,file =“targets_trim.txt”)

以下示例显示如何使用由提供的实用程序设计自定义读取预处理功能。缩短包,然后用批处理模式运行它'preprocessreads'函数(这里是对端读取)。

参数< systemArgs (sysma = " trimPE。帕纳", mytargets="targetsPE.txt") filterFct <- function(fq, cutoff=20, Nexceptions=0) { qcount <- rowSums(as(quality(fq), "matrix") <= cutoff) fq[qcount <= Nexceptions] # Retains reads where Phred scores are >= cutoff with N exceptions } preprocessReads(args=args, Fct="filterFct(fq, cutoff=20, Nexceptions=0)", batchsize=100000) writeTargetsout(x=args, file="targets_PEtrim.txt")

3.3FASTQ质量报告

以下seefastq.seeFastqPlot函数生成并绘制一系列有用的质量统计,一组FASTQ文件,包括每个周期质量盒绘图,基本比例,基础级质量趋势,相对k-mer多样性,长度和发生分布的读取,高于质量的读数数量截止和平均质量分布。

fqlist < -  seefastq(fastq = infile1(args),batchsize = 10000,klength = 8)pdf(“./结果/ fastqreport.pdf”,height = 18,宽度= 4 *长度(fqlist))seatfackot(fqlist)dev。离开()

fastqreport.

多核单机QC报告并行化

args < -  systemargs(sysma =“tophat.param”,mytargets =“targets.txt”)f <函数(x)seatfastq(fastq = infile1(args)[x],batchsize = 100000,klength = 8)fqlist <-  BPLapply(SEQ(沿= args),f,bpparam = multicoreparam(workers = 8))seatfastqplot(解释(fqlist,recursive = false))

通过调度程序并行处理QC报告(例如扭矩)跨几个计算节点

图书馆(BiocParallel);库(Batchjobs)f < -  function(x){库(Systempiper)args < -  systemargs(systemargs(sysma =“tophat.param),mytargets =”targets.txt“)seatfastq(fastq = infile1(args)[x],批量化= 100000,klength = 8)} Funs < -  makeClusterFunctionStorque(“torque.tmpl”)param < -  batchjobsparam(length(args),资源= list(walltime =“20:00:00”,节点=“1:PPN =1“,内存=”6GB“),cluster.functions = funs)寄存器(param)fqlist < -  bplapply(seq(沿= args),f)seatfastqplot(非签出(fqlist,recursive = false))

3.4对齐TOPHAT2.

构建Bowtie2指数。

参数< systemArgs (sysma = "大礼帽。帕纳", mytargets="targets.txt") moduleload(modules(args)) # Skip if module system is not available system("bowtie2-build ./data/tair10.fasta ./data/tair10.fasta")

执行Sysargs.在不提交给计算集群的排队系统的单个机器上。这样输入的FASTQ文件将被顺序处理。如果可用,可以使用多个CPU核来处理每个文件。中定义了每个进程使用的CPU内核数(这里是4)* .param文件。与核心(args)对象返回此值Sysargs.对象。注意,如果一个模块系统没有安装或使用,则对应* .param文件需要相应地进行编辑,要么在以模块或者删除这些行。

bampaths < - runCommandline (args = args)

或者,通过使用一个集群的多个计算节点并行处理多个文件,可以大大加快计算速度,其中调度/排队系统用于负载平衡。为避免计算节点的CPU核被过度订阅,取值为from核心(args)将在此传递给提交命令节点资源对象列表。定义了独立的并行集群进程数Njobs论点。下面的示例将为每个4个CPU内核并行运行18个进程。如果一个集群上的可用资源允许同时运行所有18个进程,那么显示的示例提交将总共使用72个CPU内核。请注意,runCluster可以与大多数排队系统一起使用,因为它基于来自BatchJobs支持使用模板文件的包* .tmpl)来定义不同调度器的运行参数。要运行以下代码,需要同时拥有一个conf文件(参见.BatchJob样品在这里)和一个模板文件(见* .tmpl样品在这里),用于系统上可用的队列。下面的示例使用了这个包提供的Torque调度器的示例conf和模板文件。

file.copy(系统。文件("extdata", ".BatchJobs.R", package="systemPipeR"), ".") file.copy(system.file("extdata", "torque.tmpl", package="systemPipeR"), ".") resources <- list(walltime="20:00:00", nodes=paste0("1:ppn=", cores(args)), memory="10gb") reg <- clusterRun(args, conffile=".BatchJobs.R", template="torque.tmpl", Njobs=18, runid="01", resourceList=resources) waitForJobs(reg)

用于监控提交工作进度的有用命令

showstatus(reg)file.exists(外部路径(args))sapply(1:length(args),函数(x)loadResult(Reg,x))#工作完成后工作

3.5读取和对齐计数统计数据

生成所有样本的读取和对齐计数。

read_statsDF <- alignStats(args)写入。table(read_statsDF, "results/alignStats.xls", row.names=FALSE, quote=FALSE, sep="\t")

控件提供的样例对齐统计文件的前四行Systempiper.包中。为简单起见,PE读取的数量在这里乘以2,以接近适当的对齐频率,其中每个读取在一对被计数。

read.table(system.file(“extdata”,“alpionstats.xls”,package =“systempiper”),标题= true)[1:4,]
##文件名Nreads2x Nalign Perc_Aligned Nalign_Primary Perc_Aligned_Primary ## 1 M1A 192918 177961 92.24697 177961 92.24697 ## 2 M1B 197484 159378 80.70426 159378 80.70426 ## 3 A1A 189870 176055 92.72397 176055 92.72397 ## 4 A1B 188854 147768 78.24457 147768 78.24457

在多核的单机上并行读/对齐统计

f <- function(x) alignStats(args[x]) read_statsList <- bplapply(seq(along=args), f, BPPARAM = MulticoreParam(workers=8)) read_statsDF <- do。调用(“rbind”,read_statsList)

通过调度器并行读取/对齐统计数据(例如扭矩)跨几个计算节点

图书馆(BiocParallel);f <- function(x) {library(systemPipeR) args <- systemArgs(sysma="tophat. bat ");帕纳", mytargets="targets.txt") alignStats(args[x]) } funs <- makeClusterFunctionsTorque("torque.tmpl") param <- BatchJobsParam(length(args), resources=list(walltime="20:00:00", nodes="1:ppn=1", memory="6gb"), cluster.functions=funs) register(param) read_statsList <- bplapply(seq(along=args), f) read_statsDF <- do.call("rbind", read_statsList)

3.7替代门店调整器

3.7.1对齐Bowtie2例如对于miRNA分析)

以下示例运行Bowtie2作为一个过程,无需将其提交给群集。

args < -  systemargs(sysma =“bowtiese.param”,mytargets =“targets.txt”)modulexoad(模块(args))#跳过如果模块系统不可用BAMPATHS < -  runco​​mmandline(args = args)

或者,将作业提交给计算节点。

qsubargs < -  getqsubargs(queue =“batch”,cores =核心(args),memory =“mem = 10gb”,time =“walltime = 20:00:00”)(Joblist < -  qsubrun(args = args,qsubargs =QSUBARGS,NQSUBS = 18,包=“Systempiper”)))

3.7.2与BWA-MEM对齐(例如VAR-Seq)

以下示例将BWA-MEM作为单个进程运行,而无需将其提交给群集。

args < -  systemargs(systemargs(sysma =“bwa.param”,mytargets =“targets.txt”)mumulexoad(模块(args))#跳过如果模块系统不可用系统(“bwa index -a bwtsw./data/tair10。FASTA“)#索引参考基因组BAMPATHS < -  runco​​mmandline(args = args)

3.7.3.与Rsubread对齐(例如RNA-Seq)

以下示例显示了如何在环境中使用基于R的对齐器或从输入文件读取的基于R的函数并写入输出文件。

库(rsubread)args < -  systemargs(systemargs(sysma =“rsubread.param”,mytargets =“targets.txt”)buildIndex(BaseName = Reference(Args),Reference = Reference(Args))#构建索引参考基因组对齐(索引=参考(args),readfile1 = infile1(args),input_format =“fastq”,output_file = outfile1(args),output_format =“sam”,nthreads = 8,indels = 1,th1 = 2)(i在seq(沿)= Outfile1(args)))ASBAM(File = Outfile1(args)[i],destination = gsub(“sam”,“”,Outfile1(args)[i]),覆盖= true,indexdestination = true)

3.7.4对齐gsnap

另一个基于r的短读对准器是gsnapGMAPR.(Wu and Nacu 2010)。下面的代码示例介绍了如何在计算群集的多个节点上运行此对齐器。

图书馆(GMAPR);图书馆(BiocParallel);库(Batchjobs)GMAPGenome < -  GMAPGenome(参考(args),directory =“data”,name =“gmap_tair10chr /”,create = true)args < -  systemargs(systemargs(systemargs(sysma =“gsnap.param),mytargets =”targetspe.txt“)f < - 函数(x){库(gmapr);库(Systempiper)args < -  systemargs(systemargs(sysma =“gsnap.param”,mytargets =“targetspe.txt”)GMAPGenome < -  GMAPGenome(参考(args),目录=“data”,name =“gmap_tair10chr /”,create =false)p < -  gsnapparam(genome = gmapenome,unique_only = true,分子=“DNA”,max_mismatches = 3)O < -  gsnap(input_a = infile1(args)[x],input_b = infile2(args)[x],params = p,输出= outfile1(args)[x])} funs < -  makeClusterfunctionstorque(“torque.tmpl”)param < -  batchjobsparam(length(args),资源= list(walltime =“20:00:00”,节点=“1:ppn = 1”,Memory =“6GB”),Cluster.Functions = Funs)寄存器(PARAM)D < -  BPLAPPLY(SEQ(沿= args),f)

4.用于单机的VAR-SEQ工作流程

4.1生成工作流模板

将其中一个可用的ngs工作流入当前的工作目录(此处for Varseq)。

Genworkenvir(Workflow =“Varseq”)Setwd(“Varseq”)

4.2运行工作流程

接下来,运行所选的示例工作流程systempipevarseq_single.PDF.Rnw)通过从命令行执行制作-b.在这内varseq目录中。或者,可以从提供的代码中运行代码*。Rnw以交互式r内的模板文件。提供更多详细信息Systempiper.的概述和工作流程插图可用在这里

5.计算机集群的VAR-SEQ工作流程(演示)

此演示将在IIGB的HPC集群的多个计算机节点上并行运行上述VAR-Seq工作流。为此提供的工作流模板被调用systemPipeVARseq。RnwPDF.Rnw)。

6.sessioninfo()

sessioninfo()
## R 3.2.1(2015-06-18)##平台:X86_64-Unknown-Linux-GNU(64位)##正在运行:Ubuntu 14.04.2 LTS ### locale:## [1] lc_ctype = en_us.utf-8 lc_numeric = c lc_time = en_us.utf-8 ## [4] lc_collat​​e = c lc_monetary = en_us.utf-8 lc_messages = en_us.utf-8 ## [7] lc_paper = en_us.utf-8 lc_name = c lc_address = c ## [10] lc_telephone = c lc_measurement = en_us.utf-8 lc_identification = c ## ##附加基本包:## [1]并行stats4统计图形grdevices utils datasets base ####其他附加包:## [1] ggplot2_1.0.1 systempiperdata_0.99.2 systempiper_1.3.16 ## [4] rsqlite_1.0.0 dbi_0.3.1 shortread_1.27.5 ## [7] Genomicalignments_1.5.11汇总_0.3.2 biobase_2.29.1 ##[10] Biocparallel_1.3.34 RsamTools_1.21.14 BioStrings_2.37.2 ## [13] XVector_0.9.1 GenomicRanges_1.21.16 GenomeinfodB_1.5.8 ## [16]讽刺_2.3.14 S4Vectors_0.7.10 Biocgenerics_0.15.3 ## [19] Biocstyle_1.7.4 ####通过命名空间加载(且未附加):## [1] RCPP_0.11.6 Lattice_0.20-33 Go。db_3.1.2 digest_0.6.8 ## [5] plyr_1.8.3 futile.options_1.0.0 batejobs_1.6 evaluate_0.7 ## [9] zlibbioc_1.15.0 annotate_1.47.1 matrix_1.2-2 checkmate_1.6.1 ## [13] RmarkDown_0.7 proto_0.3-10 gostats_2.35.1 vetlins_3.2.1 ## [17] stringr_1.0.0 pheatmap_1.0.7 munsell_0.4.2 sendmailr_1.2-1 ## [21] base64enc_0.1-2 bbmisc_1.9 htmltools_0.2.6 fail_1。2 ## [25] Edger_3.11.2 CodeTools_0.2-14 XML_3.98-1.3 AnnotationForge_1.11.12 ## [29] Crayon_1.3.1 Mass_7.3-43 Bitops_1.0-6 Grid_3.2.1 ## [33] RBGL_1。4.5.。1xtable_1.7-4 GSEABase_1.31.3 gtable_0.1.2 ## [37] magrittr_1.5 formatR_1.2 scales_0.2.5 graph_1.47.2 ## [41] stringi_0.5-5 hwriter_1.3.2 reshape2_1.4.1 genefilter_1.51.0 ## [45] testthat_0.10.0 limma_3.25.13 latticeExtra_0.6-26 futile.logger_1.4.1 ## [49] brew_1.0-6 rjson_0.2.15 lambda.r_1.1.7 RColorBrewer_1.1-2 ## [53] tools_3.2.1 Category_2.35.1 survival_2.38-3 yaml_2.1.13 ## [57] AnnotationDbi_1.31.17 colorspace_1.2-6 memoise_0.2.1 knitr_1.10.5

参考文献

Girke,托马斯。2014。" systemPipeR: NGS工作流和报表生成环境。"加州大学河滨分校。https://github.com/tgirke/systempiper.

霍华德,Brian E,齐文胡岛,艾哈迈克·哈梅拉,Manan Chandra,Monica Borghi,Xiaoping Tan,Luyan He,等。“Pseudomonas拟南芥的高通量RNA测序揭示了隐藏的转录组复杂性和新型剪接变异。”普罗斯一体8(10):E74183。DOI:10.1371 / journal.pone.0074183.

Kim, daewan, Geo Pertea, Cole Trapnell, Harold Pimentel, Ryan Kelley和Steven L Salzberg, 2013。TopHat2:转录组插入、缺失和基因融合的精确对齐基因组Biol。14(4):R36。DOI:10.1186 / gb - 2013 - 14 - 4 - r36

Langmead,Ben和Steven L Salzberg。2012年。“与Bowtie 2的快速读写读取对齐2.”Nat方法。9(4)。自然出版组:357-59。DOI:10.1038 / nmeth.1923

Lawrence,Michael,Wolfgang Huber,HervéPagès,Patrick Aboyoun,Marc Carlson,Robert绅士,Martin T Morgan和Vincent J Carey。2013.“用于计算和注释基因组范围的软件。”公共科学图书馆第一版。医学杂志。9(8):E1003118。DOI:10.1371 / journal.pcbi.1003118.

李,H,和R德宾。2009。"快速准确的短读对齐与布伦斯-惠勒变换"生物信息学25(14): 1754 - 60。DOI:10.1093 / Bioinformatics / BTP324

李,恒。“用BWA-MEM将”对齐序列读取,克隆序列和装配体变性“。ArXiv [Q-Bio。GN)http://arxiv.org/abs/1303.3997

廖,杨,戈登k斯明,和魏世。2013年。“底座对齐器:种子和投票的快速,准确和可扩展的读取映射。”核酸RES。41(10):E108。DOI:10.1093 / nar / gkt214

wu,t d和s nacu。2010年。“短暂读取的复杂变种和拼接的快速和SNP耐受检测。”生物信息学26(7):873-81。DOI:10.1093 /生物信息学/ btq057