内容

版本:0.1.1
编译:2015年10月24日星期六10:12:10

目标

时间 主题
09:15 - 10:15 对工作流和文件类型进行排序
10:15 茶/咖啡
10:30 - 12:30 介绍R而且Bioconductor
12:30 午餐
13:30夏令时间 可伸缩的计算

1工作流程排序

  1. 实验设计
    • 保持简单,例如,“控制”和“治疗”组
    • 在治疗中复制!
  2. 湿式实验室序列准备(图自http://rnaseq.uoregon.edu/

    • 记录协变量,包括处理日-可能的“批效应”
  3. 测序(Bentley et al., 2008,doi: 10.1038 / nature07517

  4. 对齐
    • 选择匹配的任务,例如:Rsubread, Bowtie2适合ChIPseq, RNAseq的一些形式;BWA, GMAP更好的变体调用
    • 主要输出:对齐读取的BAM文件
  5. 减少
    • 例如,RNASeq“计数表”(简单电子表格),DNASeq称为变量(VCF文件),ChIPSeq峰值(BED, WIG文件)
  6. 分析
    • 微分表达式,峰识别,…
  7. 理解
    • 生物环境

Alt测序生态系统

2序列数据表示

2.1DNA /氨基酸序列:FASTA文件

输入和操作:Biostrings

>NM_078863_up_2000_chr2L_16764737_f chr2L:16764737-16766736 gttggggcccaccagtgccaaaatacacaagaagaacagcatctt gacactaaaatgaaaattgctttgcgtcaatgactcaaaacgaaaatg…atgggtatcaagttgccccgtataaaaggcaagtttaccggttgcacggt >NM_001201794_up_2000_chr2L_8382455_f chr2L:8382455-8384454 ttatttatgtaggcgcccgttcccgcagccagagcactcagaattccggg cgtgtagcgcaacgaccatctacaaggcaatattttgatcgcttgttaggttagg…

整个基因组:2位而且.fa格式:rtracklayerRsamtoolsBSgenome

2.2读取:FASTQ文件

输入和操作:ShortReadreadFastq ()FastqStreamer ()FastqSampler ()

@err127302.1703 hwi - eas350_041:1:1460:19184#0/1 cctgagtgaagctgatcttcttagagagagagagatcttgatcgtcgaggaggagatgctgaccttgacct + hhghhghhhhhhdgg < gdgge@gdggd > ce ?=896=: @err127302.1704 hwi - eas350_041:1:1460:16861#0/1 gcggtatgctggaaggtgctcgaatggagagcgccagcgccccggcgctgagccgccccccc>ed4 > eee > de8eeede8b ? eb <@3; ba79 ?, 881b ?@73;########################

2.3对齐读取:BAM文件(例如ERR127306_chr14.bam)

输入和操作:“低级”RsamtoolsscanBam ()BamFile ();“高级”GenomicAlignments

2.4被称为变量:VCF文件

输入和操作:VariantAnnotationreadVcf ()readInfo ()readGeno ()选择性地与ScanVcfParam ()

2.5基因组注释:BED, WIG, GTF等文件

输入:rtracklayer进口()

3.R

统计计算和图形的语言和环境

向量,类,对象

函数,泛型,方法

自省

帮助

例子

X <- rnorm(1000) #原子向量y <- X + rnorm(1000, sd=.5) df <- data.frame(X = X, y=y) #类'data.frame'的对象plot(y ~ X, df) #泛型plot,方法plot.formula

Fit <- lm(y ~x, df) #类'lm'方法的对象(class=class(Fit)) #自省
##[1]添加一个别名anova case.names强制限制##[7]厨师。距离偏差dfbeta dfbetas drop1 dummy。coef ## [13] effects extractAIC family formula hatvalues influence ## [19] initialize kappa labels logLik model.frame模型。矩阵## [25] nobs plot predict print proj qr ## [31] residuals rstandard rstudent show simulate slotsFromS3 ## [37] summary variable.names vcov ## see '?methods' for accessing help and source code

4Bioconductor

4.1概述

分析和理解高通量基因组数据

包、小插图、工作流

对象

例子

需要(Biostrings) #生物序列数据(phiX174Phage) #样本数据,参见?phiX174Phage phiX174Phage
一个长度为6的DNAStringSet实例,名称为GAGTTTTATCGCTTCCATGACGCAGAAGTTAAC。TTCGATAAAAATGATTGGCGTATCCAACCTGCA Genbank ## [2] 586 GAGTTTTATCGCTTCCATGACGCAGAAGTTAAC…TTCGATAAAAATGATTGGCGTATCCAACCTGCA RF70s ## [3] 5386 GAGTTTTATCGCTTCCATGACGCAGAAGTTAAC…Ttcgataaaaatgattggcgtatccaacctgca ss78 ## [4] 586 gagttttatcgcttccatgacgcagaagttaac…TTCGATAAAAATGATTGGCGTATCCAACCTGCA公牛## [5]5386 GAGTTTTATCGCTTCCATGACGCAGAAGTTAAC…Ttcgataaaaatgattggcgtatccaacctgca g97 ## [6] 586 gagttttatcgcttccatgacgcagaagttaac…TTCGATAAAAATGATTGGCGTATCCAACCTGCA NEB03
m <- consensusMatrix(phiX174Phage)[1:4,] #核。x位置计数多态<- where (colsum (m != 0) > 1) m[,多态]
## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] ## a 4 5 4 3 0 0 5 2 0 ## c 0 0 0 0 5 1 0 0 5 ## g 2 1 2 3 0 0 1 4 0 ## t 0 0 0 0 1 5 0 0 0 1 1 0 0 0 1 1 0 0 0 1 1 ## t 0 0 0 0 1 5 0 0 0 1 1 ## a 4 5 5 0 0 0 1 1 ## a 4 5 5 0 0 0 1 1 ## t 0 0 0 0 1 5 0 0 0 1 1 ## a
方法(类=类(phiX174Phage))
## [1] !! = # # (3 ] [ [[ ## [ 5 ] [[<- [<- ## [ 7) % % < # # [9 ] <= == ## [ 11 ] > >= ## [ 13 ] $ $<- ## [ 总alphabetFrequency # # 15] [17] anyNA追加# #[19]。字符为。complex ## [21] as.data.frame as。Env ## [23] as.integer as。列出##[25]为。逻辑。矩阵## [27] as.numeric as.raw ## [29] as.vector c ## [31] chartr coerce ## [33] compact compare ## [35] compareStrings complement ## [37] consensusMatrix consensusString ## [39] countOverlaps countPattern ## [41] countPDict dinucleotideFrequencyTest ## [43] do.call droplevels ## [45] duplicated elementLengths ## [47] elementMetadata elementMetadata<- ## [49] elementType endoapply ## [51] eval expand ## [53] extractAt extractROWS ## [55] Filter Find ## [57] findOverlaps hasOnlyBaseLetters ## [59] head high2low ## [61] ifelse intersect ## [63] is.na is.unsorted ## [65] isEmpty isMatchingEndingAt ## [67] isMatchingStartingAt lapply ## [69] length lengths ## [71] letterFrequency Map ## [73] match matchPattern ## [75] matchPDict mcols ## [77] mcols<- mendoapply ## [79] metadata metadata<- ## [81] mstack names ## [83] names<- narrow ## [85] nchar neditEndingAt ## [87] neditStartingAt NROW ## [89] nucleotideFrequencyAt oligonucleotideFrequency ## [91] order overlapsAny ## [93] PairwiseAlignments PairwiseAlignmentsSingleSubject ## [95] parallelSlotNames PDict ## [97] Position PWM ## [99] rank Reduce ## [101] relist relistToClass ## [103] rename rep ## [105] rep.int replaceAt ## [107] replaceLetterAt replaceROWS ## [109] rev revElements ## [111] reverse reverseComplement ## [113] ROWNAMES sapply ## [115] seqinfo seqinfo<- ## [117] seqlevelsInUse seqtype ## [119] seqtype<- setdiff ## [121] setequal shiftApply ## [123] show showAsCell ## [125] sort split ## [127] split<- splitAsList ## [129] stack stringDist ## [131] subseq subseq<- ## [133] subset subsetByOverlaps ## [135] table tail ## [137] tapply threebands ## [139] toString translate ## [141] trimLRPatterns twoWayAlphabetFrequency ## [143] union unique ## [145] uniqueLetters unlist ## [147] unsplit unstrsplit ## [149] updateObject values ## [151] values<- vcountPattern ## [153] vcountPDict vmatchPattern ## [155] vwhichPDict which.isMatchingEndingAt ## [157] which.isMatchingStartingAt whichPDict ## [159] width window ## [161] window<- with ## [163] within xtfrm ## [165] xvcopy ## see '?methods' for accessing help and source code
selectMethod (reverseComplement类(phiX174Phage))
##方法定义:## ## function (x,…)## xvcopy(x, lkup = getDNAComplementLookup(), reverse = TRUE) ##  ## ## Signatures: ## x# # target "DNAStringSet" ## defined "DNAStringSet"

Alt测序生态系统

4.2序列分析旅行团

这个非常开放的主题指向一些最突出的Bioconductor包序列分析。利用这个实验的机会来探索下面突出显示的软件包小插图和帮助页面;欧洲杯2021体育彩票许多材料将在后续的实验和讲座中更详细地介绍。

基础知识

特定于领域的分析——探索以下两个或三个包的登录页、小插图和参考手册。

工作序列,对齐,常见的web文件格式,和原始数据;这些包在很大程度上依赖于IRanges/GenomicRanges我们稍后会讲到的基础设施。

可视化

4.3DNA或氨基酸序列:BiostringsShortReadBSgenome

方法- - - - - -

相关的包

例子

require(BSgenome.Hsapiens.UCSC.hg19) chr14_range = GRanges("chr14", IRanges(1, seqlength (Hsapiens)["chr14"])) chr14_dna <- getSeq(Hsapiens, chr14_range) letterFrequency(chr14_dna, "GC", as.prob=TRUE)
## g | c ## [1,] 0.336276

4.4范围:GenomicRangesIRanges

范围表示:-数据,例如,对齐的读取,ChIP峰值,snp, CpG岛,…-注释,例如,基因模型,调控元件,甲基化区域-范围由染色体,开始,结束和链定义-通常,元数据与每个范围相关,例如,对齐的质量,ChIP峰值的强度

许多常见的生物学问题都是以范围为基础的——什么读取了重叠的基因?ChIP峰值最近的基因是什么?-…

GenomicRanges包定义基本类和方法

Alt

Alt

4.1.1业务范围

Alt范围代数

range - IRanges -start ()/结束()/宽度()-类列表-长度(),子集,等等-元数据,mcols ()- GRanges - ' seqnames '(染色体),' strand ' -Seqinfo,包括seqlevels而且seqlengths

范围内方法-独立于同一对象中的其他范围- GRanges变量链感知-转变()狭窄的()侧面()发起人()调整()限制()削减()——看" ? intra-range-methods

范围间方法-依赖于同一对象中的其他范围-range ()reduce ()空白()分离()-覆盖()(!) -看" ? inter-range-methods

两个(或多个)范围对象的函数findOverlaps ()countOverlaps ()、……% / %%在%% %外联盟()相交()setdiff ()punion ()pintersect ()psetdiff ()

例子

require(GenomicRanges) gr <- GRanges("A", IRanges(c(10,20,22), width=5), "+") shift(gr, 1) # 1-based坐标!
## seqnames ranges strand ##    ## [1] A [11,15] + ## [2] A [21,25] + ## [3] A [23,27] + ## ------- ## seqinfo:来自未指定基因组的1个序列;没有seqlengths
Range (gr) # intra-range
## seqnames ranges strand ##    ## [1] A [10,26] + ## ------- ## seqinfo: 1个来自未指定基因组的序列;没有seqlengths
减少(gr) # inter-range
## seqnames ranges strand ##    ## [1] A [10,14] + ## [2] A [20,26] + ## ------- ## seqinfo: 1个来自未指定基因组的序列;没有seqlengths
覆盖(gr)
##长度为1的RleList ## $A ##整数-长度为26的rllist,运行6次##长度:9 5 5 2 3 2 ##值:0 1 0 1 2 1
Setdiff (range(gr), gr) # '内含子'
## seqnames ranges strand ##    ## [1] A [15,19] + ## ------- ## seqinfo: 1个来自未指定基因组的序列;没有seqlengths

IRangesList, GRangesList - List:同一类型的所有元素-许多*List-aware方法,但一个常见的“技巧”:对未列出的表示应用向量化函数,然后重新列出

grl <- GRangesList(…)orig_gr <- unlist(grl) transformed_gr <- FUN(orig) transformed_grl <- relist(, grl)

参考

4.5对齐:GenomicAlignmentsRsamtools

类——像基因组一样的行为

方法

例子

需要(GenomicRanges)要求(GenomicAlignments)
##加载所需包:基因组校准##加载所需包:Rsamtools
require(Rsamtools) ##我们的'感兴趣的区域' roi <- GRanges("chr14", IRanges(19653773, width=1)) ##样本数据require('RNAseqData.HNRNPC.bam.chr14')
##加载所需的包:RNAseqData.HNRNPC.bam.chr14
bf <- BamFile(RNAseqData.HNRNPC.bam。chr14_BAMFILES[[1]], asMates=TRUE) ##对齐,连接,重叠我们的roi paln <- readGAlignmentsList(bf) j <- summarizejoins (paln, with.revmap=TRUE) j_overlap <- j[j %over% roi] ##支持读取paln[j_overlap$revmap[[1]]]
##长度为8的GAlignmentsList对象:## [[1]]## GAlignments对象,2对齐和0元数据列:## seqnames strand cigar qwidth开始结束宽度njunc# # [1] chr14 - 66M120N6M 72 19653707 19653898 192 1 ## [2] chr14 + 7m1270n65m72 19652348 19653689 1342 1 ## ## [[2]] ## GAlignments对象,2对齐和0元数据列:## seqnames绞线雪茄qwidth开始结束宽度njunc# # [1] chr14 - 66M120N6M 72 19653707 19653898 192 1 ## [2] chr14 + 72M 72 19653686 19653757 72 0 ## ## [[3]] ## GAlignments对象2对齐和0元数据列:## seqnames绞线雪茄qwidth开始结束宽度njunc# # [1] chr14 + 72M 72 19653675 19653746 72 0 ## [2] chr14 - 65M120N7M 72 19653708 19653899 192 1 ## ##…## <5个更多的元素> ## ------- ## seqinfo:来自未知基因组的93个序列

4.6变体:VariantAnnotationVariantFiltering

类——类似基因组范围的行为

函数和方法

例子

##输入变量需要(VariantAnnotation) fl <- system。file("extdata", "chr22. vcfens .gz", package="VariantAnnotation") vcf <- readVcf(fl, "hg19") seqlevels(vcf) <- "chr22" ##已知基因模型要求(TxDb.Hsapiens.UCSC.hg19. knowngene)编码<- locateVariants(rowRanges(vcf), TxDb.Hsapiens.UCSC.hg19. hg19. hg19. hg19. rcf)编码<-knownGene, codingvariations())头(编码)
GRanges对象有6个范围和9个元数据列:# # seqnames范围链|位置LOCSTART LOCEND QUERYID TXID # # < Rle > < IRanges > < Rle > | <因素> <整数> <整数> <整数> <人物> # # 1 chr22(50301422、50301422)- |编码939 939 24 75253 # # 2 chr22(50301476、50301476)25 - |编码885 885 75253 # # 3 chr22(50301488、50301488)26 - |编码873 873 75253 # # 4 chr22(50301494、50301494)27 - |编码867 867 75253 # # 5 chr22(50301584、50301584)28 - |编码777 777 75253 # # 6 chr22 (50302962,50302962] - |编码698 698 57 75253 ## CDSID GENEID preferdeid FOLLOWID ##     ## 1 218562 79087 ## 2 218562 79087 ## 3 218562 79087 ## 4 218562 79087 ## 5 218562 79087 ## 6 218563 79087 ## ------- ## seqinfo: 1个来自未指定基因组的序列;没有seqlengths

相关的包

参考

4.7集成数据表示:SummarizedExperiment

SummarizedExperiment

4.8注释:orgTxDbAnnotationHubbiomaRt,……

4.9可伸缩的计算

  1. 非常高效。R代码
  1. 迭代
  1. 限制
  1. 抽样
  1. 平行的评价

并行评估Bioconductor

5资源

R/Bioconductor

出版物(通用Bioconductor

其他