3.核心类

3．1案例研究:IRanges而且农庄

的IRangesPackage定义了一个用于指定整数范围的重要类，例如:

- IRanges(start=c(10,20,30)， width=5

长度3 ##开始结束宽度## [1]10 14 5 ## [2]20 24 5 ## [3]30 34 5

在范围上可以执行许多有趣的操作，例如，侧面()识别相邻范围

侧面(ir, 3)

长度3 ##开始结束宽度## [1]7 9 3 ## [2]17 19 3 ## [3]27 29 3

的IRanges类是类层次结构的一部分。要看到这个，向R询问类红外类的类定义IRanges类

类(红外)

# #[1]“IRanges”# # attr(“包”)# #[1]“IRanges”

getClass(类(ir))

##类“IRanges”[包“IRanges”]## ##槽位:## ##名称:起始宽度NAMES elementType elementMetadata ##类:整数整数characterORNULL字符DataTableORNULL ## ##名称:元数据##类:列表## ##扩展:##类“范围”，直接##类“IntegerList”，由类“范围”，距离2 ##类“RangesORmissing”，由类“范围”，距离2 ##类“AtomicList”，由类“范围”，距离3 ##类“列表”，由类“范围”，距离4 ##类“矢量”，由类“范围”，距离5 ##类“注解”，由类“范围”，距离6 ## ##已知子类:“NormalIRanges”

请注意,IRanges扩展了范围类。显示

现在试着进入?旁边(如不使用RStudio,输入?”旁边,<选项卡> "在哪里<选项卡>意思是按TAB键要求TAB补全)。你可以看到有帮助页面侧面操作几个不同的类。选择补全

?”旁边,Ranges-method”

并验证您所处的页面描述的方法与IRanges实例。探索其他基于范围的操作。

的GenomicRangesPackage扩展了范围的概念，以包括与序列分析中范围应用相关的特性，特别是将范围与序列名(例如，染色体)和链相关联的能力。创建一个农庄实例，该实例基于IRanges实例，如下所示

库(GenomicRanges) gr < -农庄(c(“chr1”、“chr1”,“chr2”),红外光谱、链= c ("+", "-", "+")) gr

## seqnames ranges strand ##    ## [1] chr1 [10,14] + ## [2] chr1 [20,24] - ## [3] chr2 [30,34] + ## ------- ## seqinfo:来自未指定基因组的2个序列;没有seqlengths

侧翼序列的概念在生物学上有更微妙的含义。特别是我们可能期望侧翼序列在+链在值域之前，负链在值域之后。验证侧面适用于农庄对象具有此行为。

侧面(gr, 3)

## seqnames ranges strand ##    ## [1] chr1 [7,9] + ## [2] chr1 [25,27] - ## [3] chr2 [27,29] + ## ------- ## seqinfo:来自未指定基因组的2个序列;没有seqlengths

发现哪些类农庄扩展，找到记录的行为的帮助页侧面当应用于农庄对象,

似乎有一些有用的方法可以用于基因组范围的研究;我们可以从命令行中发现其中一些，这表明这些方法应该是当前的search ()路径

方法(class = "农庄”)

# #总anyNA [1]  <= < ## [ 5 ] == >= > != ## [ 9)追加。字符为。complex as。data.frame ## [13] as。env。因式为。integer为。列出##[17]为。逻辑。数字。[37] elementMetadata<- elementMetadata end<- end ## [41] eval expand export extractROWS ## [45] extractUpstreamSeqs findOverlaps side follow ## [49] gap [<- [$<- # [53] $ getPromoterSeq granges head ## [57] high2low %in% intersect isDisjoint ## [61] length length liftOver mapCoords ## [65]mapfromalments mapFromTranscripts mapToAlignments mapToTranscripts ## [69] match mcols<- mcols metadata<- # [73] metadata mstack names<- names ## [77] narrow nearest NROW Ops ## [81] order overlapsAny parallelSlotNames parallelVectorNames ## [85] pgap pintersect pmapcods pmapfromalments ## [89] pmapFromTranscripts pmapToAlignments pmapToTranscripts precede ## [93] promoters psetdiff punion range ## [101] ranges<- ranges rank reduce ## relistToClass relist rename rep.int ## [105]replaceROWS rep resize restrict ## [109] rev ROWNAMES rowRanges<- ScanBamParam ## [113] ScanBcfParam scanFa scanTabix score<- ## [117] score seqinfo<- seqinfo seqlevelsInUse ## [121] seqnames<- seqnames setdiff shiftApply ## [125] shift showAsCell show sort ## [129] split split<- start<- start ## [133] strand<- strand subsetByOverlaps子集## [137]summarizeOverlaps表尾tapply ## [141] tile trim union unique ## [145] update updateObject values<- values ## [149] width<- width window<-窗口##[153]与XTFRM ##见'?方法' for accessing help and source code

注意可用的侧面()方法中定义的方法进行了扩展GenomicRanges包，包括那些(通过继承)与农庄类。

grep("侧翼"，方法(类="GRanges")，值=TRUE)

##[1] "侧翼，基因组范围-方法"

验证帮助页是否记录了我们刚刚观察到的行为。

?”旁边,GenomicRanges-method”

使用帮助()中列出帮助页GenomicRanges包,小插曲()查看和访问可用的小插图;这些也可以在Rstudio的“帮助”选项卡中找到。

帮助(包=“基因组范围”)小插图(包=“基因组范围”)小插图(包=“基因组范围”，“基因组范围”)

3.2GenomicRanges

3.2.1之上的`农庄`而且`GRangesList`类

另外:“TxDb”包提供了基因模型的R表示

txdb <- txdb . hsapiens . ucsc .hg19. knowngene . library(txdb . hsapiens . ucsc .hg19. knowngene

外显子()：农庄

外显子(txdb)

## seqnames ranges strand | exon_id ##    |  ## [1] chr1 [11874, 12227] + | 1 ## [2] chr1 [12595,12721] + | 2 ## [3] chr1 [126136,12721] + | 3 ## [4] chr1 [12646,12697] + | 4 ## [5] chr1 [13221, 14409] + | 5 ## ... ... ... ... ... ...## [289965] chrUn_gl000241 [35706, 35859] - | 289965 ## [289966] chrUn_gl000241 [36711, 36875] - | 289966 ## [289967] chrUn_gl000243 [11501, 11530] + | 289967 ## [289968] chrUn_gl000243 [13608, 13637] + | 289968 ## [289969] chrUn_gl000247 [5787, 5816] - | 289969 ## ------- # seqinfo: hg19基因组93个序列(1个循环)

Alt基因组范围

exonsBy ()：GRangesList

exonsBy (txdb tx)

## seqnames ranges strand | exon_id exon_name exon_rank ##    |    ## [1] chr1 [11874,12227] + | 1  1 ## [2] chr1 [12613,12721] + | 3  2 ## [3] chr1 [13221, 14409] + | 5  3 ## ## $2 ## # GRanges对象有3个范围和3个元数据列:# # seqnames范围链| exon_id exon_name exon_rank # # [1] chr1(11874、12227)+ | 1 < NA > 1 # # [2] chr1(12595、12721)+ | 2 < NA > 2 # # [3] chr1(13403、14409)+ | 6 < NA > 3 # # # # # # 3美元农庄对象与范围和3元数据列:# # seqnames范围链| exon_id exon_name exon_rank # # [1] chr1(11874、12227)+ | 1 < NA > 1 # # [2] chr1(12646、12697)+ | 4 < NA > 2 # # [3] chr1(13221、14409)+ | 5 < NA > 3  ## ## ...## <82957更多元素> ## ------- ## seqinfo: 93个序列(1个循环)来自hg19基因组

Alt基因组序列列表

农庄/GRangesList非常有用

代表注释-基因、变异、调控元件、拷贝数区域、…
代表数据-对齐读取，ChIP峰值，称为变体，…

3.2.2基因组范围代数

许多生物学上有趣的问题代表了范围上的运算

计数对齐reads和已知基因之间的重叠GenomicRanges: summarizeOverlaps ()
最接近调控区域的基因GenomicRanges::最近的()[ChIPseeker] []
称为与临床表型相关的变异VariantFiltering

农庄代数

Intra-range方法
- 独立于同一对象中的其他范围
- GRanges变体链感知
- 转变()，狭窄的()，侧面()，发起人()，调整()，限制()，削减()
- 看到" ? intra-range-methods
Inter-range方法
- 取决于同一对象中的其他范围
- range ()，reduce ()，空白()，分离()
- 覆盖()（！）
- 看到" ? inter-range-methods
Between-range方法
- 两个(或多个)范围对象的函数
- findOverlaps ()，countOverlaps ()、……% / %，%在%，% %外；联盟()，相交()，setdiff ()，punion ()，pintersect ()，psetdiff ()

Alt范围代数

3．3Biostrings(DNA或氨基酸序列)

类

XString, XStringSet，例如，DNAString(基因组)，DNAStringSet(读取)

方法- - - - - -

作弊剪切
操作,例如,reverseComplement ()
总结,例如,letterFrequency ()
匹配,例如,matchPDict ()，matchPWM ()

3.4GenomicAlignments(对齐读取)

类——像基因组一样的行为

GAlignments, GAlignmentPairs, GAlignmentsList

方法

readGAlignments ()，readGAlignmentsList ()
容易限制输入，迭代块
summarizeOverlaps ()

例子

在14号染色体的19653707 + 66M = 19653773位置找到支持上述连接的reads

library(GenomicRanges) library(GenomicAlignments) library(Rsamtools) ##我们的“感兴趣的区域”roi <- GRanges(“chr14”，IRanges(19653773, width=1)) ##样本数据库('RNAseqData.HNRNPC.bam.chr14') bf <- BamFile(RNAseqData.HNRNPC.bam。chr14_BAMFILES[[1]]， asMates=TRUE) ##对齐，连接，重叠我们的roi paln <- readGAlignmentsList(bf) j <- summarizejoins (paln, with.revmap=TRUE) j_overlap <- j[j %over% roi] ##支持读取paln[j_overlap$revmap[[1]]]

##长度为8的GAlignmentsList对象:## [[1]]## GAlignments对象，2对齐和0元数据列:## seqnames strand cigar qwidth开始结束宽度njunc# # [1] chr14 - 66M120N6M 72 19653707 19653898 192 1 ## [2] chr14 + 7m1270n65m72 19652348 19653689 1342 1 ## ## [[2]] ## GAlignments对象，2对齐和0元数据列:## seqnames绞线雪茄qwidth开始结束宽度njunc# # [1] chr14 - 66M120N6M 72 19653707 19653898 192 1 ## [2] chr14 + 72M 72 19653686 19653757 72 0 ## ## [[3]] ## GAlignments对象2对齐和0元数据列:## seqnames绞线雪茄qwidth开始结束宽度njunc# # [1] chr14 + 72M 72 19653675 19653746 72 0 ## [2] chr14 - 65M120N7M 72 19653708 19653899 192 1 ## ##…## <5个更多的元素> ## ------- ## seqinfo:来自未知基因组的93个序列

3．5VariantAnnotation(称为变种)

类——类似基因组范围的行为

VCF -“宽”
VRanges -“高”

函数和方法

I/O和过滤:readVcf ()，readGeno ()，readInfo ()，readGT ()，writeVcf ()，filterVcf ()
注释:locateVariants ()(变量重叠范围)，predictCoding ()，summarizeVariants ()
单核苷酸多态性:genotypeToSnpMatrix ()，snpSummary ()

例子

从VCF文件中读取变体，并对已知的基因模型进行注释

##输入变量库(VariantAnnotation) fl <-系统。file("extdata"， "chr22. vcfens .gz"， package="VariantAnnotation") vcf <- readVcf(fl， "hg19") seqlevels(vcf) <- "chr22" ##已知基因模型库(TxDb.Hsapiens.UCSC.hg19. knowngene) coding <- locateVariants(rowRanges(vcf)， TxDb.Hsapiens.UCSC.hg19. hg19. hg19. hg19. vcf)knownGene, codingvariations())头(编码)

GRanges对象有6个范围和9个元数据列:# # seqnames范围链|位置LOCSTART LOCEND QUERYID TXID # # < Rle > < IRanges > < Rle > | <因素> <整数> <整数> <整数> <人物> # # 1 chr22(50301422、50301422)- |编码939 939 24 75253 # # 2 chr22(50301476、50301476)25 - |编码885 885 75253 # # 3 chr22(50301488、50301488)26 - |编码873 873 75253 # # 4 chr22(50301494、50301494)27 - |编码867 867 75253 # # 5 chr22(50301584、50301584)28 - |编码777 777 75253 # # 6 chr22 (50302962,50302962] - |编码698 698 57 75253 ## CDSID GENEID preferdeid FOLLOWID ##     ## 1 218562 79087 ## 2 218562 79087 ## 3 218562 79087 ## 4 218562 79087 ## 5 218562 79087 ## 6 218563 79087 ## ------- ## seqinfo: 1个来自未指定基因组的序列;没有seqlengths

3.6rtracklayer(基因组注释)

进口(): BED, GTF, WIG, 2bit等
export (): GRanges to BED, GTF, WIG，…
访问UCSC基因组浏览器

3．7SummarizedExperiment

将实验数据与样本、特征和实验范围的注释集成
矩阵，其中行由基因组范围索引，列由数据帧。

Alt SummarizedExperiment

函数和方法

访问器:分析()/分析()，rowData ()/rowRanges ()，colData ()，元数据()
特别是基于范围的操作subsetByOverlaps ()

4标准文件格式的输入和表示

4．1BAM文件的对齐读取-`GenomicAlignments`

召回:整体工作流程

实验设计
湿实验室制备
高通量测序
对齐
- 全基因组vs.转录组
总结
统计分析
理解

对齐读取的BAM文件

头

@HD VN:1.0 SO:坐标@SQ SN:chr1 LN:249250621 @SQ SN:chr10 LN:135534747 @SQ SN:chr11 LN:135006516…@SQ号:chrY LN:59373566 @PG ID:TopHat VN:2.0.8b CL:/home/hpages/ TopHat -2.0.8b。Linux_x86_64/tophat——match -inner-dist 150——solexa-quals——max-multihits 5——no- disdant——no-mixed——covere -search——microexon-search——libraries -type fr- un——num-threads 2——output-dir tophat2_out/ERR127306 /home/hpages/ bowtib2 -2.1.0/indexes/hg19 fastq/ERR127306_1。fastq fastq / ERR127306_2.fastq

比对

ID，旗帜，对中和同伴

ERR127306.7941162 403 chr14 19653689 3 72M = 19652348 -1413…ERR127306.22648137 145 chr14 19653692 1 72M = 19650044 -3720…

顺序与质量

．.．GAATTGATCAGTCTCATCTGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCC  *'%%%%%#&&%''#'&%%%)&&%%$%%'%%'&*****$))$)'')'%)))&)%%%%$'%%%%&"))'')%)) ...TTGATCAGTCTCATCTGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCCCAG  '**)****)*'*&*********('&)****&***(**')))())%)))&)))*')&***********)****

标签

．.．AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:72 YT:Z:UU NH:i:2 CC:Z:chr22 CP:i:16189276 HI:i:0…AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:72 YT:Z:UU NH:i:3 CC:Z:= CP:i:19921600 HI:i:0

通常情况下，排序(按位置)和索引('。白的文件)

GenomicAlignments

使用一个示例BAM文件(fl可以是您自己的BAM文件的路径)

##示例BAM数据库(RNAseqData.HNRNPC.bam.chr14)让R知道这是一个BAM文件，而不仅仅是一个字符向量库(Rsamtools) bfl <- BamFile(fl)

将数据输入R

aln <- readGAlignments(bfl) aln . aln

与800484年# # GAlignments对象对齐和0元数据列:# # seqnames链雪茄qwidth开始结束宽度njunc # # < Rle > < Rle > <人物> <整数> <整数> <整数> <整数> <整数> # # [1]chr14 + 72 72 19069583 19069654 72 0 # # [2] chr14 + 72 72 19363738 19363809 72 0 # # [3] chr14 - 72 72 19363755 19363826 72 0 # # [4] chr14 + 72 72 19369799 19369870 72 0 # # [5] chr14 - 72 72 19369828 19369899 72 0  ## ... ... ... ... ... ... ... ... ...[800480] chr14 - 72M 72 106989780 106989851 72 0 ## [800481] chr14 + 72M 72 106994763 106994834 72 0 ## [800482] chr14 - 72M 72 106994819 106994890 72 0 ## [800483] chr14 + 72M 72 107003080 107003151 72 0 ## [800484] chr14 - 72M 72 107003171 107003242 72 0 ## ------- # seqinfo:来自未知基因组的93个序列

readGAlignmentPairs ()/readGAlignmentsList ()如果对端数据
有很多事要做，包括农庄/GRangesList操作

方法(类=类(aln))

# #总anyNA [1]  <= < ## [ 5 ] == >= > != ## [ 9)追加。字符为。complex as。data.frame ## [13] as。Env as.integer as。列表。逻辑## [17]as。数字。[37] grglist head high2low %in% ##[41]结点长度长度mapCoords ## [45] mapFromAlignments mapToAlignments匹配mcols< # [49] mcols元数据<-元数据mstack ## [53] names<- names narrow njunc ## [57] NROW overlapsAny parallelSlotNames pintersect ## [61]pmapcods pmapfromalments pmapToAlignments qnarrow ## [65] qwidth ranges rank relistToClass ## [69] relist rename rep.int replaceROWS ## [73] rep rev rglist rname<- ## [77] rname ROWNAMES seqinfo<- seqinfo ## [81] seqlevelsInUse seqnames<- seqnames shiftApply ## [85] showAsCell show sort split ## [89] split<- start strand<- strand ## [93] subsetByOverlaps子集summarizeOverlaps表## [101]updateObject values<- values [<- ## [105] [width window<-窗口##[109]与XTFRM ##见'?方法' for accessing help and source code

购者自慎: BAM文件过大。通常你会限制输入特定的基因组范围，或迭代通过BAM文件。关键Bioconductor函数(例如,GenomicAlignments: summarizeOverlaps ()为您执行此数据管理步骤。请参阅下一节!

4.2其他格式和包

Alt文件和输入它们的Bioconductor包

基因组尺度数据和注释的基因组范围

马丁·摩根(martin.morgan@roswellpark.org）
罗斯威尔公园癌症研究所，布法罗，纽约
2015年10月5日至9日

内容

1Bioconductor序列分析的“基础设施”

1．1类、方法和包

1．2动机

2核心包

3.核心类

3．1案例研究:IRanges而且农庄

3.2GenomicRanges

3.2.1之上的`农庄`而且`GRangesList`类

3.2.2基因组范围代数

3．3Biostrings(DNA或氨基酸序列)

3.4GenomicAlignments(对齐读取)

3．5VariantAnnotation(称为变种)

3.6rtracklayer(基因组注释)

3．7SummarizedExperiment

4标准文件格式的输入和表示

4．1BAM文件的对齐读取-`GenomicAlignments`

4.2其他格式和包

5资源

5.1`sessionInfo ()`

基因组尺度数据和注释的基因组范围

马丁·摩根(martin.morgan@roswellpark.org）罗斯威尔公园癌症研究所，布法罗，纽约2015年10月5日至9日

内容

1Bioconductor序列分析的“基础设施”

1．1类、方法和包

1．2动机

2核心包

3.核心类

3．1案例研究:IRanges而且农庄

3.2GenomicRanges

3.2.1之上的农庄而且GRangesList类

3.2.2基因组范围代数

3．3Biostrings(DNA或氨基酸序列)

3.4GenomicAlignments(对齐读取)

3．5VariantAnnotation(称为变种)

3.6rtracklayer(基因组注释)

3．7SummarizedExperiment

4标准文件格式的输入和表示

4．1BAM文件的对齐读取-GenomicAlignments

4.2其他格式和包

5资源

5.1sessionInfo ()

马丁·摩根(martin.morgan@roswellpark.org）
罗斯威尔公园癌症研究所，布法罗，纽约
2015年10月5日至9日

3.2.1之上的`农庄`而且`GRangesList`类

4．1BAM文件的对齐读取-`GenomicAlignments`

5.1`sessionInfo ()`