1核心基础设施

1．1GenomicRanges

Alt

1.1.1业务范围

Alt范围代数

范围

IRanges
- start ()/结束()/宽度()
- 类似,长度()、子集等。
- “元数据”,mcols ()
农庄
- ' seqnames '(染色体)，' strand '
- Seqinfo,包括seqlevels而且seqlengths

Intra-range方法

独立于同一对象中的其他范围
GRanges变体链感知
转变()，狭窄的()，侧面()，发起人()，调整()，限制()，削减()
看到" ? intra-range-methods

Inter-range方法

取决于同一对象中的其他范围
range ()，reduce ()，空白()，分离()
覆盖()(!)
看到" ? inter-range-methods

Between-range方法

两个(或多个)范围对象的函数
findOverlaps ()，countOverlaps ()、……% / %，%在%，% %外；联盟()，相交()，setdiff ()，punion ()，pintersect ()，psetdiff ()

例子

library(genome icranges) gr <- GRanges("A"， IRanges(c(10,20,22)， width=5)， "+") shift(gr, 1) # intra-range . #

## GRanges对象，3个范围和0个元数据列:## seqnames ranges strand ##    ## [1] A [11,15] + ## [2] A [21,25] + ## [3] A [23,27] + ## ------- # seqinfo:来自一个未指定基因组的1个序列;没有seqlengths

Range (gr) # interrange

## seqnames range string# #    ## [1] A [10,26] + ## ------- # seqinfo:来自一个未指定基因组的1个序列;没有seqlengths

Reduce (gr) # inter-range

## GRanges对象，2个范围和0个元数据列:## seqnames ranges strand ##    ## [1] A [10,14] + ## [2] A [20,26] + ## ------- # seqinfo:来自一个未指定基因组的1个序列;没有seqlengths

snps <- GRanges("A"， IRanges(c(11,17,24)， width=1)) findOverlaps(snps, gr) # between-range . snps <- GRanges("A"， IRanges(c(11,17,24)， width=1

## Hits对象有3个Hits和0个元数据列:## queryHits subjectHits ##   ## [1] 1 1 ## [2] 3 2 ## [3] 3 3 # ------- ## queryLength: 3 / subjectLength: 3

Setdiff (range(gr)， gr) # '内含子'

## seqnames range string# #    ## [1] A [15,19] + ## ------- # seqinfo:来自一个未指定基因组的1个序列;没有seqlengths

1．2Biostrings

参见前面的例子B.1简介Bioconductor

1.3GenomicAlignments

对齐读取的表示。参见下面的练习。

1．4注释资源

Bioconductor提供对“注释”资源的广泛访问(参见AnnotationDatabiocViews层次结构);在这个实验中要探索的一些有趣的例子包括:
biomaRt，PSICQUIC，KEGGREST和其他用于查询在线资源的包;每一本书都有翔实的小插曲。
AnnotationDbi是基石吗注释数据Bioconductor提供的软件包。
- org包(例如,org.Hs.eg.db)包含不同基因标识符之间的映射，例如ENTREZ和SYMBOL。帮助页中描述了这些包的基本接口选择吗?
- TxDb包(例如,TxDb.Hsapiens.UCSC.hg19.knownGene)包含基因模型(外显子坐标、外显子/转录本关系等)，这些模型来自于常见的来源，如UCSC基因组浏览器的hg19 knownGene轨迹。可以查询这些包，例如，如exonsBy ?页检索所有按基因或转录分组的外显子。
- BSgenome包(例如,BSgenome.Hsapiens.UCSC.hg19)包含模式生物的整个基因组。
VariantAnnotation而且ensemblVEP提供对序列注释功能的访问，例如，识别编码变体;看到VariantAnnotation介绍Vignette做了一个简短的介绍。
快速看一下标注工作流程在Bioconductor的网站上。

静态包

org . *:标识符映射

select ()，列()，键()
mapIds ()

org <- org. hs.eg.db select(org， "BRCA1"， c("集合名")，"符号")

'select()'返回键和列之间的1:1映射

BRCA1 ENSG00000012048乳腺癌

TxDb。*:基因模型

外显子()，成绩单()，基因()，发起人(),……
exonsBy ()，transcriptsBy ()
select ()等。

txdb <- txdb . hsapiens . ucsc .hg19. knowngene . txdb <- txdb . hsapiens . ucsc .hg19. knowngenepromoters(txdb)

## seqnames ranges strand | tx_id tx_name ##    |   ## [1] chr1 [9874, 12073] + | 1 uc001aaa。3 ## [2] chr1 [9874, 12073] + | 2 uc010nxq。1 ## [3] chr1 [9874, 12073] + | 3 uc010nxr。1## [4] chr1 [ 67091, 69290] + | 4 uc001aal.1 ## [5] chr1 [319084, 321283] + | 5 uc001aaq.2 ## ... ... ... ... . ... ... ## [82956] chrUn_gl000237 [ 2487, 4686] - | 82956 uc011mgu.1 ## [82957] chrUn_gl000241 [36676, 38875] - | 82957 uc011mgv.2 ## [82958] chrUn_gl000243 [ 9501, 11700] + | 82958 uc011mgw.1 ## [82959] chrUn_gl000243 [11608, 13807] + | 82959 uc022brq.1 ## [82960] chrUn_gl000247 [ 5617, 7816] - | 82960 uc022brr.1 ## ------- ## seqinfo: 93 sequences (1 circular) from hg19 genome

基于网络的资源，例如biomaRt，PSICQUIC，GEOquery,……

基因组规模的资源AnnotationHub

library(AnnotationHub) hub = AnnotationHub()

## snapshotDate(): 2016-05-12

中心

## snapshotDate(): 2016-05-12 ## $dataprovider: BroadInstitute, UCSC, synbl, EncodeDCC, NCBI, ftp://ftp.ncbi.nlm.nih.gov/gene…物种:智人(Homo sapiens)， Mus musculus, Bos taurus, Pan troglodytes, Danio rerio, Rattus norvegi…## # $rdataclass: GRanges, BigWigFile, FaFile, OrgDb, TwoBitFile, ChainFile, inparanid8db, data.fr…## #附加的mcols(): taxonomyid，基因组，描述，标签，sourceurl, sourcetype ## #检索记录，例如，'object[["AH2"]]' ## ## title ## AH2 | Ailuropoda_melanoleuca.ailMel1.69.dna.toplevel。fa ## AH3 | ailuropoda_melanoleuca . ailmel 1.69. dna_m .toplevel。fa ## AH4 | Ailuropoda_melanoleuca.ailMel1.69.dna_sm.toplevel。Ailuropoda_melanoleuca.ailMel1.69.ncrna。Ailuropoda_melanoleuca.ailMel1.69.pep.all。Fa ## ... ...## AH50768 | Xiphophorus_maculatus.Xipmac4.4.2.cdna.all。2bit ## AH50769 | Xiphophorus_maculatus.Xipmac4.4.2.dna_rm.toplevel.2bit ## AH50770 | Xiphophorus_maculatus.Xipmac4.4.2.dna_sm.toplevel.2bit ## AH50771 | Xiphophorus_maculatus.Xipmac4.4.2.dna.toplevel.2bit ## AH50772 | Xiphophorus_maculatus.Xipmac4.4.2.ncrna.2bit

查询(hub, c(" ensemble "， "81.gtf"))

## snapshotDate(): 2016-05-12 ## $dataprovider: Ensembl ## # $species: Ailuropoda melanoleuca, Anas platyrhynchos, Anolis carolinensis, Astyanax mexicanus，…## # $rdataclass: GRanges ## # additional mcols(): taxonomyid, genome, description, tags, sourceurl, sourcetype ## #检索记录，例如，'object[["AH47937"]]' ## ## title ## AH47937 | Ailuropoda_melanoleuca.ailMel1.81。gtf ## AH47938 | Anas_platyrhynchos.BGI_duck_1.0.81。gtf ## AH47939 | Anolis_carolinensis.AnoCar2.0.81。gtf ## AH47940 | Astyanax_mexicanus.AstMex102.81。gtf ## AH47941 | Bos_taurus.UMD3.1.81。GTF ## ... ...Tupaia_belangeri.TREESHREW.81。gtf ## AH48002 | Tursiops_truncatus.turTru1.81。gtf ## AH48003 | Vicugna_pacos.vicPac1.81。gtf ## AH48004 | xenopus_tropical . jgi_4.2.81。gtf ## AH48005 | Xiphophorus_maculatus.Xipmac4.4.2.81.gtf

中心[[" AH48004 "]]

#从缓存/home/lori/中加载。AnnotationHub / 54310”

##使用猜测工作填充seqinfo

包含581787范围和19个元数据列的GRanges对象:# # seqnames范围链|源类型分阶段# # < Rle > < IRanges > < Rle > | <因素> <因素> <数字> <整数> # # [1]GL172637.1[148] - |运用基因< NA > < NA > # # [2] GL172637.1[148] - |运用记录< NA > < NA > # # [3] GL172637.1[148] - |运用外显子< NA > < NA > # # [4] GL172637.1(606、720)- - - - - - |运用基因< NA > < NA > # # [5] GL172637.1(606、720)- - - - - - |运用记录< NA > < NA > ## ... ... ... ... . ... ... ... ...## [581783] GL180121.1 [865,867] + | integrbl start_codon  0 ## [581784] GL180121.1 [992,1334] + | integrbl exon   ## [581785] GL180121.1 [992,1334] + | integrbl CDS  2 ## [581786] GL180121.1 [1817,1835] + | integrbl exon   ## [581787] GL180121.1 [1817,1867] GL180121.1 [181784] GL180121.1 [1817,1334]1835] + | ensemble bl CDS  1 ## gene_id gene_version gene_name gene_source gene_biotype ##      ## [1] ENSXETG00000030486 1 U5 ensemble snRNA ## [2] ENSXETG00000030486 1 U5 ensemble snRNA ## [3] ENSXETG00000030486 1 U5 ensemble snRNA ## [4] ENSXETG00000031766 1 U5 ensemble snRNA ## [5] ENSXETG00000031766 1 U5 ensemble snRNA ## ... ... ... ... ... ...# # [581783] ENSXETG00000033193 1 < NA >运用protein_coding # # [581784] ENSXETG00000033193 1 < NA >运用protein_coding # # [581785] ENSXETG00000033193 1 < NA >运用protein_coding # # [581786] ENSXETG00000033193 1 < NA >运用protein_coding # # [581787] ENSXETG00000033193 1 < NA >运用protein_coding # # transcript_id transcript_version transcript_name transcript_source # # <人物> <数字> <人物> <人物> # # [1]< NA > < NA > < NA > < NA > # # [2] ENSXETT00000065882 1 u5 - 201运用# # [3]ENSXETT00000065882 1 U5-201 ensembl ## [4]     ## [5] ENSXETT00000061796 1 U5-201 ensembl ## ... ... ... ... ... ## [581783] ENSXETT00000053735 2  ensembl ## [581784] ENSXETT00000053735 2  ensembl ## [581785] ENSXETT00000053735 2  ensembl ## [581786] ENSXETT00000053735 2  ensembl ## [581787] ENSXETT00000053735 2  ensembl ## transcript_biotype exon_number exon_id exon_version protein_id ##      ## [1]      ## [2] snRNA     ## [3] snRNA 1 ENSXETE00000393193 1  ## [4]      ## [5] snRNA     ## ... ... ... ... ... ... ## [581783] protein_coding 1    ## [581784] protein_coding 2 ENSXETE00000303775 2  ## [581785] protein_coding 2   ENSXETP00000053735 ## [581786] protein_coding 3 ENSXETE00000416553 1  ## [581787] protein_coding 3   ENSXETP00000053735 ## protein_version ##  ## [1]  ## [2]  ## [3]  ## [4]  ## [5]  ## ... ... ## [581783]  ## [581784]  ## [581785] 2 ## [581786]  ## [581787] 2 ## ------- ## seqinfo: 2375 sequences from JGI_4 genome; no seqlengths

1．5SummarizedExperiment

' feature ' x ' sample '分析()
colData ()描述样本的数据帧
rowRanges ()农庄/GRangeList或用于描述特征的数据帧

exptData ()来描述整个物体

库(摘要实验)库(气道)数据(气道)气道

## class: rangedsummarizeexperiment ## dim: 64102 8 ## metadata(1): " ## assays(1): counts ## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

colData(气管)

## DataFrame with 8行9列## SampleName cell dex albut运行avgLength Experiment Sample ##         ## SRR1039508 GSM1275862 N61311 untrt untrt SRR1039508 126 SRX384345 SRS508568 ## SRR1039509 GSM1275863 N61311 trt untrt SRR1039509 126 SRX384346 SRS508567 ## SRR1039513 GSM1275867 N052611 untrt untrt SRR1039513 87 SRX384350 SRS508572 ## SRR1039513SRR1039516 GSM1275870 N080611 untrt untrt SRR1039516 120 SRX384353 SRS508575 ## SRR1039517 GSM1275871 N080611 trt untrt SRR1039517 126 SRX384354 SRS508576 ## SRR1039520 GSM1275874 N061011 untrt untrt SRR1039521 SRX384357 srr1039579 ## SRR1039521 GSM1275875 N061011 trt untrt SRR1039521 98 SRX384358 SRS508580 ##生物样本## <因子> ## SRR1039508 SAMN02422675 ## SRR1039513 SAMN02422670 ## SRR1039516 SAMN02422682 ## SRR1039517 SAMN02422673# srr1039520 samn02422683 # srr1039521 samn02422677

气道[，气道$dex %in% "trt"]

## class: rangedsummarizeexperiment ## dim: 64102 4 ## metadata(1): " ## assays(1): counts ## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(4): SRR1039509 SRR1039513 SRR1039517 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

chr14 <- as(seqinfo(气道)，"GRanges")["14"]气道[气道%超过% chr14，]

## class: rangedsummarizeexperiment ## dim: 2244 8 ## metadata(1): " ## assays(1): counts ## rownames(2244): ENSG00000006432 ENSG00000009830…ENSG00000273259 ENSG00000273307 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

2练习

2.1GenomicAlignments

的RNAseqData.HNRNPC.bam.chr14包是一个实验数据包的例子。它包含一个用于基因敲除实验的BAM文件的子集，如RNAseqData.HNRNPC.bam.chr14 ?．加载包并获得BAM文件的路径。

库(RNAseqData.HNRNPC.bam.chr14) fls = RNAseqData.HNRNPC.bam。chr14_BAMFILES basename (fls的)

## [1] "ERR127306_chr14。砰”“ERR127307_chr14。砰”“ERR127308_chr14。砰”“ERR127309_chr14。“##[5]”ERR127302_chr14。砰”“ERR127303_chr14。砰”“ERR127304_chr14。bam ERR127305_chr14.bam”

创建BamFileList ()，基本上告诉R这些是BAM文件的路径，而不是电子表格中的文本文件。

库(基因组校准)bfls = BamFileList(fls) bfl = bfls[[1]]

输入和探索对齐。看到readGAlignments ?而且GAlignments ?有关如何操作这些对象的详细信息。

ga = readGAlignments(bfl) ga

与800484年# # GAlignments对象对齐和0元数据列:# # seqnames链雪茄qwidth开始结束宽度njunc # # < Rle > < Rle > <人物> <整数> <整数> <整数> <整数> <整数> # # [1]chr14 + 72 72 19069583 19069654 72 0 # # [2] chr14 + 72 72 19363738 19363809 72 0 # # [3] chr14 - 72 72 19363755 19363826 72 0 # # [4] chr14 + 72 72 19369799 19369870 72 0 # # [5] chr14 - 72 72 19369828 19369899 72 0  ## ... ... ... ... ... ... ... ... ...## [800480] chr14 - 72M 72 106989780 106989851 72 0 ## [800481] chr14 + 72M 72 106994763 106994834 72 0 ## [800482] chr14 - 72M 72 106994819 106994890 72 0 ## [800483] chr14 + 72M 72 107003080 107003151 72 0 ## [800484] chr14 - 72M 72 107003171 107003242 72 0 ## ------- ## seqinfo:来自未知基因组的93个序列

表(链(ga))

## ## + - * ## 400242 400242 0

许多读书人都有“72M”雪茄。这是什么意思?能否创建一个不包含此雪茄的读取子集?解读一些非72m雪茄。知道这些雪茄代表什么吗?

尾(排序(表(雪茄(ga))))

## ## 18m123n54m 36m123n36m 64m316n8m 38m670n34m 35m123n37m 72米## 225 228 261 264 272 603939

ga[雪茄(ga) != "72M"]

GAlignments对象具有196545对齐和0元数据列:## seqnames strand cigar qwidth start end width njunc# #         ## [1] chr14 - 64M1I7M 72 19411677 19411747 71 0 ## [2] chr14 + 55M2117N17M 72 19650072 19652260 2189 1 ## [3] chr14 - 43M2117N29M 72 19650084 19652272 2189 1 ## [5] chr14 + 38M2117N34M 72 19650087 196522275 2189 1 ## ... ... ... ... ... ... ... ... ...## [196541] chr14 - 51M1D21M 72 106950429 106950501 73 0 ## [196542] chr14 + 31M1I40M 72 106960410 106960480 71 0 ## [196543] chr14 + 52M1D20M 72 106965156 106965228 73 0 ## [196544] chr14 - 13M1D59M 72 106965195 106965267 73 0 ## [196545] chr14 - 6M1D66M 72 106965202 106965274 73 0 ## ------- ## seqinfo:来自未知基因组的93个序列

使用函数summarizeJunctions ()识别由复杂雪茄的reads所跨越的基因组区域。你会用这个论点吗with.revmap = TRUE提取支持特定(例如，第一个)连接的读取?

summarizeJunctions (ga)

与4635年# #农庄对象范围和3元数据列:# # seqnames范围链|得分plus_score minus_score # # < Rle > < IRanges > < Rle > | <整数> <整数> <整数> # # [1]chr14(19650127、19650127)* | 4 2 2 # # [2]chr14(19650127、19650127)* | 1 1 0 # # [3]chr14(19652355、19652355)* | 8 7 1 # # [4]chr14(19652355、19652355)* | 1 1 0 # # [5]chr14(19653773、19653773)* | 9 5 4  ## ... ... ... ... . ... ... ...## [4631] chr14 [106912703, 106922227] * | 10 1 ## [4632] chr14 [106938165, 106938301] * | 10 2 8 ## [4633] chr14 [106938645, 106944774] * | 24 7 17 ## [4634] chr14 [106944969, 106950170] * | 7 6 1 ## [4635] chr14 [106950323, 106960260] * | 1 10 ## ------- ## seqinfo:来自未知基因组的93个序列

joins <- summarizejunction (ga, with.revmap=TRUE) ga[joins $revmap[[1]]]

## seqnames strand cigar qwidth start end width njunc# #         ## [1] chr14 + 55M2117N17M 72 19650072 19652260 2189 1 ## [2] chr14 - 43M2117N29M 72 19650084 19652272 2189 1 ## [3] chr14 - 40M2117N32M 72 19650087 19652275 2189 1 ## ------- ## seqinfo: 93个序列来自一个未指定的基因组

可以对BAM文件执行其他操作，例如，计算“覆盖率”(读取重叠的每个基数)。

覆盖(bfl) chr14美元

长度为107349540，运行493510的整数rle ##长度:19069582 72 294083 17 55…72 19 72 346298 ##取值:0 1 0 1 2…1 0 1 0

2．2注释和GenomicFeatures

加载org包智人．

库(org.Hs.eg.db)

使用select ()用Entrez标识符和不太正式的基因名称注释HNRNPC基因符号。创建SYMBOL和ENTREZID之间的映射mapIds ()．

select(org.Hs.eg.db， "HNRNPC"， c("ENTREZID"， "GENENAME")， "SYMBOL")

'select()'返回键和列之间的1:1映射

HNRNPC 3183异质核核糖核蛋白C (C1/C2)

sym2eg <- mapIds(org.Hs.eg.db， "HNRNPC"， "ENTREZID"， "SYMBOL")

'select()'返回键和列之间的1:1映射

加载UCSC hg19 knownGene轨道的TxDb包

txdb <- txdb . hsapiens . ucsc .hg19. knowngene . txdb <- txdb . hsapiens . ucsc .hg19. knowngene

提取HNRNPC基因的基因坐标，以及按基因分组的外显子。

gns <- genes(txdb) exonsBy(txdb， "gene")[sym2eg]

# # GRangesList对象长度1:# # # # 3183美元农庄对象2 19范围和元数据列:# # seqnames范围链| exon_id exon_name # # < Rle > < IRanges > < Rle > | <整数> <人物> # # [1]chr14(21677296、21677296)- | 184100 < NA > # # [2] chr14(21678927、21678927)- | 184101 < NA > # # [3] chr14(21679565、21679565)- | 184102 < NA > # # [4] chr14(21679565、21679565)- | 184103 < NA > # # [5] chr14(21679969、21679969)- | 184104 < NA > ## ... ... ... ... . ... ...## [15] chr14 [21702237, 21702388] - | 184114  ## [16] chr14 [21730760, 21730927] - | 184115  ## [17] chr14 [21731470, 21731495] - | 184116  ## [18] chr14 [21731826,21731988] - | 184117  ## [19] chr14 [21737457, 21737638] - | 184118  ## ## ------- ## seqinfo:来自hg19基因组的93个序列(1个循环)

使用基因坐标查询特定基因组区域的BAM文件;看到? ScanBamParam ()用于其他限制数据输入的方法。

library(Rsamtools) param <- ScanBamParam(which=gns[sym2eg]) readGAlignments(bfl, param=param)

与5422年# # GAlignments对象对齐和0元数据列:# # seqnames链雪茄qwidth开始结束宽度njunc # # < Rle > < Rle > <人物> <整数> <整数> <整数> <整数> <整数> # # [1]chr14 + 72 72 21677347 21677418 72 0 # # [2] chr14 + 72 72 21677352 21677423 72 0 # # [3] chr14 + 72 72 21677354 21677425 72 0 # # [4] chr14 + 72 72 21677355 21677426 72 0 # # [5] chr14 + 72 72 21677373 21677444 72 0  ## ... ... ... ... ... ... ... ... ...## [5418] chr14 - 72M 72 21737512 21737583 72 0 ## [5419] chr14 - 72M 72 21737520 21737591 72 0 ## [5420] chr14 - 72M 72 21737520 21737591 72 0 ## [5421] chr14 - 72M 72 21737521 21737592 72 0 ## [5422] chr14 - 72M 72 21737534 21737605 72 0 ## ------- ## seqinfo:来自未知基因组的93个序列

2．3SummarizedExperiment

的气道实验数据包总结了一项研究人类平滑肌气道细胞系经地塞米松处理的RNA-seq实验。加载库和数据集。

库(气道)数据(气道)气道

## class: rangedsummarizeexperiment ## dim: 64102 8 ## metadata(1): " ## assays(1): counts ## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

气道是一个例子吗SummarizedExperiment类。探索它分析()(每个样本中感兴趣的基因组区域重叠的reads计数矩阵)，colData ()(每个样本的描述)，和rowRanges ()(每个感兴趣区域的描述;这里每个区域都是一个ensemble基因)。

X <-化验(气道)级(X)

##[1]“矩阵”

暗(x)

## [1] 64102

头(x)

# # SRR1039508 SRR1039509 SRR1039512 SRR1039513 SRR1039516 SRR1039517 SRR1039520 # # ENSG00000000003 679 448 873 408 1138 1047 770 # # ENSG00000000005 0 0 0 0 0 0 0 # # ENSG00000000419 467 515 621 365 587 799 417 # # ENSG00000000457 260 211 263 164 245 331 233 55 # # ENSG00000000460 60 40 35 78 63 76 # # ENSG00000000938 0 0 2 0 1 0 0 # # SRR1039521 # # 572 # # ENSG00000000005 ENSG00000000003 0 # # ENSG00000000419 508 60 # # # # 229 # # ENSG00000000460 ENSG00000000457 ENSG00000000938 0

colData(气管)

## DataFrame with 8行9列## SampleName cell dex albut运行avgLength Experiment Sample ##         ## SRR1039508 GSM1275862 N61311 untrt untrt SRR1039508 126 SRX384345 SRS508568 ## SRR1039509 GSM1275863 N61311 trt untrt SRR1039509 126 SRX384346 SRS508567 ## SRR1039513 GSM1275867 N052611 untrt untrt SRR1039513 87 SRX384350 SRS508572 ## SRR1039513SRR1039516 GSM1275870 N080611 untrt untrt SRR1039516 120 SRX384353 SRS508575 ## SRR1039517 GSM1275871 N080611 trt untrt SRR1039517 126 SRX384354 SRS508576 ## SRR1039520 GSM1275874 N061011 untrt untrt SRR1039521 SRX384357 srr1039579 ## SRR1039521 GSM1275875 N061011 trt untrt SRR1039521 98 SRX384358 SRS508580 ##生物样本## <因子> ## SRR1039508 SAMN02422675 ## SRR1039513 SAMN02422670 ## SRR1039516 SAMN02422682 ## SRR1039517 SAMN02422673# srr1039520 samn02422683 # srr1039521 samn02422677

rowRanges(气管)

长度为64102的GRangesList对象:## $ENSG00000000003 ## GRanges对象有17个范围和2个元数据列:## seqnames ranges strand | exon_id exon_name ##    |   ## [1] X [99883667,99884983] - | 667145 ENSE00001459322 ## [2] X [99885756, 99885863] - | 667146 ENSE00000868868 ## [3] X [99887482,99887565] - | 667147 ENSE00000401072 ## [4] X [99887538,99887565] - | 667148 ENSE00001849132 ## | 667149 ENSE00003554016 ## ... ... ... ... . ... ...## | 667158 ense00001886883 ## [15] x [99891605,99891803] - | 667159 ense00001855382 ## | 667160 ense00001863395 ## [17] x [99894942,99894988] - | 667161 ense00001828996 ## ##…## <64101 more elements> ## ------- ## seqinfo:来自一个未指定基因组的722个序列(1个圆形)

行名是集合基因标识符。使用mapIds ()从这些映射到基因符号。

symid <- mapIds(org.Hs.eg.db, rownames(气道)，"SYMBOL"， " ensemble ")

'select()'返回1:多个键和列之间的映射

将基因符号添加到总结的实验对象中。

mcols(rowRanges(气道))$symid <- symid

很容易将a子集化SummarizedExperiment行、列和化验，例如，只保留那些样品在泰爱泰党的水平敏捷的因素。访问列数据的元素是常见的，因此有一个捷径。

cidx <- colData(气道)$dex %in% "trt"气道[，cidx]

## class: rangedsummarizeexperiment ## dim: 64102 4 ## metadata(1): " ## assays(1): counts ## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(1): symid ## colnames(4): SRR1039509 SRR1039513 SRR1039517 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

##快捷气道[，气道$dex %in% "trt"]

## class: rangedsummarizeexperiment ## dim: 64102 4 ## metadata(1): " ## assays(1): counts ## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(1): symid ## colnames(4): SRR1039509 SRR1039513 SRR1039517 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

它也很容易执行基于范围的操作SummarizedExperiment对象，例如，查询14号染色体的范围，然后将其子集设置为只包含该染色体上的基因。行上的范围操作非常常见，因此这里也有快捷方式。

chr14 <- as(seqinfo(rowRanges(气道))，"GRanges")["14"] ridx <- rowRanges(气道)%over% chr14气道[ridx，]

## class: rangedsummarizeexperiment ## dim: 2244 8 ## metadata(1): " ## assays(1): counts ## rownames(2244): ENSG00000006432 ENSG00000009830…ENSG00000273259 ENSG00000273307 ## rowData names(1): symid ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

## shortcut chr14 <- as(seqinfo(气道)，"GRanges")["14"]气道[气道%over% chr14，]

## class: rangedsummarizeexperiment ## dim: 2244 8 ## metadata(1): " ## assays(1): counts ## rownames(2244): ENSG00000006432 ENSG00000009830…ENSG00000273259 ENSG00000273307 ## rowData names(1): symid ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

使用分析()而且rowSums ()对象中的所有行气道对象，该对象的读取值为0，与所有示例重叠。的列和分析())，并绘制每个感兴趣特征的阅读量分布的直方图。

2.4AnnotationHub

的表观基因组学计划生成了跨越许多细胞系的调控标记的全基因组地图。

检索表观基因组路线图表AnnotationHub.．.

library(AnnotationHub) hub <- AnnotationHub()

## snapshotDate(): 2016-05-12

查询(hub, c("表观基因组"，"元数据"))

## snapshotDate(): 2016-05-12 ## # names(): AH41830 ## # $dataprovider: BroadInstitute ## # $species: Homo sapiens ## # $rdataclass: data.frame ## # $title: EID_metadata。标签## # $description: EpigenomeRoadMap项目的元数据## # $taxonomyid: 9606 ## # $genome: hg19 ## # $sourcetype:标签## ## $sourceurl: http://egg2.wustl.edu/roadmap/data/byFileType/metadata/EID_metadata.tab ## ## $sourcelastmodifieddate: 2015-02-15 ## # $sourcesize: 18035 ## # $tags: EpigenomeRoadMap，元数据## #检索记录，使用'object[["AH41830"]]'

meta <- hub[["AH41830"]]

#从缓存/home/lori/中加载。AnnotationHub / 47270”

探索元数据，以确定您感兴趣的细胞系;参见元数据由表观基因组路线图项目提供的数据的电子表格版本。

表(元美元解剖学)

## ##肾上腺血骨脑乳房## 1 27 1 13 3 ##子宫颈esc esc_derived fat gi_colon ## 1 8 9 3 3 ## gi_十二指肠gi_食管gi_肠gi_直肠gi_胃## 2 13 3 4 ##心脏ipsc肾肝肺## 4 5 1 2 5 ##肌肉肌肉腿卵巢胰腺胎盘## 7 1 1 2 2 ##皮肤脾脏基质结缔性胸腺血管## 8 1 2 2 2

meta[meta$ANATOMY == "肝脏"，]

EID组颜色助记符STD_NAME ## 64 E066其他#999999 LIV。ADLT肝# 116 E118 ENCODE2012 #000000 live . hepg2。HepG2肝细胞癌细胞株解剖类型年龄性别固体-液体种族成人肝肝原发组织不明混合固体不明hepg2_肝细胞癌肝细胞株男单株或复合SD

使用' EID '查询和检索汇总染色质状态的'助记符'文件

查询(hub, c("E118"， "助记符"))

##记录## snapshotDate(): 2016-05-12 ## # names(): AH46971 ## $dataprovider: BroadInstitute ## ##物种:Homo sapiens ## # $rdataclass: GRanges ## # $title: e118_15_co备注s_mnemonics. BED .gz ## # $description: EpigenomeRoadMap项目的15个状态色质片段## # $taxonomyid: 9606 ## # $genome: hg19 ## ## $sourcetype: BED ## # $sourceurl: http://egg2.wustl.edu/roadmap/data/byFileType/chromhmmSegmentations/ChmmModels/cor…## # $sourcelastmodifieddate: 2013-10-11 ## # $sourcesize: 3231313 ## # $tags: EpigenomeRoadMap, chromhmmsegments, ChmmModels, co备注，E118， ## # ENCODE2012, livehepg2。CNCR, HepG2肝细胞癌细胞系## #检索记录“对象[["AH46971"]]”

E118 <- hub[["AH46971"]]

# #要求(“rtracklayer”)

#从缓存/home/lori/中加载。AnnotationHub / 52411”

E118

与561497范围和4 # #农庄对象元数据列:# # seqnames范围链|简写的名称# # < Rle > < IRanges > < Rle > | <人物> <人物> # # [1]chr10 [113200] * | # # 15 _quies静止/低[2]chr10(113201、119600)* | 14 _reprpcwk弱压抑PolyComb # # [3] chr10(119601、120000)* | 10 _tssbiv二价/准备TSS # # [4] chr10(120001、120200)* | 1 _tssa活跃TSS # # [5] chr10(120201、120400)* | 2 _tssaflnk TSS侧翼活跃  ## ... ... ... ... . ... ...## [561493] chrY [58907201, 58967400] * | 15_Quies静止/低## [561494]chrY [58967401,58972000] * | 9_Het异染色质## [561495]chrY [58972001,58997400] * | 8_ZNF/Rpts ZNF基因&重复## [561496]chrY [58997401,59033600] * | 9_Het异染色质## [561497]chrY [59033601，59373400] * | 15_Quies静默/低## color_name color_code ## <字符> <字符> ##[1]白色#FFFFFF ## [2] Gainsboro #C0C0C0 ##[3]印第安红#CD5C5C ##[4]红# ff0000# #[5]橙色红# ff4500# # ... ... ...##[561493]白色#FFFFFF ## [561494] palturquoise #8A91D0 ##[561495]中海蓝宝石#66CDAA ## [561496] palturquoise #8A91D0 ##[561497]白色#FFFFFF ## ------- # seqinfo:来自hg19基因组的93个序列(1个圆形)

探索对象，例如，制表不同的染色质状态分类(在的名字列)。将对象子集以返回，例如，只返回那些标记为“异染色质”的区域。

表(E118美元名称)

## ##活性TSS双价增强子双价/平衡TSS ## 20010 23155 13214 ##增强子侧翼活性TSS双价TSS/Enh ## 110260 45115 15844 ##基因增强子异染色质静止/低## 14995 31193 61759 ##抑制PolyComb强转录转录。在基因5'和3' ## 44013 32522 2515 ##弱抑制PolyComb弱转录ZNF基因&重复## 60867 83738 2297

E118[E118$name %in% "Heterochromatin"]

GRanges对象有31193个范围和4个元数据列:## seqnames ranges strand | abbr name color_name ##    |    ## [1] chr10 [140201,143800] * | 9_Het Heterochromatin palturquoise ## [2] chr10 [806201,807800] * | 9_Het Heterochromatin palturquoise ## [3] chr10 [842001,843800] * | 9_Het Heterochromatin palturquoise ## [4] chr10 [1024601, 1027200] * | 9_Het Heterochromatin palturquoise ## [5] chr10 [1191601，1192600) * | 9 _het异染色质苍白的宝石绿  ## ... ... ... ... . ... ... ...# # [31189] chrY(58883001、58883001)* | 9 _het异染色质苍白的宝石绿# # [31190]chrY(58890001、58890001)* | 9 _het异染色质苍白的宝石绿# # [31191]chrY(58906401、58906401)* | 9 _het异染色质苍白的宝石绿# # [31192]chrY(58967401、58967401)* | 9 _het异染色质苍白的宝石绿# # [31193]chrY(58997401、58997401)* | 9 _het异染色质苍白的宝石绿# # color_code # # <人物> # 8 a91d0 # # # # [1] [2] # 8 a91d0 # # [3] # 8 a91d0 # # [4] # 8 a91d0 # # # 8 a91d0 [5]  ## ... ...## [31189] #8A91D0 ## [31190] #8A91D0 ## [31191] #8A91D0 ## [31192] #8A91D0 ## [31193] #8A91D0 ## # ------- # seqinfo:来自hg19基因组的93个序列(1个圆形)

你可以，使用TxDb包和基因()而且subsetByOverlaps ()功能，决定有多少基因重叠异色状态，或基因最近的()每个增强器?

2.5biomaRt

参观biomart网站并弄清楚如何浏览数据来检索，例如，染色体21号和22号上的基因。你需要浏览一下套装市场，人类spaiens数据集，为染色体21和22建立过滤器，然后指定您希望返回ensemble基因id属性。

现在做同样的过程biomaRt：

library(biomaRt) head(listMarts()， 3) ## list marts head(listDatasets(useMart(" ensemble "))， 3) ## mart datassets ensemble bl <- ##完全指定的mart useMart(" ensemble "， dataset = " hsapiens_gene_ensemble ") head(listFilters(ensemble)， 3) ## filters myFilter <- "chromosome_name" substr(filterOptions(myFilter, ensemble)， 1,50) ##返回值myValues <- c("21"， "22") head(listAttributes(ensemble)，3) ## attributes myAttributes <- c(" ensemble bl_gene_id"，"chromosome_name") ##集合和查询市场res <- getBM(attributes = myAttributes, filters = myFilter, values = myValues, mart = ensemble)

B.2 -Bioconductor构建块

马丁•摩根martin.morgan@roswellpark.org

2016年5月16 - 17日

内容