1核心基础设施

1．1Biostrings

DNA，氨基酸和其他生物序列。参见前面的示例B.1简介Bioconductor

1．2GenomicRanges

GenomicRanges

农庄():基因组坐标，表示注释(外显子，基因，调控标记，…)和数据(称为峰值，变体，对齐读取)
GRangesList ():基因组坐标分组为列表元素(例如，成对的末端读取;外显子按转录本分组)

1.2.1 "业务范围

Alt范围代数

范围

IRanges
- start ()/结束()/宽度()
- 类似,长度()，子集，等等。
- “元数据”,mcols ()
农庄
- ' seqnames '(染色体)，' strand '(链)
- Seqinfo,包括seqlevels而且seqlengths

Intra-range方法

独立于同一对象中的其他范围
GRanges变体链感知
转变()，狭窄的()，侧面()，发起人()，调整()，限制()，削减()
看到" ? intra-range-methods

Inter-range方法

取决于同一对象中的其他范围
range ()，reduce ()，空白()，分离()
覆盖()(！)
看到" ? inter-range-methods

Between-range方法

两个(或多个)范围对象的函数
findOverlaps ()，countOverlaps ()、……% / %，%在%，% %外；联盟()，相交()，setdiff ()，punion ()，pintersect ()，psetdiff ()

例子

library(GenomicRanges) gr <- GRanges("A"， IRanges(c(10,20,22)， width=5)， "+") shift(gr, 1) # intra-range

## seqnames ranges strand ##    ## [1] A [11,15] + ## [2] A [21,25] + ## [3] A [23,27] + ## ------- ## seqinfo:来自未指定基因组的1个序列;没有seqlengths

Range (gr) # inter-range

## seqnames ranges strand ##    ## [1] A [10,26] + ## ------- ## seqinfo: 1个来自未指定基因组的序列;没有seqlengths

减少(gr) # inter-range

## seqnames ranges strand ##    ## [1] A [10,14] + ## [2] A [20,26] + ## ------- ## seqinfo: 1个来自未指定基因组的序列;没有seqlengths

snps <- GRanges("A"， IRanges(c(11,17,24)， width=1)) finoverlaps (snps, gr) # between-range

##命中3个命中和0元数据列的对象:## queryHits subjectHits ##   ## [1] 1 1 ## [2] 3 2 ## [3] 3 3 ## ------- ## # queryLength: 3 / subjectLength: 3

Setdiff (range(gr)， gr) # '内含子'

## seqnames ranges strand ##    ## [1] A [15,19] + ## ------- ## seqinfo: 1个来自未指定基因组的序列;没有seqlengths

1.3GenomicAlignments

对齐的读取表示。请看下面的练习。

1．4SummarizedExperiment

SummarizedExperiment

$Alt SummarizedExperiment$

坐标特征x样本“分析”与行(特征)和列(样本)描述。
colData ()数据帧用于描述样本
rowRanges ()农庄/GRangeList或用于描述特征的数据帧
exptData ()来描述整个物体

分析()可以是任何类似矩阵的对象，包括非常大的磁盘上的表示，如HDF5Array

库(气道)数据(气道)气道

##类:rangedsummarizeexperimental ## dim: 64102 8 ##元数据(1):“## assays(1):计数## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

colData(气管)

运行avgLength实验样本##         SRR1039508 SRR1039508 126 SRX384345 srr10395068 # SRR1039509 GSM1275863 N61311 trt untrt SRR1039509 126 SRX384346 srr508567 # SRR1039512 GSM1275866 N052611 trt untrt SRR1039512 126 SRX384349 srr508571 # SRR1039513 GSM1275867 N052611 trt untrt SRR1039513 87 SRX384350 SRS508572 ##SRR1039516 GSM1275870 N080611不被接收SRR1039516 120 SRX384353 srr508575 ## SRR1039517 GSM1275871 N080611不被接收SRR1039517 126 SRX384354 SRS508576 ## SRR1039520 GSM1275874 n06101011不被接收srr1039579 ## SRR1039521 GSM1275875 n06101011不被接收SRR1039508 SAMN02422669 ## SRR1039509 SAMN02422675 ## SRR1039512 SAMN02422678 ## SRR1039516 SAMN02422682 ## SRR1039517 SAMN02422673 ##生物样本## ### srr1039520 samn02422683 ## srr1039521 samn02422677

气道[，气道$dex %in% "trt"]

##类:rangedsummarizeexperimental ## dim: 64102 4 ##元数据(1):“## assays(1):计数## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(4): SRR1039509 SRR1039513 SRR1039517 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

chr14 <- as(seqinfo(气道)，"GRanges")["14"]气道[气道%over% chr14，]

##类:rangedsummarizeexperiment ## dim: 2244 8 ##元数据(1):“## assays(1):计数## rownames(2244): ENSG00000006432 ENSG00000009830…ENSG00000273259 ENSG00000273307 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

1．5注释资源

Bioconductor提供对“注释”资源的广泛访问(请参阅AnnotationDatabiocViews层次结构);本实验中需要探索的一些有趣的例子包括:
biomaRt，PSICQUIC，KEGGREST和其他用于查询在线资源的软件包;每一个都有信息丰富的小插图。
AnnotationDbi是基石吗注释数据Bioconductor提供的软件包。
- org包(例如,org.Hs.eg.db)包含不同基因标识符之间的映射，如ENTREZ和SYMBOL。帮助页描述了这些包的基本接口选择吗?
- TxDb包(例如,TxDb.Hsapiens.UCSC.hg19.knownGene)包含基因模型(外显子坐标、外显子/转录本关系等)，这些模型来自UCSC基因组浏览器的hg19已知基因轨迹等共同来源。这些包可以查询，例如，如exonsBy ?页检索按基因或转录本分组的所有外显子。
- BSgenome包(例如,BSgenome.Hsapiens.UCSC.hg19)包含模式生物的完整基因组。
VariantAnnotation而且ensemblVEP提供对序列注释工具的访问，例如，识别编码变体;看到VariantAnnotation介绍简要介绍的小插图。
快速看一下注释工作流程在Bioconductor网站上。

静态包

org . *:标识符映射

select ()，列()，键()
mapIds ()

library(org. hs.eg.db) org <- org. hs.eg.db select(org， "BRCA1"， c("ENSEMBL"， "GENENAME")， "SYMBOL")

## 'select()'返回键和列之间的1:1映射

符号集合GENENAME BRCA1 ENSG00000012048 BRCA1, DNA修复相关

TxDb。*:基因模型

外显子()，成绩单()，基因()，发起人(),……
exonsBy ()，transcriptsBy ()
select ()等。

txdb <- txdb . hsapiens . ucsc .hg19. knowngene . library(txdb . hsapiens . ucsc .hg19. knowngenepromoters(txdb)

## seqnames ranges strand | tx_id tx_name ##    |   ## [1] chr1 [9874,12073] + | 1 uc001aaa。3 ## [2] chr1 [9874, 12073] + | 2 uc010nxq。1 ## [3] chr1 [9874, 12073] + | 3 uc010nxr。1## [4] chr1 [ 67091, 69290] + | 4 uc001aal.1 ## [5] chr1 [319084, 321283] + | 5 uc001aaq.2 ## ... ... ... ... . ... ... ## [82956] chrUn_gl000237 [ 2487, 4686] - | 82956 uc011mgu.1 ## [82957] chrUn_gl000241 [36676, 38875] - | 82957 uc011mgv.2 ## [82958] chrUn_gl000243 [ 9501, 11700] + | 82958 uc011mgw.1 ## [82959] chrUn_gl000243 [11608, 13807] + | 82959 uc022brq.1 ## [82960] chrUn_gl000247 [ 5617, 7816] - | 82960 uc022brr.1 ## ------- ## seqinfo: 93 sequences (1 circular) from hg19 genome

基于网络的资源，例如:biomaRt，PSICQUIC，GEOquery,……

基因组规模的资源通过AnnotationHub

library(AnnotationHub) hub =注解hub ()

## snapshotDate(): 2017-02-07

中心

##注释中心37972条记录## # snapshotDate(): 2017-02-07 ## $dataprovider: BroadInstitute, UCSC, Ensembl, Haemcode, Inparanoid8, ftp://ftp.ncbi.nlm.nih.go…## # $物种:智人，小家鼠，牛牛，泛穴居人，Danio rerio, Rattus norvegi…## # $rdataclass: GRanges, BigWigFile, FaFile, TwoBitFile, ChainFile, Rle, in偏执狂8db, OrgDb, En…## #附加mcols(): taxonomyid，基因组，描述，coordinate_1_based, maintainer， ## # rdatadateadded, prepareerclass, tags, rdatapath, sourceurl, sourcetype ## #检索记录，例如，'object[["AH2"]]]' ## ## title ## AH2 | ailuropoda_melanoleuca . ailmel1.90 .dna.toplevel。a: a: a: a: a: d: a: a: aailmel1.69 .dna_sm. topllevel。aiuropoda_melanoleuca . ailmel1.69 .ncrnaa ## AH6 bb0 . ailmel1.69 .pep.all。Fa ## ... ...| ensemble 87 EnsDb for Tursiops Truncatus ## AH53250 | ensemble 87 EnsDb for Vicugna Pacos ## AH53251 | ensemble 87 EnsDb for Xiphophorus Maculatus ## AH53252 | Ensembl 87 EnsDb for Xenopus Tropicalis

查询(hub, c("ensembl"， "81.gtf"))

##注释中心有69条记录## #快照日期():2017-02-07 ## $dataprovider:集合## # $物种:Ailuropoda melanoleuca, Anas platyrhynchos, Anolis carolinensis, Astyanax mexicanus，…## # $rdataclass: GRanges ## #附加mcols(): taxonomyid，基因组，描述，coordinate_1_based, maintainer， ## # rdatadateadded，准备类，标签，rdatapath, sourceurl, sourcetype ## #检索记录，例如，'object[["AH47937"]]]' ## ## title ## AH47937 | Ailuropoda_melanoleuca.ailMel1.81。Anas_platyrhynchos.BGI_duck_1.0.81。Anolis_carolinensis.AnoCar2.0.81。Astyanax_mexicanus.AstMex102.81。gtf ## AH47941 |公牛。umd3.1.81。GTF ## ... ...Tupaia_belangeri.TREESHREW.81。Tursiops_truncatus.turTru1.81。Vicugna_pacos.vicPac1.81。gtf ## AH48004 | Xenopus_tropicalis.JGI_4.2.81。xphophorus_maculatus . xipmac4.4.81 .gtf ## AH48005 |

中心[[" AH48004 "]]

##从缓存/home/mtmorgan//加载AnnotationHub / 54310”

##使用猜测工作填充seqinfo

## GRanges对象，范围581787,19个元数据列:# # seqnames范围链|源类型分阶段# # < Rle > < IRanges > < Rle > | <因素> <因素> <数字> <整数> # # [1]GL172637.1[148] - |运用基因< NA > < NA > # # [2] GL172637.1[148] - |运用记录< NA > < NA > # # [3] GL172637.1[148] - |运用外显子< NA > < NA > # # [4] GL172637.1(606、720)- - - - - - |运用基因< NA > < NA > # # [5] GL172637.1(606、720)- - - - - - |运用记录< NA > < NA > ## ... ... ... ... . ... ... ... ...## [581783] GL180121.1 [865, 867] + | ensemble start_codon  0 ## [581784] GL180121.1 [992, 1334] + | ensembl外显子  ## [581785] GL180121.1 [992, 1334] + | ensembl CDS  2 ## [581786] GL180121.1 [1817,1835] + | ensembl外显子  ## [581787] GL180121.1 [1817, 1817]1835] + | ensembl CDS  1 ## gene_id gene_version gene_name gene_source gene_biotype ##      ## [1] ENSXETG00000030486 1 U5 ensembl snRNA ## [2] ENSXETG00000030486 1 U5 ensembl snRNA ## [3] ENSXETG00000030486 1 U5 ensembl snRNA ## [4] ENSXETG00000031766 1 U5 ensembl snRNA ## [5] ENSXETG00000031766 1 U5 ensembl snRNA ## ... ... ... ... ... ...# # [581783] ENSXETG00000033193 1 < NA >运用protein_coding # # [581784] ENSXETG00000033193 1 < NA >运用protein_coding # # [581785] ENSXETG00000033193 1 < NA >运用protein_coding # # [581786] ENSXETG00000033193 1 < NA >运用protein_coding # # [581787] ENSXETG00000033193 1 < NA >运用protein_coding # # transcript_id transcript_version transcript_name transcript_source # # <人物> <数字> <人物> <人物> # # [1]< NA > < NA > < NA > < NA > # # [2] ENSXETT00000065882 1 u5 - 201运用# # [3]ENSXETT00000065882 1 U5-201 ensembl ## [4]     ## [5] ENSXETT00000061796 1 U5-201 ensembl ## ... ... ... ... ... ## [581783] ENSXETT00000053735 2  ensembl ## [581784] ENSXETT00000053735 2  ensembl ## [581785] ENSXETT00000053735 2  ensembl ## [581786] ENSXETT00000053735 2  ensembl ## [581787] ENSXETT00000053735 2  ensembl ## transcript_biotype exon_number exon_id exon_version protein_id ##      ## [1]      ## [2] snRNA     ## [3] snRNA 1 ENSXETE00000393193 1  ## [4]      ## [5] snRNA     ## ... ... ... ... ... ... ## [581783] protein_coding 1    ## [581784] protein_coding 2 ENSXETE00000303775 2  ## [581785] protein_coding 2   ENSXETP00000053735 ## [581786] protein_coding 3 ENSXETE00000416553 1  ## [581787] protein_coding 3   ENSXETP00000053735 ## protein_version ##  ## [1]  ## [2]  ## [3]  ## [4]  ## [5]  ## ... ... ## [581783]  ## [581784]  ## [581785] 2 ## [581786]  ## [581787] 2 ## ------- ## seqinfo: 2375 sequences from JGI_4 genome; no seqlengths

2从文件到Bioconductor对象

2.1BED, GFF, GTF, WIG进出口

基因组注释:BED, WIG, GTF等文件。例如,GTF:

组件的坐标

7蛋白编码基因27221129 27224842。- . ... ...7 protein_coding transcript 27221134 27224835。- . ...7蛋白编码外显子27224055 27224835。- . ...7 protein_coding CDS 27224055 27224763。- 0…7 protein_coding start_codon 27224761 27224763。- 0… 7 protein_coding exon 27221134 27222647 . - . ... 7 protein_coding CDS 27222418 27222647 . - 2 ... 7 protein_coding stop_codon 27222415 27222417 . - 0 ... 7 protein_coding UTR 27224764 27224835 . - . ... 7 protein_coding UTR 27221134 27222414 . - . ...

注释

gene_id“ENSG00000005073”;gene_name“HOXA11”;gene_source“ensembl_havana”;gene_biotype“protein_coding”;……transcript_id“ENST00000006015”;transcript_name“hoxa11 - 001”;transcript_source“ensembl_havana”;标记“ccd”;ccds_id“CCDS5411”; ... exon_number "1"; exon_id "ENSE00001147062"; ... exon_number "1"; protein_id "ENSP00000006015"; ... exon_number "1"; ... exon_number "2"; exon_id "ENSE00002099557"; ... exon_number "2"; protein_id "ENSP00000006015"; ... exon_number "2"; ...

rtracklayer

进口():导入各种格式到农庄类似的例子
export (): transform from农庄与BED、GTF、…
此外，功能交互驱动UCSC基因组浏览器与数据R/Bioconductor

2．2FASTQ文件

序列读取:FASTQ文件

@err127302.1703 hwi - eas350_041:1:1460:19184#0/1 cctgagtgaagctgatcttcttagagagagagagatcttgatcgtcgaggaggagatgctgaccttgacct + hhghhghhhhhhdgg < gdgge@gdggd > ce ?=896=: @err127302.1704 hwi - eas350_041:1:1460:16861#0/1 gcggtatgctggaaggtgctcgaatggagagcgccagcgccccggcgctgagccgccccccc>ed4 > eee > de8eeede8b ? eb <@3; ba79 ?， 881b ?@73;########################

ShortRead

readFastq ():输入
FastqStreamer ():遍历FASTQ文件
FastqSampler ():来自FASTQ文件的样本，例如用于质量评估
FASTQ文件的修剪和过滤功能，QA评估

2．3对齐的读取

对齐读取:BAM文件

头

@HD VN:1.0 SO:坐标@SQ SN:chr1 LN:249250621 @SQ SN:chr10 LN:135534747 @SQ SN:chr11 LN:135006516…@SQ号:chrY LN:59373566 @PG ID:TopHat VN:2.0.8b CL:/home/hpages/ TopHat -2.0.8b。Linux_x86_64/tophat——match -inner-dist 150——solexa-quals——max-multihits 5——no- disdant——no-mixed——covere -search——microexon-search——libraries -type fr- un——num-threads 2——output-dir tophat2_out/ERR127306 /home/hpages/ bowtib2 -2.1.0/indexes/hg19 fastq/ERR127306_1。fastq fastq / ERR127306_2.fastq

对齐:ID，标志，对齐和配偶

ERR127306.7941162 403 chr14 19653689 3 72M = 19652348 -1413…ERR127306.22648137 145 chr14 19653692 1 72M = 19650044 -3720…ERR127306.933914 339 chr14 19653707 1 66M120N6M = 19653686 -213…

对齐:顺序和质量

．.．GAATTGATCAGTCTCATCTGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCC  *'%%%%%#&&%''#'&%%%)&&%%$%%'%%'&*****$))$)'')'%)))&)%%%%$'%%%%&"))'')%)) ...TTGATCAGTCTCATCTGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCCCAG  '**)****)*'*&*********('&)****&***(**')))())%)))&)))*')&***********)**** ...TGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCCCAGCAGCCTCTGGTTTCT  '******&%)&)))&")')'')'*((******&)&'')'))$))'')&))$)**&&****************

阵营:标签

．.．AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:72 YT:Z:UU NH:i:2 CC:Z:chr22 CP:i:16189276 HI:i:0…AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:72 YT:Z:UU NH:i:3 CC:Z:= CP:i:19921600 HI:i:0…AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:4 MD:Z:72 YT:Z:UU XS:A:+ NH:i:3 CC:Z:= CP:i:19921465 HI:i:0…AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:4 MD:Z:72 YT:Z:UU XS:A:+ NH:i:2 CC:Z:chr22 CP:i:16189138 HI:i:0

GenomicAlignments

readGAlignments ():单端读取
readGAlignmentPairs ()，readGAlignmentsList ():成对的结束读

处理大文件

ScanBamParam ():限制输入
BamFile yieldSize = ():迭代
GenomicFiles提供有用的帮助，例如，reduceByYield ()

2.4被称为变量:VCF文件

头

##fileformat=VCFv4.2 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=file:///seq/references/ 1000genome - ncbi36。fasta ##contig= ##phasing=partial ##INFO= ##INFO=…##FILTER= ##FILTER=…##FORMAT= ##FORMAT=

位置

# chrom pos id ref Alt qual filter…20 14370 rs6054257 G A 29 PASS…20 17330。T A 3 q10…20 1110696 rs6040355 A G,T 67 PASS…

变异信息

# chrom pos…信息…20 14370…NS = 3; DP = 14;房颤= 0.5;数据库;H2…20 17330…NS = 3; DP = 11;房颤= 0.017……20 1110696…NS = 2, DP = 10;房颤= 0.333,0.667;AA = T; DB……

基因型格式和样本

．.．POS……格式:na00001 na00002 na00003…14370年……GT:《GQ》:DP:总部0 | 0:48:1:51,51 1 | 0:48:8:51,51 1/1:43:5:,……17330年……GT:《GQ》:DP:总部0 | 0:49:3:58,50 0 | 1:3:5:65,3 0/0:41:3…1110696……Gt: gq: dp: hq 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4

VariantAnnotation

readVcf (): VCF输入
ScanVcfParam ():限制输入必须的字段/范围
VcfFile ():索引和迭代通过大型VCF文件
locateVariants ():与基因相关的注释等;另请参阅ensemblVEP，VariantFiltering
filterVcf ():灵活过滤

3.练习

3．1GenomicAlignments

的RNAseqData.HNRNPC.bam.chr14包是一个实验数据包的例子。它包含在基因敲除实验中使用的BAM文件的子集，如中所述RNAseqData.HNRNPC.bam.chr14 ?．加载包并获取BAM文件的路径。

library(RNAseqData.HNRNPC.bam.chr14) fls = RNAseqData.HNRNPC.bam。chr14_BAMFILES basename (fls的)

## [1] "ERR127306_chr14。砰”“ERR127307_chr14。砰”“ERR127308_chr14。砰”“ERR127309_chr14。“##[5]”ERR127302_chr14。砰”“ERR127303_chr14。砰”“ERR127304_chr14。bam ERR127305_chr14.bam”

创建BamFileList ()，基本上告诉R这些是BAM文件的路径，而不是电子表格中的文本文件。

library(GenomicAlignments) bfls = BamFileList(fls) bfl = bfls[[1]]

输入和探索对齐。看到readGAlignments ?而且GAlignments ?有关如何操作这些对象的详细信息。

ga = readGAlignments(bfl) ga

与800484年# # GAlignments对象对齐和0元数据列:# # seqnames链雪茄qwidth开始结束宽度njunc # # < Rle > < Rle > <人物> <整数> <整数> <整数> <整数> <整数> # # [1]chr14 + 72 72 19069583 19069654 72 0 # # [2] chr14 + 72 72 19363738 19363809 72 0 # # [3] chr14 - 72 72 19363755 19363826 72 0 # # [4] chr14 + 72 72 19369799 19369870 72 0 # # [5] chr14 - 72 72 19369828 19369899 72 0  ## ... ... ... ... ... ... ... ... ...[800480] chr14 - 72M 72 106989780 106989851 72 0 ## [800481] chr14 + 72M 72 106994763 106994834 72 0 ## [800482] chr14 - 72M 72 106994819 106994890 72 0 ## [800483] chr14 + 72M 72 107003080 107003151 72 0 ## [800484] chr14 - 72M 72 107003171 107003242 72 0 ## ------- # seqinfo:来自未知基因组的93个序列

表(链(ga))

## ## + - * ## 400242 400242 0

许多读数都有雪茄“72M”。这是什么意思?您是否可以创建一个不具有此雪茄的读取子集?解读一些非72m雪茄。知道这些雪茄代表什么吗?

尾(排序(表(雪茄(ga))))

## ## 18m123n54m 36m123n36m 64m316n8m 38m670n34m 35m123n37m 72m ## 225 228 261 264 272 603939

ga[雪茄(ga) != "72M"]

## GAlignments对象，196545对齐，0元数据列:## seqnames绞盘雪茄qwidth起始结束width njunc ##


    使用函数summarizeJunctions ()用复杂的雪茄来识别基因组区域。你能用这个论点吗with.revmap = TRUE提取支持特定(例如，第一个)连接的读取?
    summarizeJunctions (ga)
    与4635年# #农庄对象范围和3元数据列:# # seqnames范围链|得分plus_score minus_score # # < Rle > < IRanges > < Rle > | <整数> <整数> <整数> # # [1]chr14(19650127、19650127)* | 4 2 2 # # [2]chr14(19650127、19650127)* | 1 1 0 # # [3]chr14(19652355、19652355)* | 8 7 1 # # [4]chr14(19652355、19652355)* | 1 1 0 # # [5]chr14(19653773、19653773)* | 9 5 4  ## ... ... ... ... . ... ... ...## [4631] chr14 [106912703, 106922227] * | 10 1 ## [4632] chr14 [106938165,106938301] * | 10 2 8 ## [4633] chr14 [106944645, 106944774] * | 24 7 17 ## [4634] chr14 [106944969, 106950170] * | 7 6 1 ## [4635] chr14 [106950323,106960260] * | 1 10 ## ------- # seqinfo:来自未知基因组的93个序列
    <- summarize(ga, with.revmap=TRUE) ga[$revmap[[1]]]
    ## seqnames strand cigar qwidth起始结束宽度njunc ##         ## [1] chr14 + 55m2117n17m72 19650072 19652272 2189 1 ## [2] chr14 - 43m2117n29m72 19650087 19652275 2189 1 ## [4] chr14 + 38m2117n34m72 19650087 19652277 2189 1 ## ------- # seqinfo: 93个来自未指定基因组的序列
    可以对BAM文件执行其他操作，例如，计算“覆盖率”(读取重叠每个基)。
    覆盖(bfl) chr14美元
    长度:19069582 72 294083 17 55…72 19 72 346298 ##值:0 1 0 1 2…1 0 1 0


   
    3.2SummarizedExperiment锻炼
    的气道实验数据包总结了一个RNA-seq实验，研究人类平滑肌气道细胞系与地塞米松处理。加载库和数据集。
    库(气道)数据(气道)气道
    ##类:rangedsummarizeexperimental ## dim: 64102 8 ##元数据(1):“## assays(1):计数## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
    气道是一个例子吗SummarizedExperiment类。探索它分析()(每个样本中感兴趣的基因组区域重叠的reads计数矩阵)，colData ()(每个样本的描述)，以及rowRanges ()(对每个感兴趣区域的描述;这里每个区域是一个ENSEMBL基因)。
    X <-化验(气道)类(X)
    ##[1]“矩阵”
    暗(x)
    ## [1] 64102
    头(x)
    # # SRR1039508 SRR1039509 SRR1039512 SRR1039513 SRR1039516 SRR1039517 SRR1039520 # # ENSG00000000003 679 448 873 408 1138 1047 770 # # ENSG00000000005 0 0 0 0 0 0 0 # # ENSG00000000419 467 515 621 365 587 799 417 # # ENSG00000000457 260 211 263 164 245 331 233 55 # # ENSG00000000460 60 40 35 78 63 76 # # ENSG00000000938 0 0 2 0 1 0 0 # # SRR1039521 # # 572 # # ENSG00000000005 ENSG00000000003 0 # # ENSG00000000419 508 60 # # # # 229 # # ENSG00000000460 ENSG00000000457 ENSG00000000938 0
    colData(气管)
    运行avgLength实验样本##         SRR1039508 SRR1039508 126 SRX384345 srr10395068 # SRR1039509 GSM1275863 N61311 trt untrt SRR1039509 126 SRX384346 srr508567 # SRR1039512 GSM1275866 N052611 trt untrt SRR1039512 126 SRX384349 srr508571 # SRR1039513 GSM1275867 N052611 trt untrt SRR1039513 87 SRX384350 SRS508572 ##SRR1039516 GSM1275870 N080611不被接收SRR1039516 120 SRX384353 srr508575 ## SRR1039517 GSM1275871 N080611不被接收SRR1039517 126 SRX384354 SRS508576 ## SRR1039520 GSM1275874 n06101011不被接收srr1039579 ## SRR1039521 GSM1275875 n06101011不被接收SRR1039508 SAMN02422669 ## SRR1039509 SAMN02422675 ## SRR1039512 SAMN02422678 ## SRR1039516 SAMN02422682 ## SRR1039517 SAMN02422673 ##生物样本## ### srr1039520 samn02422683 ## srr1039521 samn02422677
    rowRanges(气管)
    ## GRanges对象，长度为64102:## $ENSG00000000003## seqnames ranges | exon_id exon_name ##    |   ## [1] X [99883667, 99884983] - | 667145 ENSE00001459322 ## [2] X [99885756, 99885863] - | 667146 ENSE00000868868 ## [3] X [99887482, 99887565] - | 667147 ENSE00000401072 ## [4] X [99887538, 99887565] - | 667148 ENSE00001849132 ## [5] X [99888402, 99888536] - | 667149 ENSE00003554016 ## # ... ... ... ... . ... ...## [13] x [99890555, 99890743] - | 667156 ense00003512331 ## [14] x [99891188, 99891686] - | 667158 ense00001886883 ## [15] x [99891605, 99891803] - | 667159 ense00001855382 ## [16] x [99891790,99892101] - | 667160 ense00001863395 ## [17] x [99894942, 99894988] - | 667156 ense00003512331 ## [14] x[99891188, 99891686]…## <64101更多元素> ## ------- ## seqinfo: 722个序列(1个循环)来自一个未指定的基因组
    很容易划分a的子集SummarizedExperiment在行，列和分析，例如，只保留那些样品在泰爱泰党水平敏捷的因素。访问列数据的元素是常见的，因此有一条捷径。
    cidx <- colData(气道)$dex %in% "trt"气道[，cidx]
    ##类:rangedsummarizeexperimental ## dim: 64102 4 ##元数据(1):“## assays(1):计数## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(4): SRR1039509 SRR1039513 SRR1039517 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
    ##快捷气道[，气道$dex %in% "trt"]
    ##类:rangedsummarizeexperimental ## dim: 64102 4 ##元数据(1):“## assays(1):计数## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(4): SRR1039509 SRR1039513 SRR1039517 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
    在上面执行基于范围的操作也很容易SummarizedExperiment对象，例如，查询14号染色体的范围，然后将子集设置为只包含该染色体上的基因。行上的范围操作非常常见，所以这里也有快捷方式。
    chr14 <- as(seqinfo(rowRanges(气道))，"GRanges")["14"] ridx <- rowRanges(气道)%over% chr14气道[ridx，]
    ##类:rangedsummarizeexperiment ## dim: 2244 8 ##元数据(1):“## assays(1):计数## rownames(2244): ENSG00000006432 ENSG00000009830…ENSG00000273259 ENSG00000273307 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
    ##快捷键chr14 <- as(seqinfo(气道)，"GRanges")["14"]气道[气道%over% chr14，]
    ##类:rangedsummarizeexperiment ## dim: 2244 8 ##元数据(1):“## assays(1):计数## rownames(2244): ENSG00000006432 ENSG00000009830…ENSG00000273259 ENSG00000273307 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
    使用分析()而且rowSums ()函数中删除所有行气道对象，该对象具有0个重复所有采样的读取。汇总库大小(的列和分析())，并绘制每个感兴趣特征的读取分布的直方图。
   
   
    3．3注释和GenomicFeatures
    加载org包智人．
    库(org.Hs.eg.db)
    使用select ()用Entrez标识符和不太正式的基因名称注释HNRNPC基因符号。创建SYMBOL和ENTREZID之间的映射mapIds ()．
    select(org. hs . e.g. .db， "HNRNPC"， c("ENTREZID"， "GENENAME")， "SYMBOL")
    ## 'select()'返回键和列之间的1:1映射
    HNRNPC 3183异质核核糖核蛋白C (C1/C2)
    sym2eg <- mapIds(org.Hs.eg.db， "HNRNPC"， "ENTREZID"， "SYMBOL")
    ## 'select()'返回键和列之间的1:1映射
    加载UCSC hg19 knownGene轨道的TxDb包
    txdb <- txdb . hsapiens . ucsc .hg19. knowngene . library(txdb . hsapiens . ucsc .hg19. knowngene
    提取基因坐标，HNRNPC基因外显子按基因分组。
    gns <- genes(txdb) exonsBy(txdb， "gene")[sym2eg]
    # # GRangesList对象长度1:# # # # 3183美元农庄对象2 19范围和元数据列:# # seqnames范围链| exon_id exon_name # # < Rle > < IRanges > < Rle > | <整数> <人物> # # [1]chr14(21677296、21677296)- | 184100 < NA > # # [2] chr14(21678927、21678927)- | 184101 < NA > # # [3] chr14(21679565、21679565)- | 184102 < NA > # # [4] chr14(21679565、21679565)- | 184103 < NA > # # [5] chr14(21679969、21679969)- | 184104 < NA > ## ... ... ... ... . ... ...## [15] chr14 [21702237,21702388] - | 184114  ## [16] chr14 [21730760, 21730927] - | 184115  ## [17] chr14 [21731470,21731495] - | 184116  ## [18] chr14 [21731826,21731988] - | 184117  ## [19] chr14 [21737457, 21737638] - | 184118  ## ## ------- # seqinfo:来自hg19基因组的93个序列(1个循环)
    使用基因坐标查询特定基因组区域的BAM文件;看到? ScanBamParam ()用于其他限制数据输入的方法。
    library(Rsamtools) param <- ScanBamParam(which=gns[sym2eg]) readGAlignments(bfl, param=param)
    与5422年# # GAlignments对象对齐和0元数据列:# # seqnames链雪茄qwidth开始结束宽度njunc # # < Rle > < Rle > <人物> <整数> <整数> <整数> <整数> <整数> # # [1]chr14 + 72 72 21677347 21677418 72 0 # # [2] chr14 + 72 72 21677352 21677423 72 0 # # [3] chr14 + 72 72 21677354 21677425 72 0 # # [4] chr14 + 72 72 21677355 21677426 72 0 # # [5] chr14 + 72 72 21677373 21677444 72 0  ## ... ... ... ... ... ... ... ... ...[5418] chr14 - 72M 72 21737512 21737583 72 0 ## [5420] chr14 - 72M 72 21737520 21737591 72 0 ## [5421] chr14 - 72M 72 21737521 21737592 72 0 ## [5422] chr14 - 72M 72 21737534 21737605 72 0 ## ------- # seqinfo:来自未指定基因组的93个序列
   
   
    3.4AnnotationHub
    的路线图表观基因组学项目生成了跨越多个细胞系的调控标记的全基因组地图。
    检索表观基因组路线图表AnnotationHub.．.
    library(AnnotationHub) hub <-注解hub ()
    ## snapshotDate(): 2017-02-07
    查询(hub, c(“表观基因组”，“元数据”))
    ##注释中心与1记录## # snapshotDate(): 2017-02-07 ## # names(): AH41830 ## # $dataprovider: BroadInstitute ## # $species: Homo sapiens ## # $rdataclass: data.frame ## # $title: EID_metadata。## $description:元数据的EpigenomeRoadMap项目## # $taxonomyid: 9606 ## $genome: hg19 ## $sourcetype: tab ## # $sourceurl: http://egg2.wustl.edu/roadmap/data/byFileType/metadata/EID_metadata.tab ## # $sourcelastmodifieddate: 2015-02-15 ## $sourcesize: 18035 ## $tags: c(“EpigenomeRoadMap”，“元数据”)## #检索记录与对象[["AH41830"]]]'
    meta <- hub[["AH41830"]]
    ##从缓存/home/mtmorgan//加载AnnotationHub / 47270”
    探索元数据以确定您感兴趣的细胞系;另请参阅元数据表基因组路线图项目提供的数据的电子表格版本。
    表(元美元解剖学)
    ## ##肾上腺血液骨骼大脑乳房1 27 1 13 3颈部esc esc_derived fat gi_colon 1 8 9 3 3 3 gi_duodenum gi_esophagus gi_肠道gi_直肠gi_胃13 3 4 ##心脏ipsc肾脏肝脏肺4 5 1 2 5肌肉肌肉腿卵巢胰腺胎盘7 1 1 2 2 2皮肤脾脏基质结缔组织胸腺血管8 1 2 2 2 2
    meta[meta$ANATOMY == "LIVER"，]
    EID组颜色记忆符STD_NAME ## 64 E066其他#999999 LIV。ADLT肝脏## 116 E118 ENCODE2012 #000000 LIV.HEPG2。HepG2肝细胞癌细胞系解剖类型年龄性别固体液体种族成体肝脏肝原发组织未知混合固体未知HepG2肝细胞癌肝细胞系男性单供体或复合体SD
    使用' EID '来查询和检索总结染色质状态的'助记符'文件
    查询(hub, c(“E118”，“助记符”))
    ## snapshotDate(): 2017-02-07 ## # names(): AH46971 ## $dataprovider: BroadInstitute ## # $species: Homo sapiens ## # $rdataclass: GRanges ## # $title: e118_15_co备注s_mnemonics.bed.gz ## $description: 15个状态染色质片段来自EpigenomeRoadMap项目## # $taxonomyid: 9606 ## $genome: hg19 ## $sourcetype: BED ## # $sourceurl: http://egg2.wustl.edu/roadmap/data/byFileType/chromhmmSegmentations/ChmmModels/cor…## # $sourcelastmodifieddate: 2013-10-11 ## $sourcesize: 3231313 ## $tags: c(“EpigenomeRoadMap”，“chromhmmSegmentations”，“ChmmModels”，“co备注”，## #“E118”，“ENCODE2012”，“LIV.HEPG2。CNCR"， "HepG2肝细胞癌细胞系")## #检索记录与'对象[["AH46971"]]]'
    E118 <- hub[["AH46971"]]
    # #要求(“rtracklayer”)
    ##从缓存/home/mtmorgan//加载AnnotationHub / 52411”
    E118
    与561497范围和4 # #农庄对象元数据列:# # seqnames范围链|简写的名称# # < Rle > < IRanges > < Rle > | <人物> <人物> # # [1]chr10 [113200] * | # # 15 _quies静止/低[2]chr10(113201、119600)* | 14 _reprpcwk弱压抑PolyComb # # [3] chr10(119601、120000)* | 10 _tssbiv二价/准备TSS # # [4] chr10(120001、120200)* | 1 _tssa活跃TSS # # [5] chr10(120201、120400)* | 2 _tssaflnk TSS侧翼活跃  ## ... ... ... ... . ... ...## [561493] chrY [58907201, 58967400] * | 15_Quies静态/低## [561494]chrY [58967401, 58972000] * | 9_Het异染色质## [561495]chrY [58972001,58997400] * | 8_ZNF/Rpts ZNF基因和重复## [561496]chrY [58997401, 59033600] * | 9_Het异染色质## [561497]chrY [59033601, 59033601，59373400] * | 15_Quies Quiescent/Low ## color_name color_code ## <角色> <角色> ##[1]白色#FFFFFF # [2] Gainsboro #C0C0C0 ## [3] IndianRed #CD5C5C ## [4] Red #FF0000 #[5]橘红色#FF4500 ## ... ... ...[561493]白色#FFFFFF ##[561494]古绿松石#8A91D0 ##[561495]中海蓝宝石#66CDAA ##[561496]古绿松石#8A91D0 ##[561497]白色#FFFFFF ## ------- # seqinfo: hg19基因组93个序列(1个圆形)
    探索对象，例如，制表不同的染色质状态分类(在名字列)。将对象子集化以返回，例如，只返回标记为“异染色质”的区域。
    表(E118美元名称)
    ## ##活性TSS双价增强子双价/平稳TSS增强子侧翼活性TSS侧翼双价TSS/Enh ## 110260 45115 15844基因增强子异染色质静止/低## 14995 31193 61759抑制PolyComb强转录Transcr。在基因5'和3'弱转录ZNF基因和重复序列
    E118[E118$name %in% "Heterochromatin"]
    GRanges对象，包含31193个范围和4个元数据列:## seqnames ranges | abbr name color_name ##    |    ## [1] chr10 [140201,143800] * | 9_Het异染色质PaleTurquoise ## [2] chr10 [806201,807800] * | 9_Het异染色质PaleTurquoise ## [3] chr10 [842001,843800] * | 9_Het异染色质PaleTurquoise ## [4] chr10 [1024601, 1027200] * | 9_Het异染色质PaleTurquoise ## [5] chr10 [1191601，1192600) * | 9 _het异染色质苍白的宝石绿  ## ... ... ... ... . ... ... ...# # [31189] chrY(58883001、58883001)* | 9 _het异染色质苍白的宝石绿# # [31190]chrY(58890001、58890001)* | 9 _het异染色质苍白的宝石绿# # [31191]chrY(58906401、58906401)* | 9 _het异染色质苍白的宝石绿# # [31192]chrY(58967401、58967401)* | 9 _het异染色质苍白的宝石绿# # [31193]chrY(58997401、58997401)* | 9 _het异染色质苍白的宝石绿# # color_code # # <人物> # 8 a91d0 # # # # [1] [2] # 8 a91d0 # # [3] # 8 a91d0 # # [4] # 8 a91d0 # # # 8 a91d0 [5]  ## ... ...## [31189] #8A91D0 ## [31191] #8A91D0 ## [31192] #8A91D0 ## [31193] #8A91D0 ## # ------- ## seqinfo: hg19基因组93个序列(1个循环)
    你可以，使用TxDb包和基因()而且subsetByOverlaps ()功能，决定有多少基因重叠异色状态，或基因最近的()每个增强器?
   
   
    3．5biomaRt
    参观biomart网站并找出如何浏览数据来检索，例如，21号和22号染色体上的基因。你需要去服装市场逛逛，人类spaiens数据集，为染色体21和22建立过滤器，然后指定您希望返回Ensembl基因id属性。
    现在做同样的过程biomaRt：
    library(biomaRt) head(listMarts()， 3) ## list marts head(listDatasets(useMart("ensembl"))， 3) ## mart datasets ensembl <- ##完全指定的mart useMart("ensembl"， dataset = "hsapiens_gene_ensembl") head(listFilters(ensembl)， 3) ## filters myFilter <- "chromosome_name" substr(filterOptions(myFilter, ensembl)， 1,50) ##返回值myValues <- c("21"， "22") head(listAttributes(ensembl)，3) ## attributes myAttributes <- c("ensembl_gene_id"，"chromosome_name") ##组装和查询集市res <- getBM(attributes = myAttributes, filters = myFilter, values = myValues, mart = ensembl)

B.2 -Bioconductor构建块

马丁•摩根Martin.Morgan@RoswellPark.org
Lori牧羊人Lori.Shepherd@RoswellPark.org

2017年3月3日

内容

1核心基础设施

1．1Biostrings

1．2GenomicRanges

1.2.1 "业务范围

1.3GenomicAlignments

1．4SummarizedExperiment

1．5注释资源

2从文件到Bioconductor对象

2.1BED, GFF, GTF, WIG进出口

2．2FASTQ文件

2．3对齐的读取

2.4被称为变量:VCF文件

3.练习

3．1GenomicAlignments

3.2SummarizedExperiment锻炼

3．3注释和GenomicFeatures

3.4AnnotationHub

3．5biomaRt

B.2 -Bioconductor构建块

马丁•摩根Martin.Morgan@RoswellPark.orgLori牧羊人Lori.Shepherd@RoswellPark.org

2017年3月3日

内容

1核心基础设施

1．1Biostrings

1．2GenomicRanges

1.2.1 "业务范围

1.3GenomicAlignments

1．4SummarizedExperiment

1．5注释资源

2从文件到Bioconductor对象

2.1BED, GFF, GTF, WIG进出口

2．2FASTQ文件

2．3对齐的读取

2.4被称为变量:VCF文件

3.练习

3．1GenomicAlignments

3.2SummarizedExperiment锻炼

3．3注释和GenomicFeatures

3.4AnnotationHub

3．5biomaRt

马丁•摩根Martin.Morgan@RoswellPark.org
Lori牧羊人Lori.Shepherd@RoswellPark.org