DNA,氨基酸和其他生物序列。参见前面的示例B.1简介Bioconductor
农庄()
:基因组坐标,表示注释(外显子,基因,调控标记,…)和数据(称为峰值,变体,对齐读取)
GRangesList ()
:基因组坐标分组为列表元素(例如,成对的末端读取;外显子按转录本分组)
范围
start ()
/结束()
/宽度()
长度()
,子集,等等。mcols ()
Seqinfo
,包括seqlevels
而且seqlengths
Intra-range方法
转变()
,狭窄的()
,侧面()
,发起人()
,调整()
,限制()
,削减()
" ? intra-range-methods
Inter-range方法
range ()
,reduce ()
,空白()
,分离()
覆盖()
(!)" ? inter-range-methods
Between-range方法
findOverlaps ()
,countOverlaps ()
、……% / %
,%在%
,% %外
;联盟()
,相交()
,setdiff ()
,punion ()
,pintersect ()
,psetdiff ()
例子
library(GenomicRanges) gr <- GRanges("A", IRanges(c(10,20,22), width=5), "+") shift(gr, 1) # intra-range
## seqnames ranges strand ## ## [1] A [11,15] + ## [2] A [21,25] + ## [3] A [23,27] + ## ------- ## seqinfo:来自未指定基因组的1个序列;没有seqlengths
Range (gr) # inter-range
## seqnames ranges strand ## ## [1] A [10,26] + ## ------- ## seqinfo: 1个来自未指定基因组的序列;没有seqlengths
减少(gr) # inter-range
## seqnames ranges strand ## ## [1] A [10,14] + ## [2] A [20,26] + ## ------- ## seqinfo: 1个来自未指定基因组的序列;没有seqlengths
snps <- GRanges("A", IRanges(c(11,17,24), width=1)) finoverlaps (snps, gr) # between-range
##命中3个命中和0元数据列的对象:## queryHits subjectHits ## ## [1] 1 1 ## [2] 3 2 ## [3] 3 3 ## ------- ## # queryLength: 3 / subjectLength: 3
Setdiff (range(gr), gr) # '内含子'
## seqnames ranges strand ## ## [1] A [15,19] + ## ------- ## seqinfo: 1个来自未指定基因组的序列;没有seqlengths
对齐的读取表示。请看下面的练习。
colData ()
数据帧用于描述样本rowRanges ()
农庄/GRangeList或用于描述特征的数据帧exptData ()
来描述整个物体分析()
可以是任何类似矩阵的对象,包括非常大的磁盘上的表示,如HDF5Array
库(气道)数据(气道)气道
##类:rangedsummarizeexperimental ## dim: 64102 8 ##元数据(1):“## assays(1):计数## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
colData(气管)
运行avgLength实验样本## SRR1039508 SRR1039508 126 SRX384345 srr10395068 # SRR1039509 GSM1275863 N61311 trt untrt SRR1039509 126 SRX384346 srr508567 # SRR1039512 GSM1275866 N052611 trt untrt SRR1039512 126 SRX384349 srr508571 # SRR1039513 GSM1275867 N052611 trt untrt SRR1039513 87 SRX384350 SRS508572 ##SRR1039516 GSM1275870 N080611不被接收SRR1039516 120 SRX384353 srr508575 ## SRR1039517 GSM1275871 N080611不被接收SRR1039517 126 SRX384354 SRS508576 ## SRR1039520 GSM1275874 n06101011不被接收srr1039579 ## SRR1039521 GSM1275875 n06101011不被接收SRR1039508 SAMN02422669 ## SRR1039509 SAMN02422675 ## SRR1039512 SAMN02422678 ## SRR1039516 SAMN02422682 ## SRR1039517 SAMN02422673 ##生物样本## ### srr1039520 samn02422683 ## srr1039521 samn02422677
气道[,气道$dex %in% "trt"]
##类:rangedsummarizeexperimental ## dim: 64102 4 ##元数据(1):“## assays(1):计数## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(4): SRR1039509 SRR1039513 SRR1039517 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
chr14 <- as(seqinfo(气道),"GRanges")["14"]气道[气道%over% chr14,]
##类:rangedsummarizeexperiment ## dim: 2244 8 ##元数据(1):“## assays(1):计数## rownames(2244): ENSG00000006432 ENSG00000009830…ENSG00000273259 ENSG00000273307 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
选择吗?
exonsBy ?
页检索按基因或转录本分组的所有外显子。静态包
org . *:标识符映射
select ()
,列()
,键()
mapIds ()
library(org. hs.eg.db) org <- org. hs.eg.db select(org, "BRCA1", c("ENSEMBL", "GENENAME"), "SYMBOL")
## 'select()'返回键和列之间的1:1映射
符号集合GENENAME BRCA1 ENSG00000012048 BRCA1, DNA修复相关
TxDb。*:基因模型
外显子()
,成绩单()
,基因()
,发起人()
,……exonsBy ()
,transcriptsBy ()
select ()
等。txdb <- txdb . hsapiens . ucsc .hg19. knowngene . library(txdb . hsapiens . ucsc .hg19. knowngenepromoters(txdb)
## seqnames ranges strand | tx_id tx_name ## | ## [1] chr1 [9874,12073] + | 1 uc001aaa。3 ## [2] chr1 [9874, 12073] + | 2 uc010nxq。1 ## [3] chr1 [9874, 12073] + | 3 uc010nxr。1## [4] chr1 [ 67091, 69290] + | 4 uc001aal.1 ## [5] chr1 [319084, 321283] + | 5 uc001aaq.2 ## ... ... ... ... . ... ... ## [82956] chrUn_gl000237 [ 2487, 4686] - | 82956 uc011mgu.1 ## [82957] chrUn_gl000241 [36676, 38875] - | 82957 uc011mgv.2 ## [82958] chrUn_gl000243 [ 9501, 11700] + | 82958 uc011mgw.1 ## [82959] chrUn_gl000243 [11608, 13807] + | 82959 uc022brq.1 ## [82960] chrUn_gl000247 [ 5617, 7816] - | 82960 uc022brr.1 ## ------- ## seqinfo: 93 sequences (1 circular) from hg19 genome
基于网络的资源,例如:biomaRt,PSICQUIC,GEOquery,……
基因组规模的资源通过AnnotationHub
library(AnnotationHub) hub =注解hub ()
## snapshotDate(): 2017-02-07
中心
##注释中心37972条记录## # snapshotDate(): 2017-02-07 ## $dataprovider: BroadInstitute, UCSC, Ensembl, Haemcode, Inparanoid8, ftp://ftp.ncbi.nlm.nih.go…## # $物种:智人,小家鼠,牛牛,泛穴居人,Danio rerio, Rattus norvegi…## # $rdataclass: GRanges, BigWigFile, FaFile, TwoBitFile, ChainFile, Rle, in偏执狂8db, OrgDb, En…## #附加mcols(): taxonomyid,基因组,描述,coordinate_1_based, maintainer, ## # rdatadateadded, prepareerclass, tags, rdatapath, sourceurl, sourcetype ## #检索记录,例如,'object[["AH2"]]]' ## ## title ## AH2 | ailuropoda_melanoleuca . ailmel1.90 .dna.toplevel。a: a: a: a: a: d: a: a: aailmel1.69 .dna_sm. topllevel。aiuropoda_melanoleuca . ailmel1.69 .ncrnaa ## AH6 bb0 . ailmel1.69 .pep.all。Fa ## ... ...| ensemble 87 EnsDb for Tursiops Truncatus ## AH53250 | ensemble 87 EnsDb for Vicugna Pacos ## AH53251 | ensemble 87 EnsDb for Xiphophorus Maculatus ## AH53252 | Ensembl 87 EnsDb for Xenopus Tropicalis
查询(hub, c("ensembl", "81.gtf"))
##注释中心有69条记录## #快照日期():2017-02-07 ## $dataprovider:集合## # $物种:Ailuropoda melanoleuca, Anas platyrhynchos, Anolis carolinensis, Astyanax mexicanus,…## # $rdataclass: GRanges ## #附加mcols(): taxonomyid,基因组,描述,coordinate_1_based, maintainer, ## # rdatadateadded,准备类,标签,rdatapath, sourceurl, sourcetype ## #检索记录,例如,'object[["AH47937"]]]' ## ## title ## AH47937 | Ailuropoda_melanoleuca.ailMel1.81。Anas_platyrhynchos.BGI_duck_1.0.81。Anolis_carolinensis.AnoCar2.0.81。Astyanax_mexicanus.AstMex102.81。gtf ## AH47941 |公牛。umd3.1.81。GTF ## ... ...Tupaia_belangeri.TREESHREW.81。Tursiops_truncatus.turTru1.81。Vicugna_pacos.vicPac1.81。gtf ## AH48004 | Xenopus_tropicalis.JGI_4.2.81。xphophorus_maculatus . xipmac4.4.81 .gtf ## AH48005 |
中心[[" AH48004 "]]
##从缓存/home/mtmorgan//加载AnnotationHub / 54310”
##使用猜测工作填充seqinfo
## GRanges对象,范围581787,19个元数据列:# # seqnames范围链|源类型分阶段# # < Rle > < IRanges > < Rle > | <因素> <因素> <数字> <整数> # # [1]GL172637.1[148] - |运用基因< NA > < NA > # # [2] GL172637.1[148] - |运用记录< NA > < NA > # # [3] GL172637.1[148] - |运用外显子< NA > < NA > # # [4] GL172637.1(606、720)- - - - - - |运用基因< NA > < NA > # # [5] GL172637.1(606、720)- - - - - - |运用记录< NA > < NA > ## ... ... ... ... . ... ... ... ...## [581783] GL180121.1 [865, 867] + | ensemble start_codon 0 ## [581784] GL180121.1 [992, 1334] + | ensembl外显子 ## [581785] GL180121.1 [992, 1334] + | ensembl CDS 2 ## [581786] GL180121.1 [1817,1835] + | ensembl外显子 ## [581787] GL180121.1 [1817, 1817]1835] + | ensembl CDS 1 ## gene_id gene_version gene_name gene_source gene_biotype ## ## [1] ENSXETG00000030486 1 U5 ensembl snRNA ## [2] ENSXETG00000030486 1 U5 ensembl snRNA ## [3] ENSXETG00000030486 1 U5 ensembl snRNA ## [4] ENSXETG00000031766 1 U5 ensembl snRNA ## [5] ENSXETG00000031766 1 U5 ensembl snRNA ## ... ... ... ... ... ...# # [581783] ENSXETG00000033193 1 < NA >运用protein_coding # # [581784] ENSXETG00000033193 1 < NA >运用protein_coding # # [581785] ENSXETG00000033193 1 < NA >运用protein_coding # # [581786] ENSXETG00000033193 1 < NA >运用protein_coding # # [581787] ENSXETG00000033193 1 < NA >运用protein_coding # # transcript_id transcript_version transcript_name transcript_source # # <人物> <数字> <人物> <人物> # # [1]< NA > < NA > < NA > < NA > # # [2] ENSXETT00000065882 1 u5 - 201运用# # [3]ENSXETT00000065882 1 U5-201 ensembl ## [4] ## [5] ENSXETT00000061796 1 U5-201 ensembl ## ... ... ... ... ... ## [581783] ENSXETT00000053735 2 ensembl ## [581784] ENSXETT00000053735 2 ensembl ## [581785] ENSXETT00000053735 2 ensembl ## [581786] ENSXETT00000053735 2 ensembl ## [581787] ENSXETT00000053735 2 ensembl ## transcript_biotype exon_number exon_id exon_version protein_id ## ## [1] ## [2] snRNA ## [3] snRNA 1 ENSXETE00000393193 1 ## [4] ## [5] snRNA ## ... ... ... ... ... ... ## [581783] protein_coding 1 ## [581784] protein_coding 2 ENSXETE00000303775 2 ## [581785] protein_coding 2 ENSXETP00000053735 ## [581786] protein_coding 3 ENSXETE00000416553 1 ## [581787] protein_coding 3 ENSXETP00000053735 ## protein_version ## ## [1] ## [2] ## [3] ## [4] ## [5] ## ... ... ## [581783] ## [581784] ## [581785] 2 ## [581786] ## [581787] 2 ## ------- ## seqinfo: 2375 sequences from JGI_4 genome; no seqlengths
基因组注释:BED, WIG, GTF等文件。例如,GTF:
组件的坐标
7蛋白编码基因27221129 27224842。- . ... ...7 protein_coding transcript 27221134 27224835。- . ...7蛋白编码外显子27224055 27224835。- . ...7 protein_coding CDS 27224055 27224763。- 0…7 protein_coding start_codon 27224761 27224763。- 0… 7 protein_coding exon 27221134 27222647 . - . ... 7 protein_coding CDS 27222418 27222647 . - 2 ... 7 protein_coding stop_codon 27222415 27222417 . - 0 ... 7 protein_coding UTR 27224764 27224835 . - . ... 7 protein_coding UTR 27221134 27222414 . - . ...
注释
gene_id“ENSG00000005073”;gene_name“HOXA11”;gene_source“ensembl_havana”;gene_biotype“protein_coding”;……transcript_id“ENST00000006015”;transcript_name“hoxa11 - 001”;transcript_source“ensembl_havana”;标记“ccd”;ccds_id“CCDS5411”; ... exon_number "1"; exon_id "ENSE00001147062"; ... exon_number "1"; protein_id "ENSP00000006015"; ... exon_number "1"; ... exon_number "2"; exon_id "ENSE00002099557"; ... exon_number "2"; protein_id "ENSP00000006015"; ... exon_number "2"; ...
进口()
:导入各种格式到农庄
类似的例子export ()
: transform from农庄
与BED、GTF、…序列读取:FASTQ文件
@err127302.1703 hwi - eas350_041:1:1460:19184#0/1 cctgagtgaagctgatcttcttagagagagagagatcttgatcgtcgaggaggagatgctgaccttgacct + hhghhghhhhhhdgg < gdgge@gdggd b8 ?? adad < be@ee8egdga3cb85 *,77@>> ce ?=896=: @err127302.1704 hwi - eas350_041:1:1460:16861#0/1 gcggtatgctggaaggtgctcgaatggagagcgccagcgccccggcgctgagccgccccccc>ed4 > eee > de8eeede8b ? eb <@3; ba79 ?, 881b ?@73;########################
readFastq ()
:输入FastqStreamer ()
:遍历FASTQ文件FastqSampler ()
:来自FASTQ文件的样本,例如用于质量评估对齐读取:BAM文件
头
@HD VN:1.0 SO:坐标@SQ SN:chr1 LN:249250621 @SQ SN:chr10 LN:135534747 @SQ SN:chr11 LN:135006516…@SQ号:chrY LN:59373566 @PG ID:TopHat VN:2.0.8b CL:/home/hpages/ TopHat -2.0.8b。Linux_x86_64/tophat——match -inner-dist 150——solexa-quals——max-multihits 5——no- disdant——no-mixed——covere -search——microexon-search——libraries -type fr- un——num-threads 2——output-dir tophat2_out/ERR127306 /home/hpages/ bowtib2 -2.1.0/indexes/hg19 fastq/ERR127306_1。fastq fastq / ERR127306_2.fastq
对齐:ID,标志,对齐和配偶
ERR127306.7941162 403 chr14 19653689 3 72M = 19652348 -1413…ERR127306.22648137 145 chr14 19653692 1 72M = 19650044 -3720…ERR127306.933914 339 chr14 19653707 1 66M120N6M = 19653686 -213…
对齐:顺序和质量
...GAATTGATCAGTCTCATCTGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCC *'%%%%%#&&%''#'&%%%)&&%%$%%'%%'&*****$))$)'')'%)))&)%%%%$'%%%%&"))'')%)) ...TTGATCAGTCTCATCTGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCCCAG '**)****)*'*&*********('&)****&***(**')))())%)))&)))*')&***********)**** ...TGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCCCAGCAGCCTCTGGTTTCT '******&%)&)))&")')'')'*((******&)&'')'))$))'')&))$)**&&****************
阵营:标签
...AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:72 YT:Z:UU NH:i:2 CC:Z:chr22 CP:i:16189276 HI:i:0…AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:72 YT:Z:UU NH:i:3 CC:Z:= CP:i:19921600 HI:i:0…AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:4 MD:Z:72 YT:Z:UU XS:A:+ NH:i:3 CC:Z:= CP:i:19921465 HI:i:0…AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:4 MD:Z:72 YT:Z:UU XS:A:+ NH:i:2 CC:Z:chr22 CP:i:16189138 HI:i:0
readGAlignments ()
:单端读取readGAlignmentPairs ()
,readGAlignmentsList ()
:成对的结束读处理大文件
ScanBamParam ()
:限制输入BamFile yieldSize = ()
:迭代reduceByYield ()
头
##fileformat=VCFv4.2 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=file:///seq/references/ 1000genome - ncbi36。fasta ##contig= ##phasing=partial ##INFO= ##INFO=…##FILTER= ##FILTER=…##FORMAT= ##FORMAT=
位置
# chrom pos id ref Alt qual filter…20 14370 rs6054257 G A 29 PASS…20 17330。T A 3 q10…20 1110696 rs6040355 A G,T 67 PASS…
变异信息
# chrom pos…信息…20 14370…NS = 3; DP = 14;房颤= 0.5;数据库;H2…20 17330…NS = 3; DP = 11;房颤= 0.017……20 1110696…NS = 2, DP = 10;房颤= 0.333,0.667;AA = T; DB……
基因型格式和样本
...POS……格式:na00001 na00002 na00003…14370年……GT:《GQ》:DP:总部0 | 0:48:1:51,51 1 | 0:48:8:51,51 1/1:43:5:,……17330年……GT:《GQ》:DP:总部0 | 0:49:3:58,50 0 | 1:3:5:65,3 0/0:41:3…1110696……Gt: gq: dp: hq 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4
readVcf ()
: VCF输入ScanVcfParam ()
:限制输入必须的字段/范围VcfFile ()
:索引和迭代通过大型VCF文件locateVariants ()
:与基因相关的注释等;另请参阅ensemblVEP,VariantFilteringfilterVcf ()
:灵活过滤的RNAseqData.HNRNPC.bam.chr14包是一个实验数据包的例子。它包含在基因敲除实验中使用的BAM文件的子集,如中所述RNAseqData.HNRNPC.bam.chr14 ?
.加载包并获取BAM文件的路径。
library(RNAseqData.HNRNPC.bam.chr14) fls = RNAseqData.HNRNPC.bam。chr14_BAMFILES basename (fls的)
## [1] "ERR127306_chr14。砰”“ERR127307_chr14。砰”“ERR127308_chr14。砰”“ERR127309_chr14。“##[5]”ERR127302_chr14。砰”“ERR127303_chr14。砰”“ERR127304_chr14。bam ERR127305_chr14.bam”
创建BamFileList ()
,基本上告诉R这些是BAM文件的路径,而不是电子表格中的文本文件。
library(GenomicAlignments) bfls = BamFileList(fls) bfl = bfls[[1]]
输入和探索对齐。看到readGAlignments ?
而且GAlignments ?
有关如何操作这些对象的详细信息。
ga = readGAlignments(bfl) ga
与800484年# # GAlignments对象对齐和0元数据列:# # seqnames链雪茄qwidth开始结束宽度njunc # # < Rle > < Rle > <人物> <整数> <整数> <整数> <整数> <整数> # # [1]chr14 + 72 72 19069583 19069654 72 0 # # [2] chr14 + 72 72 19363738 19363809 72 0 # # [3] chr14 - 72 72 19363755 19363826 72 0 # # [4] chr14 + 72 72 19369799 19369870 72 0 # # [5] chr14 - 72 72 19369828 19369899 72 0 ## ... ... ... ... ... ... ... ... ...[800480] chr14 - 72M 72 106989780 106989851 72 0 ## [800481] chr14 + 72M 72 106994763 106994834 72 0 ## [800482] chr14 - 72M 72 106994819 106994890 72 0 ## [800483] chr14 + 72M 72 107003080 107003151 72 0 ## [800484] chr14 - 72M 72 107003171 107003242 72 0 ## ------- # seqinfo:来自未知基因组的93个序列
表(链(ga))
## ## + - * ## 400242 400242 0
许多读数都有雪茄“72M”。这是什么意思?您是否可以创建一个不具有此雪茄的读取子集?解读一些非72m雪茄。知道这些雪茄代表什么吗?
尾(排序(表(雪茄(ga))))
## ## 18m123n54m 36m123n36m 64m316n8m 38m670n34m 35m123n37m 72m ## 225 228 261 264 272 603939
ga[雪茄(ga) != "72M"]
## GAlignments对象,196545对齐,0元数据列:## seqnames绞盘雪茄qwidth起始结束width njunc ##
使用函数summarizeJunctions ()
用复杂的雪茄来识别基因组区域。你能用这个论点吗with.revmap = TRUE
提取支持特定(例如,第一个)连接的读取?
summarizeJunctions (ga)
与4635年# #农庄对象范围和3元数据列:# # seqnames范围链|得分plus_score minus_score # # < Rle > < IRanges > < Rle > | <整数> <整数> <整数> # # [1]chr14(19650127、19650127)* | 4 2 2 # # [2]chr14(19650127、19650127)* | 1 1 0 # # [3]chr14(19652355、19652355)* | 8 7 1 # # [4]chr14(19652355、19652355)* | 1 1 0 # # [5]chr14(19653773、19653773)* | 9 5 4 ## ... ... ... ... . ... ... ...## [4631] chr14 [106912703, 106922227] * | 10 1 ## [4632] chr14 [106938165,106938301] * | 10 2 8 ## [4633] chr14 [106944645, 106944774] * | 24 7 17 ## [4634] chr14 [106944969, 106950170] * | 7 6 1 ## [4635] chr14 [106950323,106960260] * | 1 10 ## ------- # seqinfo:来自未知基因组的93个序列
<- summarize(ga, with.revmap=TRUE) ga[$revmap[[1]]]
## seqnames strand cigar qwidth起始结束宽度njunc ## ## [1] chr14 + 55m2117n17m72 19650072 19652272 2189 1 ## [2] chr14 - 43m2117n29m72 19650087 19652275 2189 1 ## [4] chr14 + 38m2117n34m72 19650087 19652277 2189 1 ## ------- # seqinfo: 93个来自未指定基因组的序列
可以对BAM文件执行其他操作,例如,计算“覆盖率”(读取重叠每个基)。
覆盖(bfl) chr14美元
长度:19069582 72 294083 17 55…72 19 72 346298 ##值:0 1 0 1 2…1 0 1 0
的气道实验数据包总结了一个RNA-seq实验,研究人类平滑肌气道细胞系与地塞米松处理。加载库和数据集。
库(气道)数据(气道)气道
##类:rangedsummarizeexperimental ## dim: 64102 8 ##元数据(1):“## assays(1):计数## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
气道
是一个例子吗SummarizedExperiment类。探索它分析()
(每个样本中感兴趣的基因组区域重叠的reads计数矩阵),colData ()
(每个样本的描述),以及rowRanges ()
(对每个感兴趣区域的描述;这里每个区域是一个ENSEMBL基因)。
X <-化验(气道)类(X)
##[1]“矩阵”
暗(x)
## [1] 64102
头(x)
# # SRR1039508 SRR1039509 SRR1039512 SRR1039513 SRR1039516 SRR1039517 SRR1039520 # # ENSG00000000003 679 448 873 408 1138 1047 770 # # ENSG00000000005 0 0 0 0 0 0 0 # # ENSG00000000419 467 515 621 365 587 799 417 # # ENSG00000000457 260 211 263 164 245 331 233 55 # # ENSG00000000460 60 40 35 78 63 76 # # ENSG00000000938 0 0 2 0 1 0 0 # # SRR1039521 # # 572 # # ENSG00000000005 ENSG00000000003 0 # # ENSG00000000419 508 60 # # # # 229 # # ENSG00000000460 ENSG00000000457 ENSG00000000938 0
colData(气管)
运行avgLength实验样本## SRR1039508 SRR1039508 126 SRX384345 srr10395068 # SRR1039509 GSM1275863 N61311 trt untrt SRR1039509 126 SRX384346 srr508567 # SRR1039512 GSM1275866 N052611 trt untrt SRR1039512 126 SRX384349 srr508571 # SRR1039513 GSM1275867 N052611 trt untrt SRR1039513 87 SRX384350 SRS508572 ##SRR1039516 GSM1275870 N080611不被接收SRR1039516 120 SRX384353 srr508575 ## SRR1039517 GSM1275871 N080611不被接收SRR1039517 126 SRX384354 SRS508576 ## SRR1039520 GSM1275874 n06101011不被接收srr1039579 ## SRR1039521 GSM1275875 n06101011不被接收SRR1039508 SAMN02422669 ## SRR1039509 SAMN02422675 ## SRR1039512 SAMN02422678 ## SRR1039516 SAMN02422682 ## SRR1039517 SAMN02422673 ##生物样本## ### srr1039520 samn02422683 ## srr1039521 samn02422677
rowRanges(气管)
## GRanges对象,长度为64102:## $ENSG00000000003## seqnames ranges | exon_id exon_name ## | ## [1] X [99883667, 99884983] - | 667145 ENSE00001459322 ## [2] X [99885756, 99885863] - | 667146 ENSE00000868868 ## [3] X [99887482, 99887565] - | 667147 ENSE00000401072 ## [4] X [99887538, 99887565] - | 667148 ENSE00001849132 ## [5] X [99888402, 99888536] - | 667149 ENSE00003554016 ## # ... ... ... ... . ... ...## [13] x [99890555, 99890743] - | 667156 ense00003512331 ## [14] x [99891188, 99891686] - | 667158 ense00001886883 ## [15] x [99891605, 99891803] - | 667159 ense00001855382 ## [16] x [99891790,99892101] - | 667160 ense00001863395 ## [17] x [99894942, 99894988] - | 667156 ense00003512331 ## [14] x[99891188, 99891686]…## <64101更多元素> ## ------- ## seqinfo: 722个序列(1个循环)来自一个未指定的基因组
很容易划分a的子集SummarizedExperiment在行,列和分析,例如,只保留那些样品在泰爱泰党
水平敏捷
的因素。访问列数据的元素是常见的,因此有一条捷径。
cidx <- colData(气道)$dex %in% "trt"气道[,cidx]
##类:rangedsummarizeexperimental ## dim: 64102 4 ##元数据(1):“## assays(1):计数## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(4): SRR1039509 SRR1039513 SRR1039517 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
##快捷气道[,气道$dex %in% "trt"]
##类:rangedsummarizeexperimental ## dim: 64102 4 ##元数据(1):“## assays(1):计数## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(4): SRR1039509 SRR1039513 SRR1039517 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
在上面执行基于范围的操作也很容易SummarizedExperiment
对象,例如,查询14号染色体的范围,然后将子集设置为只包含该染色体上的基因。行上的范围操作非常常见,所以这里也有快捷方式。
chr14 <- as(seqinfo(rowRanges(气道)),"GRanges")["14"] ridx <- rowRanges(气道)%over% chr14气道[ridx,]
##类:rangedsummarizeexperiment ## dim: 2244 8 ##元数据(1):“## assays(1):计数## rownames(2244): ENSG00000006432 ENSG00000009830…ENSG00000273259 ENSG00000273307 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
##快捷键chr14 <- as(seqinfo(气道),"GRanges")["14"]气道[气道%over% chr14,]
##类:rangedsummarizeexperiment ## dim: 2244 8 ##元数据(1):“## assays(1):计数## rownames(2244): ENSG00000006432 ENSG00000009830…ENSG00000273259 ENSG00000273307 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
使用分析()
而且rowSums ()
函数中删除所有行气道
对象,该对象具有0个重复所有采样的读取。汇总库大小(的列和分析()
),并绘制每个感兴趣特征的读取分布的直方图。
加载org包智人.
库(org.Hs.eg.db)
使用select ()
用Entrez标识符和不太正式的基因名称注释HNRNPC基因符号。创建SYMBOL和ENTREZID之间的映射mapIds ()
.
select(org. hs . e.g. .db, "HNRNPC", c("ENTREZID", "GENENAME"), "SYMBOL")
## 'select()'返回键和列之间的1:1映射
HNRNPC 3183异质核核糖核蛋白C (C1/C2)
sym2eg <- mapIds(org.Hs.eg.db, "HNRNPC", "ENTREZID", "SYMBOL")
## 'select()'返回键和列之间的1:1映射
加载UCSC hg19 knownGene轨道的TxDb包
txdb <- txdb . hsapiens . ucsc .hg19. knowngene . library(txdb . hsapiens . ucsc .hg19. knowngene
提取基因坐标,HNRNPC基因外显子按基因分组。
gns <- genes(txdb) exonsBy(txdb, "gene")[sym2eg]
# # GRangesList对象长度1:# # # # 3183美元农庄对象2 19范围和元数据列:# # seqnames范围链| exon_id exon_name # # < Rle > < IRanges > < Rle > | <整数> <人物> # # [1]chr14(21677296、21677296)- | 184100 < NA > # # [2] chr14(21678927、21678927)- | 184101 < NA > # # [3] chr14(21679565、21679565)- | 184102 < NA > # # [4] chr14(21679565、21679565)- | 184103 < NA > # # [5] chr14(21679969、21679969)- | 184104 < NA > ## ... ... ... ... . ... ...## [15] chr14 [21702237,21702388] - | 184114 ## [16] chr14 [21730760, 21730927] - | 184115 ## [17] chr14 [21731470,21731495] - | 184116 ## [18] chr14 [21731826,21731988] - | 184117 ## [19] chr14 [21737457, 21737638] - | 184118 ## ## ------- # seqinfo:来自hg19基因组的93个序列(1个循环)
使用基因坐标查询特定基因组区域的BAM文件;看到? ScanBamParam ()
用于其他限制数据输入的方法。
library(Rsamtools) param <- ScanBamParam(which=gns[sym2eg]) readGAlignments(bfl, param=param)
与5422年# # GAlignments对象对齐和0元数据列:# # seqnames链雪茄qwidth开始结束宽度njunc # # < Rle > < Rle > <人物> <整数> <整数> <整数> <整数> <整数> # # [1]chr14 + 72 72 21677347 21677418 72 0 # # [2] chr14 + 72 72 21677352 21677423 72 0 # # [3] chr14 + 72 72 21677354 21677425 72 0 # # [4] chr14 + 72 72 21677355 21677426 72 0 # # [5] chr14 + 72 72 21677373 21677444 72 0 ## ... ... ... ... ... ... ... ... ...[5418] chr14 - 72M 72 21737512 21737583 72 0 ## [5420] chr14 - 72M 72 21737520 21737591 72 0 ## [5421] chr14 - 72M 72 21737521 21737592 72 0 ## [5422] chr14 - 72M 72 21737534 21737605 72 0 ## ------- # seqinfo:来自未指定基因组的93个序列
的路线图表观基因组学项目生成了跨越多个细胞系的调控标记的全基因组地图。
检索表观基因组路线图表AnnotationHub...
library(AnnotationHub) hub <-注解hub ()
## snapshotDate(): 2017-02-07
查询(hub, c(“表观基因组”,“元数据”))
##注释中心与1记录## # snapshotDate(): 2017-02-07 ## # names(): AH41830 ## # $dataprovider: BroadInstitute ## # $species: Homo sapiens ## # $rdataclass: data.frame ## # $title: EID_metadata。## $description:元数据的EpigenomeRoadMap项目## # $taxonomyid: 9606 ## $genome: hg19 ## $sourcetype: tab ## # $sourceurl: http://egg2.wustl.edu/roadmap/data/byFileType/metadata/EID_metadata.tab ## # $sourcelastmodifieddate: 2015-02-15 ## $sourcesize: 18035 ## $tags: c(“EpigenomeRoadMap”,“元数据”)## #检索记录与对象[["AH41830"]]]'
meta <- hub[["AH41830"]]
##从缓存/home/mtmorgan//加载AnnotationHub / 47270”
探索元数据以确定您感兴趣的细胞系;另请参阅元数据表基因组路线图项目提供的数据的电子表格版本。
表(元美元解剖学)
## ##肾上腺血液骨骼大脑乳房1 27 1 13 3颈部esc esc_derived fat gi_colon 1 8 9 3 3 3 gi_duodenum gi_esophagus gi_肠道gi_直肠gi_胃13 3 4 ##心脏ipsc肾脏肝脏肺4 5 1 2 5肌肉肌肉腿卵巢胰腺胎盘7 1 1 2 2 2皮肤脾脏基质结缔组织胸腺血管8 1 2 2 2 2
meta[meta$ANATOMY == "LIVER",]
EID组颜色记忆符STD_NAME ## 64 E066其他#999999 LIV。ADLT肝脏## 116 E118 ENCODE2012 #000000 LIV.HEPG2。HepG2肝细胞癌细胞系解剖类型年龄性别固体液体种族成体肝脏肝原发组织未知混合固体未知HepG2肝细胞癌肝细胞系男性单供体或复合体SD
使用' EID '来查询和检索总结染色质状态的'助记符'文件
查询(hub, c(“E118”,“助记符”))
## snapshotDate(): 2017-02-07 ## # names(): AH46971 ## $dataprovider: BroadInstitute ## # $species: Homo sapiens ## # $rdataclass: GRanges ## # $title: e118_15_co备注s_mnemonics.bed.gz ## $description: 15个状态染色质片段来自EpigenomeRoadMap项目## # $taxonomyid: 9606 ## $genome: hg19 ## $sourcetype: BED ## # $sourceurl: http://egg2.wustl.edu/roadmap/data/byFileType/chromhmmSegmentations/ChmmModels/cor…## # $sourcelastmodifieddate: 2013-10-11 ## $sourcesize: 3231313 ## $tags: c(“EpigenomeRoadMap”,“chromhmmSegmentations”,“ChmmModels”,“co备注”,## #“E118”,“ENCODE2012”,“LIV.HEPG2。CNCR", "HepG2肝细胞癌细胞系")## #检索记录与'对象[["AH46971"]]]'
E118 <- hub[["AH46971"]]
# #要求(“rtracklayer”)
##从缓存/home/mtmorgan//加载AnnotationHub / 52411”
E118
与561497范围和4 # #农庄对象元数据列:# # seqnames范围链|简写的名称# # < Rle > < IRanges > < Rle > | <人物> <人物> # # [1]chr10 [113200] * | # # 15 _quies静止/低[2]chr10(113201、119600)* | 14 _reprpcwk弱压抑PolyComb # # [3] chr10(119601、120000)* | 10 _tssbiv二价/准备TSS # # [4] chr10(120001、120200)* | 1 _tssa活跃TSS # # [5] chr10(120201、120400)* | 2 _tssaflnk TSS侧翼活跃 ## ... ... ... ... . ... ...## [561493] chrY [58907201, 58967400] * | 15_Quies静态/低## [561494]chrY [58967401, 58972000] * | 9_Het异染色质## [561495]chrY [58972001,58997400] * | 8_ZNF/Rpts ZNF基因和重复## [561496]chrY [58997401, 59033600] * | 9_Het异染色质## [561497]chrY [59033601, 59033601,59373400] * | 15_Quies Quiescent/Low ## color_name color_code ## <角色> <角色> ##[1]白色#FFFFFF # [2] Gainsboro #C0C0C0 ## [3] IndianRed #CD5C5C ## [4] Red #FF0000 #[5]橘红色#FF4500 ## ... ... ...[561493]白色#FFFFFF ##[561494]古绿松石#8A91D0 ##[561495]中海蓝宝石#66CDAA ##[561496]古绿松石#8A91D0 ##[561497]白色#FFFFFF ## ------- # seqinfo: hg19基因组93个序列(1个圆形)
探索对象,例如,制表不同的染色质状态分类(在名字
列)。将对象子集化以返回,例如,只返回标记为“异染色质”的区域。
表(E118美元名称)
## ##活性TSS双价增强子双价/平稳TSS增强子侧翼活性TSS侧翼双价TSS/Enh ## 110260 45115 15844基因增强子异染色质静止/低## 14995 31193 61759抑制PolyComb强转录Transcr。在基因5'和3'弱转录ZNF基因和重复序列
E118[E118$name %in% "Heterochromatin"]
GRanges对象,包含31193个范围和4个元数据列:## seqnames ranges | abbr name color_name ## | ## [1] chr10 [140201,143800] * | 9_Het异染色质PaleTurquoise ## [2] chr10 [806201,807800] * | 9_Het异染色质PaleTurquoise ## [3] chr10 [842001,843800] * | 9_Het异染色质PaleTurquoise ## [4] chr10 [1024601, 1027200] * | 9_Het异染色质PaleTurquoise ## [5] chr10 [1191601,1192600) * | 9 _het异染色质苍白的宝石绿 ## ... ... ... ... . ... ... ...# # [31189] chrY(58883001、58883001)* | 9 _het异染色质苍白的宝石绿# # [31190]chrY(58890001、58890001)* | 9 _het异染色质苍白的宝石绿# # [31191]chrY(58906401、58906401)* | 9 _het异染色质苍白的宝石绿# # [31192]chrY(58967401、58967401)* | 9 _het异染色质苍白的宝石绿# # [31193]chrY(58997401、58997401)* | 9 _het异染色质苍白的宝石绿# # color_code # # <人物> # 8 a91d0 # # # # [1] [2] # 8 a91d0 # # [3] # 8 a91d0 # # [4] # 8 a91d0 # # # 8 a91d0 [5] ## ... ...## [31189] #8A91D0 ## [31191] #8A91D0 ## [31192] #8A91D0 ## [31193] #8A91D0 ## # ------- ## seqinfo: hg19基因组93个序列(1个循环)
你可以,使用TxDb包和基因()
而且subsetByOverlaps ()
功能,决定有多少基因重叠异色状态,或基因最近的()
每个增强器?
参观biomart网站并找出如何浏览数据来检索,例如,21号和22号染色体上的基因。你需要去服装市场逛逛,人类spaiens数据集,为染色体21和22建立过滤器,然后指定您希望返回Ensembl基因id属性。
现在做同样的过程biomaRt:
library(biomaRt) head(listMarts(), 3) ## list marts head(listDatasets(useMart("ensembl")), 3) ## mart datasets ensembl <- ##完全指定的mart useMart("ensembl", dataset = "hsapiens_gene_ensembl") head(listFilters(ensembl), 3) ## filters myFilter <- "chromosome_name" substr(filterOptions(myFilter, ensembl), 1,50) ##返回值myValues <- c("21", "22") head(listAttributes(ensembl),3) ## attributes myAttributes <- c("ensembl_gene_id","chromosome_name") ##组装和查询集市res <- getBM(attributes = myAttributes, filters = myFilter, values = myValues, mart = ensembl)