作者:Martin Morgan (mtmorgan@fhcrc.org)、索娜莉·阿罗拉(sarora@fredhutch.org)
日期:2015年6月16日

BSgenome注释资源的基本操作

BSgenome.Hsapiens.UCSC.hg19也为BSgenome.Hsapiens.UCSC.hg19
人类基因组:# # # # #生物:智人(人类)# # #提供者:UCSC的提供者版本:# # # # # # hg19上映日期:2009年2月# # #释放名称:基因组参考财团GRCh37 # # # 93序列:# # # chr1 chr2 chr3 # # # chr4 chr5 chr6 # # # chr7 chr8 chr9  ## # ... ... ...chrUn_gl000248 chrUn_gl000249 ## #(使用'seqnames()'查看所有序列名,使用'$'或'[[' ## ##操作符访问给定序列)
hasiens [["chr19"]] #加载单个染色体
# # # # 59128983 -信“DNAString”实例seq: NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN…NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
letterFrequency (Hsapiens [[" chr19 "]], GC)
## b0 c# ## 26989400
#例如,getSeq(), matchPWM()
## [1] [[$ as。list bsgenomeName ## [5] coerce coerce<- commonName countPWM ## [9] export getSeq injectSNPs length ## [13] masknames matchPWM mseqnames names ## [17] organism provider providerVersion releaseDate ## [21] releaseName seqinfo seqinfo<- seqnames ## [25] seqnames<- show snpcount snpcount ## [29] SNPlocs_pkgname snplocs snplocs sourceUrl ## [33]查看vmatchPattern vmatchPDict ## see '?方法,用于访问帮助和源代码

exonsBy ()以及TxDb(基因模型)软件包的朋友

txdb <- txdb . hapiens . ucsc .hg19. knowngeneknownGene # easy- type alias egids <- c(BRCA1="672", PTEN="5728") genes(txdb, vals=list(gene_id=egids)) # start / end coordinates for two genes
## GRanges对象有2个范围和1个元数据列:## seqnames ranges strand | gene_id ##    |  ## 5728 chr10 [89623195,89728532] + | 5728 ## 672 chr17 [41196312, 41322420] - | 672 ## ------- ## seqinfo: 93序列(1循环)从hg19基因组
exByGn <- exonsBy(txdb, "gene") # exonsBy分组的基因方法(class=class(txdb)) # cds,转录本,启动子,…
## [1] $ $<- annotatedDataFrameFrom ## [4] as。列表asb asGFF # # [7] assayData assayData < - cd # # [10] cdsBy cdsByOverlaps强迫结合内容# # # #[13]列[16]dbconn dbfile dbInfo # #[19]该dbschema disjointExons # #[22]距离外显子exonsBy # # [25] exonsByOverlaps ExpressionSet extractUpstreamSeqs # # [28] featureNames featureNames < - fiveUTRsByTranscript # #[31]基因初始化intronsByTranscript ## [34] isActiveSeq isActiveSeq<- isNA ## [37] keys keytypes mapIds ## [40] mappedkeys mapToTranscripts metadata ## [43] microRNAs nhit organism ## [46] promoters revmap sample ## [49] sampleNames sampleNames<- saveDb ## [52] select seqinfo seqinfo<- # [55] seqlevels0 show species ## [58] storageMode storageMode<-threeUTRsByTranscript ## [61] transcript transcriptsBy transcriptsByOverlaps ## [64] tRNAs updateObject ## see '?方法,用于访问帮助和源代码

UCSC hg19外显子GC含量已知基因轨迹

library(txdb . hapiens . ucsc .hg19. knowngene) txdb <- txdb . hapiens . ucsc .hg19。knownGene ex <- getSeq(haspens, exons(txdb)) ex
## DNAStringSet实例的长度289969 ##宽度seq ## [1] 354 CTTGCCGTCAGCCTTTTCTTTGACCTCT…## [2] 127 gctcctgtctcccccccaggtgtgtgtgggtg…## [3] 109 gtgtgtgggtgatgccaggcccttc…## ... ... ...## [289968] 109 gtgtgtgtgatgccaggcatgcccttc…## [289969] 354 cttgccgtcttgccttttctttgacctct
嘘(letterFrequency (ex, GC, as.prob = TRUE))

目光敏锐的观众注意到,第一个外显子和最后一个外显子的宽度相同,并且有许多相同的核苷酸。Mike Love指出,这些外显子来自DDX11L1家族的基因,它发生在端粒亚端粒中。复制并不奇怪,因为端粒序列相似。这提供了一些背景。

路线图表基因组床文件

从装饰图案AnnotationHub入门的

library(AnnotationHub) hub <- AnnotationHub()
##要求'devel'版本的Bioconductor查询(hub, c("EpigenomeRoadMap", "E126", "H3K4ME2")) E126 <- hub[["AH29817"]]
E126
与153266年# #农庄对象范围和6元数据列:# # seqnames范围链|名称# # < Rle > < IRanges > < Rle > | <人物> # # [1]chr1(28994424、28994424)* | Rank_1 # # [2] chr4(54957157、54957157)* | Rank_2 # # [3] chr14(75760095、75760095)* | Rank_3  ## ... ... ... ... ... ...* | Rank_153265 ## [153266] chr7 [158387833,#数字> 10.55845 22.01316 18.99911 ## [2]188  8.11483 21.80441 18.80662 ## [3] 180  8.89834 20.97714 18.02816 ## ... ... ... ... ... ...## [153265] 0  1.51067 1.00321 0 ## [153266] 0  1.50505 1.00238 0 ## ------- ## seqinfo: 93序列(1循环)from hg19基因组

从hg19到hg38坐标

查询(hub, c(“hg38”,“hg19”,“chainfile”))
## # $dataprovider: UCSC ## # $species: Homo sapiens ## # $rdataclass: ChainFile ## #附加mcols():## AH14108 ## AH14108 | hg38ToHg19.over.chain.gz ## AH14150 | hg19ToHg38.over.chain.gz
E126hg38 <- liftOver(E126, hub[["AH14150"]]
## $1 ## GRanges object with 1 range and 6 metadata column# # seqnames范围链|名字分数# # < Rle > < IRanges > < Rle > | <人物> <数字> # # [1]chr1(28667912、28667912)* | Rank_1 189 # # signalValue pValue qValue峰值# # <数字> <数字> <数字> <数字> # # [1]< NA > 10.55845 22.01316 18.99911 # # # # # # 2美元农庄对象1范围和6元数据列:## seqnames ranges strand | name score signalValue ## [1] chr4 [54090990, 54092984] * | Rank_2 188  ## pValue qValue peak ## [1] 8.11483 21.80441 18.80662 ## ## $3 ## GRanges object with 1 range and 6 metadata column:## seqnames ranges strand | name score signalValue ## [1] chr14 [75293392, 75296621] * | Rank_3 180  ## pValue qValue peak ##[1] 8.89834 20.97714 18.02816 ## ##…## <153263 more elements> ## ------- ## seqinfo: 23个序列来自一个未指定的基因组;没有seqlengths
## GRangesList因为一些峰被提升到多个基因组位置表(elementlengthe126hg38))
# # # # 0 1 2 3 4 5 6 7 8 10 # # 31 152680 338 105 35 32 13 6 9 3 # # 11 12 16 17 18 19 25 # # 4 3 3 1 1 1 1

对齐reads和已知基因的重叠

参见实验1.3中的练习。

使用Hits对象

控件的“使用dbSNP变体”一节AnnotationHub指南装饰图案。