马丁摩根
2014年的10月28日
组织级(“org”)包包含中心标识符(如Entrez基因id)和其他标识符(如GenBank或Uniprot登录号、RefSeq id等)之间的映射。org包的名称总是这种形式org。< Sp >。< id > .db
(例如。org.Sc.sgd.db),< Sp >
是生物体的两个字母的缩写。Sc
为了酿酒酵母) 和
是一个缩写(小写),描述中心标识符的类型(例如。sgd
对于由此分配的基因标识符酿酒基因组数据库,或者例如
为Entrez基因ids)。[AnnotationDbi][]包(org包只是" .db "注释包的一种)中的“如何使用'.db'注释包”小插图是一个关键参考。'.db'和大多数其他Bioconductor注释包每6个月更新一次。
注释包通常包含一个以包本身命名的对象。这些对象统称为annotationdb.
对象,用更特定的类命名OrgdB.
,ChipDb
或TranscriptDb
对象。可应用于这些对象的方法包括关口()
,键()
,keytypes ()
和select ()
。检索注释的常用操作总结在表中。
类别 | 函数 | 描述 |
---|---|---|
发现 | 列() |
列出可以返回的列类型 |
keytypes () |
列出可以用作键的列 | |
键() |
列出可用于给定键类型的值 | |
select () |
检索注释匹配键 ,keytype 和列 |
|
操作 | setdiff() ,联盟() ,相交() |
套装运营 |
复制() ,独特() |
标记或删除重复 | |
%, % ,匹配() |
查找比赛 | |
任何() ,所有() |
是真正的 吗?都是吗? |
|
合并() |
组合两个不同的\ roblement {data.frames}基于共享密钥 | |
格兰人* |
抄本() ,外显子() ,CDS() |
特征(转录物,外显子,编码序列)如隆重 。 |
ranscriptsby() ,exonsBy () |
特征组由基因,转录等,如格兰德莱斯列表 。 |
|
cdsby() |
锻炼:这个练习演示了对注释包使用select'接口的基本用法。
OrgdB.
对象org.Hs.eg.db包中。使用列()
方法来发现可以从中提取哪些类型的注释。键()
方法提取ENSEMBL标识符,然后将这些键传递给select ()
方法,以这样的方式提取SYMBOL(基因符号)和GENENAME信息的每个。使用下面的ensemble bl id。ensid <- c("ENSG00000130720", "ENSG00000103257", "ENSG00000156414", "ENSG00000144644", "ENSG00000159307", "ENSG00000144485")
解决方案的OrgdB.
对象被命名org.Hs.eg.db
。
库(org.Hs.eg.db) keytypes (org.Hs.eg.db)
## [1]“ENTREZID”“PFAM”“IPI”“PROSITE”## [5]“ACCNUM”“别名”“CHR”“CHRLOC”## [9]“CHRLOCEND”“酶”“映射”“”路径““## [13]”pmid“”refseq“”符号“”unigene“## [17]”Ensembl“”Ensemblprot“”Ensembltrans“”Genename“## [21]”Uniprot“”Go“的”证据“”本体“## [25]”evidenceall“”Ontologyall“”Omim“## [29]”UCSCKG“
列(org.Hs.eg.db)
## [1]“ENTREZID”“PFAM”“IPI”“PROSITE”## [5]“ACCNUM”“别名”“CHR”“CHRLOC”## [9]“CHRLOCEND”“酶”“映射”“”路径““## [13]”pmid“”refseq“”符号“”unigene“## [17]”Ensembl“”Ensemblprot“”Ensembltrans“”Genename“## [21]”Uniprot“”Go“的”证据“”本体“## [25]”evidenceall“”Ontologyall“”Omim“## [29]”UCSCKG“
select(org.Hs.eg.db, keys=ensid, columns=cols, keytype="ENSEMBL")
## Ensembl符号## 1 ensg00000130720 FIBCD1 ## 2 ensg00000103257 SLC7A5 ## ensg00000156414 TDRD9 ## 4 ensg00000144644 Gadl1 ## 5 ensg00000159307 Scube1 ## 6 ensg00000144485 Hes6 ## Genename ## 1纤维蛋白原C域含有1 ## 2溶质载体家庭7(氨基酸转运蛋白轻链,L系统),构件5 ## 3铎域含有9 ## 4谷氨酸脱羧酶样1 ## 5信号肽,幼崽域,EGF样1 ## 6 HES Family BHLH转录因子6.
下面是对启用基于web的查询的选择Bioconductor包的简短总结。
包裹 | 描述 |
---|---|
annotationhub. | ensemble bl, Encode, dbSNP, UCSC数据对象 |
biomaRt | 集成和其他注释 |
PSICQUIC | 蛋白质相互作用 |
uniprot.ws | 蛋白质注释 |
凯格斯特 | KEGG通路 |
SRAdb | 测序实验。 |
rtracklayer | 基因组的痕迹。 |
GEOquery | 阵列和其他数据 |
ArrayExpress] | 阵列和其他数据 |
使用生物制品
的biomaRt包提供在线访问biomart资源。这包括几个数据库资源,称为“集市”。每个集市允许访问多个数据集;的biomaRt包提供了mart和数据集发现的方法,以及一个标准方法getBM ()
检索数据。
锻炼
getBM ()
。除了要访问的集市之外,这个函数还接受过滤器和属性作为参数。使用filterOptions ()
和listAttributes ()
发现这些论点的价值。调用getBM ()
使用您选择的过滤器和属性。解决方案
##需要上网!!库(biomaRt)头(listMarts(), 3) # #列表集市头(listDatasets (useMart(“运用”)),3)运用< - # # # #集市数据集完全指定的集市useMart(“运用”,数据集=“hsapiens_gene_ensembl”)负责人(listFilters(运用),3)# #过滤器myFilter < -“chromosome_name substr (filterOptions (myFilter运用),1,##集合和查询mart res <- getBM(attributes = myAttributes, filters = myFilter, values = myValues, mart = ensembl)
锻炼
作为可选的运动,注释在DESEQ2实验室中差异表达的基因,例如,发现与五种最差异表达基因相关的\ TextTT {Genename}。这些制作生物学意义吗?你可以吗合并()
注释结果与顶部表'结果提供一个统计和生物学信息摘要?
有多样性的包装和课程可用于代表大型基因组。几个包括:
available.packages ()
,以及小插图“如何伪造一个bs基因组数据包”在FaFile ()
(Rsamtools)来访问已索引的FASTA文件。以基因组为中心的包对于涉及基因组坐标的注释非常有用。它是直接的,例如,发现编码序列的坐标在感兴趣的区域,并从这些检索相应的DNA或蛋白质编码序列。其他易于使用基因组中心注释的操作类型的例子包括:定义RNA-seq实验中计数对齐读的感兴趣区域,检索ChIP-seq分析中感兴趣区域的DNA序列,例如,用于基序表征。
锻炼
该练习使用注释资源从基因符号“BRCA1”到与该基因相关的每个转录本的基因组坐标,最后到转录本的DNA序列。
选择
命令。TXNAME
)对应于BRCA1 Entrez标识符。('ORG *'软件包基于NCBI的信息,其中Entrez标识符被标记为EntrezID;我们使用的“TXDB *”包是来自UCSC的,其中Entrez标识符被标记为基因)。使用cdsby()
用于检索通过转录物分组的所有编码序列的基因组坐标的功能,并选择与我们感兴趣的标识符对应的转录物。编码序列作为一个格兰德莱斯列表
,列表的每个元素都是一个隆重
代表编码序列中外显子的对象。作为完整性检查,确保每个编码序列的外显子宽度之和能被3整除(R '模'算子)%%
返回一个数除以另一个数的余数,在这种情况下可能有用)。
使用[GVIZ]封装来构建基因组坐标中的转录物以构建一个AnnotationTrack
,然后用Plottracks()
。
使用bsgenome.hsapiens.ucsc.hg19.包裹extractTranscriptSeqs ()
用于提取每个转录物的DNA序列的功能。
解决方案
检索与BRCA1基因符号对应的Entrez标识符
select(org.Hs.eg.db, "BRCA1", "ENTREZID", "SYMBOL")[["ENTREZID"]]
从Entrez基因标识符到转录本名称的图谱
txdb <- txdb . hapiens . ucsc .hg19. knowngeneknownGene txid <- select(txdb, eid, "TXNAME", "GENEID")[["TXNAME"]]
## 1:很多键和返回行之间的映射
检索由转录物组分组的所有编码序列,并选择符合转录物ID的符合脚本ID的编码序列,验证每个编码序列宽度为3的倍数
CDS < - CDSBY(TXDB,BY =“TX”,USED.NAMES = TRUE)BRCA1CDS < - CDS [CDS(CDS)%IN%TXID]类(BRCA1CD)
# #[1]“GRangesList”# # attr(“包”)# #[1]“GenomicRanges”
长度(brca1cds)
## [1] 20
CDS中的外显子
## GRanges对象有22个范围和3个元数据列:# # seqnames范围链| cds_id cds_name # # < Rle > < IRanges > < Rle > | <整数> <人物> # # [1]chr17(41276034、41276034)- | 186246 < NA > # # [2] chr17(41267743、41267743)- | 186245 < NA > # # [3] chr17(41258473、41258473)- | 186243 < NA > # # [4] chr17(41256885、41256885)- | 186241 < NA > # # [5] chr17 (41256139,41256278) | 186240 < NA > ## ... ... ... ... ... ... ...# # [18] chr17(41209069、41209069)- | 186218 < NA > # # [19] chr17(41203080、41203080)- | 186217 < NA > # # [20] chr17(41201138、41201138)- | 186215 < NA > # # [21] chr17(41199660、41199660)- | 186214 < NA > # # [22] chr17(41197695、41197695)- | 186212 < NA > # # exon_rank # # <整数> # # 1 # # [1][2]2 # # 3 # # [3][4]4 # # [5]5 ## ... ...## hg19基因组的93个序列(1个循环)
Cdswidth <- width(brca1cds) #每个外显子的宽度all((sum(Cdswidth) %% 3) == 0) # sum within cds,模3
# # [1]
要求(GVIZ)Anno < - AnnotationTrack(BRCA1CD)Plottracks(list(genomeaxistrack(),anno))
提取每个转录本的编码序列
BSgenome.Hsapiens.UCSC.hg19 (BSgenome.Hsapiens.UCSC.hg19)hg19 tx_seq <- extractTranscriptSeqs(genome, brca1cds) tx_seq
##长度为20 ##宽度SEQ名称## [1] 2280 ATGGATTTATCTGCTCTTCG ... TCCCCCCAGAGCCACTGA UC010WHL.2 ## [2] 5379 ATGAGCCTACAAGAAAGTAC ... TCCCCCACAGCCACTACTGA UC002ICP.4 ## [3] 522 ATGGATGCTGAGTTGTGTG.tcccccacagccactactga uc010whm.2 ## [4] 2100 AtggattTATCTGCTTTCG ... GCAATTGGGCAGATGTGTGA UC002ICU.3 ## [5] 5451 ATGCTGAAACTTCTCAACCA ... TCCCCCAGAGCCACTGA UC010CYX.3 ## ... ... ## [16] 4095ATGGATTTATCTGCTCTTCG ... AAAGCATGGATTCAAACTTA uc010cyy.1 ## [17] 4095 ATGGATTTATCTGCTCTTCG ... AAAGCATGGATTCAAACTTA uc010whs.1 ## [18] 3954 ATGCTGAAACTTCTCAACCA ... AAAGCATGGATTCAAACTTA uc010cyz.2 ## [19] 4017 ATGGATTTATCTGCTCTTCG ... AAAGCATGGATTCAAACTTA uc010cza.2## [20] 3207 atgaatgtagaaaaggctga ... aaagcatggattcaacta uc010wht.1
首先计算每个转录本所覆盖的基因组(从第一个外显子开始到最后一个外显子结束)的范围,然后取该范围与每个外显子覆盖的基因组坐标之间的(代数)差值,即可确定内含子的坐标
内含子<- psetdiff(range(brca1cds), brca1cds)
检索内含子序列getseq()
(这些都是不是组装,方式extractTranscriptSeqs ()
将外显子序列组装成成熟的成绩单);请注意,内含子从适当的受体和供体部位序列开始和结束。
seq <- getSeq(基因组,内含子)名称
## [1]“UC010WHL.2”“UC010WHM.2”“UC002ICU.3”“UC010CYX.3”## [6]“UC002ICQ.3”“UC002ICT.3”“UC010WHN.2”“UC010WHO.3”“UC010WHP.2”## [11]“UC010WHQ.1”“UC010WHR.1”“UC010WHR.1”“UC002IDD.3”“UC002IDE.1”## [16]“UC010CYY.1”。“UC010WHS.1”“UC010CYZ.2”“UC010CZA.2”“UC010WHT.1”
SEQ [[“UC010WHL.2”]]#21内含子
seq ## [1] 1840 GTAAGGTGCCTGCATGTACCTGTGCTATATG…## [2] 1417 gtaagtatgggtgccctgtcagagagggag…## [3] 1868 gtaagagcctggagagaccccagagaccccagagttccag…## [4] 5934 gtaaagctccctccctcaagttgacaaaaat…## [5] 6197 gtaagtacttgatgttttacaaactaaccagag…tcctgatgggttgtgtttggtttcttccag ## ... ... ...## [17] 4241 gtaaaaccattttttcttcttcttttct…## [18] 606 gtaagtgttgaatatcccaagaatgacactc…一个一个一个CATAATGTTTTCCCTTGTATTTTACAG ## [19] 1499 GTATATAATTTGGTAATGATGCTAGGTTGGA...GAGTGTGTTTCTCAAACAATTTAATTTCAG ## [20] 9192 GTAAGTTTGAATGTGTTATGTGGCTCCATTA...AATTGTTCTTTCTTTCTTTATAATTTATAG ## [21] 8237 GTAAGTCAGCACAAGAGTGTATTAATTTGGG...TTTTCTTTTTCTCCCCCCCTACCCTGCTAG
的rtracklayer软件包允许我们查询UCSC基因组浏览器,以及提供进口()
和export ()
函数用于GFF,GTF和床等常用注释文件格式。
锻炼
在这里,我们使用rtracklayer检索横跨编码项目中鉴定的雌激素受体结合位点。我们专注于兴趣区域附近的绑定网站。
隆重
实例与适当的基因组坐标。我们的区域对应于一个特定基因的10Mb的上游和下游。解决方案
定义感兴趣的区域
library(GenomicRanges) roi <- GRanges("chr10", IRanges(92106877, 112106876, names="ENSG00000099194"))
创建一个会话
library(rtracklayer) session <- browserSession()
在我们感兴趣的地区查询特定曲目,表和转录因子的UCSC
ucscTable <- getTable(ucscTableQuery(session, track=trackName, range=roi, table=tableName, name=trFactor))
可视化结果
绘图(得分~ChromStart,UCSctable,PCH =“+”)Alline(v =开始(ROI)+(END(ROI) - 开始(ROI)+ 1)/ 2,COL =“蓝色”)
遵循变体工作流程。