注释基因，基因组和变异

马丁摩根
2014年的10月28日

基因注释

数据的包

组织级(“org”)包包含中心标识符(如Entrez基因id)和其他标识符(如GenBank或Uniprot登录号、RefSeq id等)之间的映射。org包的名称总是这种形式org。< Sp >。< id > .db（例如。org.Sc.sgd.db),< Sp >是生物体的两个字母的缩写。Sc为了酿酒酵母）和是一个缩写(小写)，描述中心标识符的类型(例如。sgd对于由此分配的基因标识符酿酒基因组数据库,或者例如为Entrez基因ids)。[AnnotationDbi][]包(org包只是" .db "注释包的一种)中的“如何使用'.db'注释包”小插图是一个关键参考。'.db'和大多数其他Bioconductor注释包每6个月更新一次。

注释包通常包含一个以包本身命名的对象。这些对象统称为annotationdb.对象，用更特定的类命名OrgdB.,ChipDb或TranscriptDb对象。可应用于这些对象的方法包括关口(),键(),keytypes ()和select ()。检索注释的常用操作总结在表中。

类别	函数	描述
发现	`列()`	列出可以返回的列类型
	`keytypes ()`	列出可以用作键的列
	`键()`	列出可用于给定键类型的值
	`select ()`	检索注释匹配`键`,`keytype`和`列`
操作	`setdiff（）`,`联盟（）`,`相交（）`	套装运营
	`复制()`,`独特（）`	标记或删除重复
	`%, %`,`匹配()`	查找比赛
	`任何()`,`所有()`	是`真正的`吗?都是吗?
	`合并()`	组合两个不同的\ roblement {data.frames}基于共享密钥
`格兰人*`	`抄本（）`,`外显子()`,`CDS（）`	特征（转录物，外显子，编码序列）如`隆重`。
	`ranscriptsby（）`,`exonsBy ()`	特征组由基因，转录等，如`格兰德莱斯列表`。
	`cdsby（）`

锻炼:这个练习演示了对注释包使用select'接口的基本用法。

org包的名称是什么？HOMO SAPIENS.吗?加载它。显示OrgdB.对象org.Hs.eg.db包中。使用列()方法来发现可以从中提取哪些类型的注释。
使用键()方法提取ENSEMBL标识符，然后将这些键传递给select ()方法，以这样的方式提取SYMBOL(基因符号)和GENENAME信息的每个。使用下面的ensemble bl id。

ensid <- c("ENSG00000130720"， "ENSG00000103257"， "ENSG00000156414"， "ENSG00000144644"， "ENSG00000159307"， "ENSG00000144485")

解决方案的OrgdB.对象被命名org.Hs.eg.db。

库(org.Hs.eg.db) keytypes (org.Hs.eg.db)

## [1]“ENTREZID”“PFAM”“IPI”“PROSITE”## [5]“ACCNUM”“别名”“CHR”“CHRLOC”## [9]“CHRLOCEND”“酶”“映射”“”路径““## [13]”pmid“”refseq“”符号“”unigene“## [17]”Ensembl“”Ensemblprot“”Ensembltrans“”Genename“## [21]”Uniprot“”Go“的”证据“”本体“## [25]”evidenceall“”Ontologyall“”Omim“## [29]”UCSCKG“

列(org.Hs.eg.db)

## [1]“ENTREZID”“PFAM”“IPI”“PROSITE”## [5]“ACCNUM”“别名”“CHR”“CHRLOC”## [9]“CHRLOCEND”“酶”“映射”“”路径““## [13]”pmid“”refseq“”符号“”unigene“## [17]”Ensembl“”Ensemblprot“”Ensembltrans“”Genename“## [21]”Uniprot“”Go“的”证据“”本体“## [25]”evidenceall“”Ontologyall“”Omim“## [29]”UCSCKG“

select(org.Hs.eg.db, keys=ensid, columns=cols, keytype="ENSEMBL")

## Ensembl符号## 1 ensg00000130720 FIBCD1 ## 2 ensg00000103257 SLC7A5 ## ensg00000156414 TDRD9 ## 4 ensg00000144644 Gadl1 ## 5 ensg00000159307 Scube1 ## 6 ensg00000144485 Hes6 ## Genename ## 1纤维蛋白原C域含有1 ## 2溶质载体家庭7（氨基酸转运蛋白轻链，L系统），构件5 ## 3铎域含有9 ## 4谷氨酸脱羧酶样1 ## 5信号肽，幼崽域，EGF样1 ## 6 HES Family BHLH转录因子6.

互联网资源

下面是对启用基于web的查询的选择Bioconductor包的简短总结。

包裹	描述
annotationhub.	ensemble bl, Encode, dbSNP, UCSC数据对象
biomaRt	集成和其他注释
PSICQUIC	蛋白质相互作用
uniprot.ws	蛋白质注释
凯格斯特	KEGG通路
SRAdb	测序实验。
rtracklayer	基因组的痕迹。
GEOquery	阵列和其他数据
ArrayExpress]	阵列和其他数据

使用生物制品

的biomaRt包提供在线访问biomart资源。这包括几个数据库资源，称为“集市”。每个集市允许访问多个数据集;的biomaRt包提供了mart和数据集发现的方法，以及一个标准方法getBM ()检索数据。

锻炼

加载biomaRt包装和列出可用的市场。选择运用Mart并列出那个市场的数据集。建立一个马上用来使用运用Mart和A.hsapiens基因运用数据集。
一个biomaRt数据集可以通过getBM ()。除了要访问的集市之外，这个函数还接受过滤器和属性作为参数。使用filterOptions ()和listAttributes ()发现这些论点的价值。调用getBM ()使用您选择的过滤器和属性。

解决方案

##需要上网!!库(biomaRt)头(listMarts(), 3) # #列表集市头(listDatasets (useMart(“运用”)),3)运用< - # # # #集市数据集完全指定的集市useMart(“运用”,数据集=“hsapiens_gene_ensembl”)负责人(listFilters(运用),3)# #过滤器myFilter < -“chromosome_name substr (filterOptions (myFilter运用),1,##集合和查询mart res <- getBM(attributes = myAttributes, filters = myFilter, values = myValues, mart = ensembl)

锻炼

作为可选的运动，注释在DESEQ2实验室中差异表达的基因，例如，发现与五种最差异表达基因相关的\ TextTT {Genename}。这些制作生物学意义吗？你可以吗合并()注释结果与顶部表'结果提供一个统计和生物学信息摘要?

基因组注释

有多样性的包装和课程可用于代表大型基因组。几个包括：

“TxDb。*'用于转录本和其他基因组/坐标注释。
bsgenome.全基因组表达。看到available.packages ()，以及小插图“如何伪造一个bs基因组数据包”在
homo.sapiens.集成的TxDb”和“org。'包裹。
“SNPLOCS。*”用于源自DBSNP的模型生物体SNP位置。
FaFile ()(Rsamtools)来访问已索引的FASTA文件。
'筛选。*'，'polyphen'，'Ensemblvep'变体效果分数。

转录者注释包

以基因组为中心的包对于涉及基因组坐标的注释非常有用。它是直接的，例如，发现编码序列的坐标在感兴趣的区域，并从这些检索相应的DNA或蛋白质编码序列。其他易于使用基因组中心注释的操作类型的例子包括:定义RNA-seq实验中计数对齐读的感兴趣区域，检索ChIP-seq分析中感兴趣区域的DNA序列，例如，用于基序表征。

锻炼

该练习使用注释资源从基因符号“BRCA1”到与该基因相关的每个转录本的基因组坐标，最后到转录本的DNA序列。

使用org.Hs.eg.db包装从基因符号'BRCA1'映射到其Entrez标识符。使用选择命令。
使用TxDb.Hsapiens.UCSC.hg19.knownGene包以检索脚本名称（TXNAME）对应于BRCA1 Entrez标识符。（'ORG *'软件包基于NCBI的信息，其中Entrez标识符被标记为EntrezID;我们使用的“TXDB *”包是来自UCSC的，其中Entrez标识符被标记为基因）。
使用cdsby（）用于检索通过转录物分组的所有编码序列的基因组坐标的功能，并选择与我们感兴趣的标识符对应的转录物。编码序列作为一个格兰德莱斯列表，列表的每个元素都是一个隆重代表编码序列中外显子的对象。作为完整性检查，确保每个编码序列的外显子宽度之和能被3整除(R '模'算子)%%返回一个数除以另一个数的余数，在这种情况下可能有用)。
使用[GVIZ]封装来构建基因组坐标中的转录物以构建一个AnnotationTrack，然后用Plottracks（）。
使用bsgenome.hsapiens.ucsc.hg19.包裹extractTranscriptSeqs ()用于提取每个转录物的DNA序列的功能。

解决方案

检索与BRCA1基因符号对应的Entrez标识符

select(org.Hs.eg.db， "BRCA1"， "ENTREZID"， "SYMBOL")[["ENTREZID"]]

从Entrez基因标识符到转录本名称的图谱

txdb <- txdb . hapiens . ucsc .hg19. knowngeneknownGene txid <- select(txdb, eid， "TXNAME"， "GENEID")[["TXNAME"]]

## 1:很多键和返回行之间的映射

检索由转录物组分组的所有编码序列，并选择符合转录物ID的符合脚本ID的编码序列，验证每个编码序列宽度为3的倍数

CDS < -  CDSBY（TXDB，BY =“TX”，USED.NAMES = TRUE）BRCA1CDS < -  CDS [CDS（CDS）％IN％TXID]类（BRCA1CD）

# #[1]“GRangesList”# # attr(“包”)# #[1]“GenomicRanges”

长度(brca1cds)

## [1] 20

CDS中的外显子

## GRanges对象有22个范围和3个元数据列:# # seqnames范围链| cds_id cds_name # # < Rle > < IRanges > < Rle > | <整数> <人物> # # [1]chr17(41276034、41276034)- | 186246 < NA > # # [2] chr17(41267743、41267743)- | 186245 < NA > # # [3] chr17(41258473、41258473)- | 186243 < NA > # # [4] chr17(41256885、41256885)- | 186241 < NA > # # [5] chr17 (41256139,41256278) | 186240 < NA > ## ... ... ... ... ... ... ...# # [18] chr17(41209069、41209069)- | 186218 < NA > # # [19] chr17(41203080、41203080)- | 186217 < NA > # # [20] chr17(41201138、41201138)- | 186215 < NA > # # [21] chr17(41199660、41199660)- | 186214 < NA > # # [22] chr17(41197695、41197695)- | 186212 < NA > # # exon_rank # # <整数> # # 1 # # [1][2]2 # # 3 # # [3][4]4 # # [5]5  ## ... ...## hg19基因组的93个序列(1个循环)

Cdswidth <- width(brca1cds) #每个外显子的宽度all((sum(Cdswidth) %% 3) == 0) # sum within cds，模3

# # [1]

使用[Gviz]可视化BRCA1转录本)

要求（GVIZ）Anno < -  AnnotationTrack（BRCA1CD）Plottracks（list（genomeaxistrack（），anno））

大块Gviz的情节

提取每个转录本的编码序列

BSgenome.Hsapiens.UCSC.hg19 (BSgenome.Hsapiens.UCSC.hg19)hg19 tx_seq <- extractTranscriptSeqs(genome, brca1cds) tx_seq

##长度为20 ##宽度SEQ名称## [1] 2280 ATGGATTTATCTGCTCTTCG ... TCCCCCCAGAGCCACTGA UC010WHL.2 ## [2] 5379 ATGAGCCTACAAGAAAGTAC ... TCCCCCACAGCCACTACTGA UC002ICP.4 ## [3] 522 ATGGATGCTGAGTTGTGTG.tcccccacagccactactga uc010whm.2 ## [4] 2100 AtggattTATCTGCTTTCG ... GCAATTGGGCAGATGTGTGA UC002ICU.3 ## [5] 5451 ATGCTGAAACTTCTCAACCA ... TCCCCCAGAGCCACTGA UC010CYX.3 ## ... ... ## [16] 4095ATGGATTTATCTGCTCTTCG ... AAAGCATGGATTCAAACTTA uc010cyy.1 ## [17] 4095 ATGGATTTATCTGCTCTTCG ... AAAGCATGGATTCAAACTTA uc010whs.1 ## [18] 3954 ATGCTGAAACTTCTCAACCA ... AAAGCATGGATTCAAACTTA uc010cyz.2 ## [19] 4017 ATGGATTTATCTGCTCTTCG ... AAAGCATGGATTCAAACTTA uc010cza.2## [20] 3207 atgaatgtagaaaaggctga ... aaagcatggattcaacta uc010wht.1

首先计算每个转录本所覆盖的基因组(从第一个外显子开始到最后一个外显子结束)的范围，然后取该范围与每个外显子覆盖的基因组坐标之间的(代数)差值，即可确定内含子的坐标

内含子<- psetdiff(range(brca1cds)， brca1cds)

检索内含子序列getseq（）（这些都是不是组装，方式extractTranscriptSeqs ()将外显子序列组装成成熟的成绩单）;请注意，内含子从适当的受体和供体部位序列开始和结束。

seq <- getSeq(基因组，内含子)名称

## [1]“UC010WHL.2”“UC010WHM.2”“UC002ICU.3”“UC010CYX.3”## [6]“UC002ICQ.3”“UC002ICT.3”“UC010WHN.2”“UC010WHO.3”“UC010WHP.2”## [11]“UC010WHQ.1”“UC010WHR.1”“UC010WHR.1”“UC002IDD.3”“UC002IDE.1”## [16]“UC010CYY.1”。“UC010WHS.1”“UC010CYZ.2”“UC010CZA.2”“UC010WHT.1”

SEQ [[“UC010WHL.2”]]＃21内含子

seq ## [1] 1840 GTAAGGTGCCTGCATGTACCTGTGCTATATG…## [2] 1417 gtaagtatgggtgccctgtcagagagggag…## [3] 1868 gtaagagcctggagagaccccagagaccccagagttccag…## [4] 5934 gtaaagctccctccctcaagttgacaaaaat…## [5] 6197 gtaagtacttgatgttttacaaactaaccagag…tcctgatgggttgtgtttggtttcttccag ## ... ... ...## [17] 4241 gtaaaaccattttttcttcttcttttct…## [18] 606 gtaagtgttgaatatcccaagaatgacactc…一个一个一个CATAATGTTTTCCCTTGTATTTTACAG ## [19] 1499 GTATATAATTTGGTAATGATGCTAGGTTGGA...GAGTGTGTTTCTCAAACAATTTAATTTCAG ## [20] 9192 GTAAGTTTGAATGTGTTATGTGGCTCCATTA...AATTGTTCTTTCTTTCTTTATAATTTATAG ## [21] 8237 GTAAGTCAGCACAAGAGTGTATTAATTTGGG...TTTTCTTTTTCTCCCCCCCTACCCTGCTAG

rtracklayer

的rtracklayer软件包允许我们查询UCSC基因组浏览器，以及提供进口()和export ()函数用于GFF，GTF和床等常用注释文件格式。

锻炼

在这里,我们使用rtracklayer检索横跨编码项目中鉴定的雌激素受体结合位点。我们专注于兴趣区域附近的绑定网站。

通过创建一个来定义我们的感兴趣区域隆重实例与适当的基因组坐标。我们的区域对应于一个特定基因的10Mb的上游和下游。
为UCSC基因组浏览器创建一个会话
通过UCSC基因组浏览器查询ENCODE雌激素受体ERalpha\(_a\)转录标记;识别合适的轨迹、表和转录因子需要生物学知识和检测工作。
可视化结合位点的位置和它们的分数;注释感兴趣区域的中点。

解决方案

定义感兴趣的区域

library(GenomicRanges) roi <- GRanges("chr10"， IRanges(92106877, 112106876, names="ENSG00000099194"))

创建一个会话

library(rtracklayer) session <- browserSession()

在我们感兴趣的地区查询特定曲目，表和转录因子的UCSC

ucscTable <- getTable(ucscTableQuery(session, track=trackName, range=roi, table=tableName, name=trFactor))

可视化结果

绘图（得分~ChromStart，UCSctable，PCH =“+”）Alline（v =开始（ROI）+（END（ROI） - 开始（ROI）+ 1）/ 2，COL =“蓝色”）

大块轨道层图

变体

遵循变体工作流程。