内容

作者:Sonali Arora(sarora@fredhutch.org.
日期:2015年7月20日至24日

本课程中的材料需要R版本3.2.1和Biocumon V9.2

0.1生物导体中间实验室

练习1
找到Biocumon中的包,其中包含从UCSC生成的ucsc for tar norvegicus(汇编RN5),加载它并将其保存在一个名为“TXDB”的变量中。使用此对象,执行以下操作 -
a)找到本组装中包含的所有基因,并将其保存在一个名为'Ratenes'中。
b)大鼠中含有多少个序列?(提示:?SEQINFO)
c)'RATGENES'还包含支架 - 您如何将对象置于仅从标准染色体中包含序列?
b)我对基因'ACSL5'(Entrez Gene ID = 94340)感兴趣。这是否存在于'Ratenes'中?它的染色体坐标是什么?

练习2
找到Biocomumon中的包,可以将Rattus Norvegicus(大鼠)的全基因组序列(RN5,2012年3月)储存
a)加载包并将其保存在一个名为“ratseq”的对象中
b)存储在哪个序列信息的对象?
c)获取ACSL5的DNA序列信息,并将其存储在'ACSL5_SEQUENCE'中
d)从该序列中计算GC含量。

练习3.
在上面的“Ratenes”对象中,您只能获得Entrez基因ID,您可以获得每个基因的基因名称吗?

练习4.
获取来自NCBI的注释数据库for homo sapiens(汇编build grch38.80),创建一个txdb对象(类似于我们在上面的问题3中看到的)并获得基因。(提示 - 涉及用GTF文件从划痕开始)

练习5.
与UCSC浏览器跟踪基础设施一起开发的提升设备可用于转换GANGES格式的数据。我们希望将数据从RN4转换为最新的胶合RN6。
a)对RN6坐标的转换由UCSC提供的链文件定义。获取包含从RN5转换为RN6的链文件。
b)获取链文件后执行升值。

0.2解决方案

答案1

suppresspackageStartUpMessages({库(“TXDB.rnorvegicus.ucc.rn5.refgene”)})TXDB < -  TXDB.rnorveG​​icus.Cucsc.rn5.refgene ##查找所有基因Raten < - 基因(TXDB)##列出所有序列SEQINFO(RATGENES)
## SEQINFO对象具有2739个序列(1个循环)来自RN5 Genome:## SEQNAMES SEQLENGTHS ISCircular Genome ## CHR1 290094216 FALSE RN5 ## CHR2 285068071 FALSE RN5 ## CHR3 183740530 FESHR RN5 ## CHR4 248343840 FALSE RN5 ## CHR5 177180328 FALSERN5 ## ... ... ## Chrun_JH620694 6347 False RN5 ## Chrun_JH620695 1669 False RN5 ## Chrun_JH620696 7236 False RN5 ## Chrun_JH620697 3488 False RN5 ## Chrun_JH620698 3129 False RN5
##子集仅包含标准染色体的标准染色体< - 饥饿标准十四胞体(RATGENES)##找到基因'ACSL5'ACSL5 < -  RUENES [哪个(MCOL(RUGENES)$ GENE_ID == 94340),] ACSL5
## GRANGES对象具有1个范围和1个元数据列:## SEQNAMES范围股票|gene_id ##    | ## 94340 CHR1 [283637899,283685361] + |94340 ## ------- ## SEQINFO:来自RN5基因组的22个序列(1个圆形)

答案2

suppresspackageStartUpMessages({库(bsgenome.rnorvegicus.ucsc.rn5)})ratseq < -  bsgenome.rnorvegicus.ucc.rn5类(ratseq)
## [1]“bsgenome”## attr(,包装“)## [1]”bsgenome“
##获取序列ACSL5_Sequence < -  Getseq(Ratseq,ACSL5)##计算GC内容Letterfruquency(ACSL5_Sequence,“GC”,AS.Prob = True)
## g | C ## [1,] 0.4156501

答案3.

图书馆(“rattus.norvegicus”)
##加载所需包:加载所需包:go.db ## ##加载所需包:org.rn.eg.db ## ##现在直接获取Godb对象##直接获取OrgdB对象##现在直接获取TXDB对象
##在所有entrex id和基因名称之间获取映射RuggenEnames < - 选择(Rattus.norvegicus,Ratenes $ Gene_ID,列= C(“符号”,'GeneID'),Keytype =“GeneID”)
##'select()'返回1:1键之间映射键和列之间
##将Entrz ID与子集idx < - 匹配(ratgenenames $ geneid,Ratenes $ gene_id)匹配,将mactched结果添加到granges mcols(Ratenes)< -  Rugenenames [Idx,] Ratenes
## GRANGES对象具有17165的范围和2个元数据列:## SEQNAMES范围股票|Geneid符号##    |  ## 100034253 Chrx [20785115,20818062]  -  |100034253 GNL3L ## 100036582 CHR8 [20639977,20641201] + |100036582 OLR1867 ## 100036765 CHR12 [39085314,39111846] + |100036765 CCDC92 ## 100049583 CHR8 [117147872,117149172]  -  |100049583 TREX1 ## 100124593 CHR8 [132020812,132021866] + |100124593 CXCR6 ## ... ... ... ... ... ## 94338 CHR19 [49107658,49191221]  -  |94338 SMPD3 ## 94339 CHR5 [176554525,176557154]  -  |94339 MMP23 ## 94340 CHR [283637899,283685361] + | 94340 Acsl5 ## 94341 chr9 [ 94208941, 94217050] - | 94341 Kcnj13 ## 94342 chr20 [ 7198625, 7211343] + | 94342 Bag6 ## ------- ## seqinfo: 22 sequences (1 circular) from rn5 genome

答案4.
步骤包括
a)获取NCBI的GTF文件,以获得Homo的特定构建
你感兴趣的莎拉语。(注释声是里面的包
生物导体自动获取文件)
b)从此GTF文件中创建TXDB对象(其作为经纪读数)
c)以前从TXDB对象中提取基因。

如果您无法找到预先包装的基因组注释,这些步骤是有益的
为您最喜欢的生物体作为生物导体内的包裹。

库(AnnotationHub)AH = AnnotationHub()##查找文件GTF_HUMANS < - 查询(AH,C(“GTF”,“GRCH38”,“GRCH38”,“80”))GTF_HUMANS ##下载文件gtffile < -AH [[AH47066“]] ##创建TXDB库(基因组法)TXDB < -  maketxdbfromgranges(gtffile)#may需要一些时间.. txdb ##从划船税堂< - 基因(TXDB)获取基因。

答案5
获取链文件的一种方法是找到该文件
在UCSC中,下载并在使用中读取它rtracklayer :: import.chain()
更容易的解决方案是通过annotationhub.

## a)获取链文件##加载包并查询文件以查找我们想要库(AnnotationHub)AH = AnnotationHub()的文件
## SnapshotDate():2015-05-26
查询(AH,C(“Rattus”,“RN5”,“RN6”)))
##带有2个记录的注释声###SnapshotDate():2015-05-26 ###$ DataProvider:ucsc ###$ species:rattus norvegicus ###$ rdataclass:chainfile ###额外的mcols():cauronyid,genome, description, tags, sourceurl, sourcetype ## # retrieve records with, e.g., 'object[["AH14745"]]' ## ## title ## AH14745 | rn6ToRn5.over.chain.gz ## AH14761 | rn5ToRn6.over.chain.gz
##了解有关所需文件的更多信息AH [“AH14761”]
##带有1 reck ###snapshotdate():2015-05-26 ################################### $种:rattus norvegicus ###$ rdataclass:chainFile ###$ title:rn5torn6.over.chain.gz ###################################分类:10116 ###$基因组:RN5 ###$ sourcetype:链###$sourceurl:http://hgdownload.cse.ucsc.edu/goldenpath/rn5/liftover/rn5torn6.over.chain.gz ###$ sourcelastmodizeddate:na ###$ scessize:na ###$标签:升降搬运,链,UCSC,Genome,同源性############# [“AH14761”]]'
##下载文件ratchain < -  ah [[“ah14761”]] ratchain
##长度链22 ##名称(22):CHR1 CHR2 CHR3 CHR8 ... CHR16 CHR17 CHR18 CHR19 CHR20 CHRX CHRM
## b)执行升降机库(rtracklayer)Lft < - 升降装置(ACSL5,棘轮)LFT
## GrangesList长度的对象1:## $ 94340 ## Granges对象有5个范围和1个元数据列:## SEQNAMES范围股票|gene_id ##    | ## [1] CHR1 [276240703,276246818] + |94340 ## [2] CHR1 [276249487,276251786] + |94340 ## [3] CHR1 [276253038,276277131] + |94340 ## [4] CHR1 [276278664,276288427] + |94340 ## [5] CHR [276288451,276290006] + |94340 ## ## ------- ## SEQINFO:1个未指定的基因组的序列;没有SEQLENG

0.3参考

0.4什么不是在BioC2015错过!

如果您喜欢此实验室并希望在此领域了解更多信息,请不要错过BioC2015的以下实验室

0.5sessioninfo()

sessioninfo()
## R 3.2.1(2015-06-18)##平台:X86_64-Unknown-Linux-GNU(64位)##正在运行:Ubuntu 14.04.2 LTS ### locale:## [1] lc_ctype = en_us.utf-8 lc_numeric = c lc_time = en_us.utf-8 ## [4] lc_collat​​e = c lc_monetary = en_us.utf-8 lc_messages = en_us.utf-8 ## [7] lc_paper = en_us.utf-8 lc_name = c lc_address = c ## [10] lc_telephone = c lc_measurement = en_us.utf-8 lc_identification = c ## ##附加基本包:## [1] stats4并行统计图形grdevices utils数据集方法base ####其他附加包:## [1] rattus.norvegicus_1.3.1 org.rn.eg.db_3.1.2 ## [3] go.db_3.1.2 Organismdbi_1.11.42 ## [5] bsgenome.rnorvegicus.ucc.rn5_1.4.0 bsgenome_1.37.3 ## [7] rtracklayer_1.29.12 txdb.rnorvegicus.ucsc.rn5.refgene_3.1.3 ## [9] org.hs.eg.db_3.1.2 rsqlite_1.0.0 ## [11] dbi_0.3.1 txdb。Hsapiens.UCSC.hg19.knownGene_3.1.3 ## [13] GenomicFeatures_1.21.13 AnnotationDbi_1.31.17 ## [15] AnnotationHub_2.1.30 RNAseqData.HNRNPC.bam.chr14_0.7.0 ## [17] GenomicAlignments_1.5.11 Rsamtools_1.21.14 ## [19] Biostrings_2.37.2 XVector_0.9.1 ## [21] SummarizedExperiment_0.3.2 Biobase_2.29.1 ## [23] GenomicRanges_1.21.16 GenomeInfoDb_1.5.8 ## [25] IRanges_2.3.14 S4Vectors_0.7.10 ## [27] BiocGenerics_0.15.3 ggplot2_1.0.1 ## [29] BiocStyle_1.7.4 ## ## loaded via a namespace (and not attached): ## [1] Rcpp_0.11.6 digest_0.6.8 mime_0.3 ## [4] R6_2.1.0 plyr_1.8.3 futile.options_1.0.0 ## [7] evaluate_0.7 httr_1.0.0 BiocInstaller_1.19.8 ## [10] zlibbioc_1.15.0 curl_0.9.1 rmarkdown_0.7 ## [13] proto_0.3-10 labeling_0.3 BiocParallel_1.3.34 ## [16] stringr_1.0.0 RCurl_1.95-4.7 biomaRt_2.25.1 ## [19] munsell_0.4.2 shiny_0.12.1 httpuv_1.3.2 ## [22] htmltools_0.2.6 interactiveDisplayBase_1.7.0 codetools_0.2-14 ## [25] XML_3.98-1.3 MASS_7.3-43 bitops_1.0-6 ## [28] RBGL_1.45.1 grid_3.2.1 xtable_1.7-4 ## [31] gtable_0.1.2 magrittr_1.5 formatR_1.2 ## [34] scales_0.2.5 graph_1.47.2 stringi_0.5-5 ## [37] reshape2_1.4.1 futile.logger_1.4.1 lambda.r_1.1.7 ## [40] tools_3.2.1 yaml_2.1.13 colorspace_1.2-6 ## [43] knitr_1.10.5