原作者:马丁·摩根
展示作者:马丁•摩根,Lori牧羊人
时间:2019年7月22日
回:周一实验室
客观的中可用软件的概述Bioconductor。
经验教训:
分析和理解高通量基因组数据
特定领域的分析
锻炼
Bioconductor为处理基因组数据提供“基础设施”。我们将在本实验室后面的部分中更详细地探讨其中一些。现在……
锻炼
进口()
而且export ()
功能是有用的?注释包以数据(而不是软件)为中心,提供关于不同标识符、基因模型、参考基因组等之间关系的信息。
锻炼
使用右边的方框搜索以以下字母开头的注释包,以了解可用的包和生物。
org . *
:符号映射TxDb。*
而且EnsDb。*
:基因模型BSgenome。*
:参考基因组我们将在后续的实验室中看到大量额外的注释资源,包括更新的EnsDb和参考基因组AnnotationHub。
工作流包旨在提供对需要几个不同包的工作流的全面介绍。这些可以是相当广泛的文件,提供非常丰富的信息来源。
锻炼
很可能本课程所需的包已经安装。尽管如此,了解如何安装其他软件包还是很有用的。
Bioconductor有一种使包可用的特殊方法。我们有一个“开发”分支,用于引入新的包和特性,还有一个“发布”分支,用户可以访问稳定的包。每六个月,在春季和秋季,当前的“devel”版本的包被分支成为下一个“release”版本。一个版本中的包是相互测试的,所以安装来自同一个版本的包是很重要的。的BiocManagerPackage试图简化这一过程。
包安装的第一步是确保BiocManager软件包已使用标准安装R程序。
如果(!需要(BiocManager))安装。包("BiocManager", repos = "https://cran.r-project.org")
然后,安装您想要使用的软件包
BiocManager:安装(c(“Biostrings”、“GenomicRanges”))
BiocManager知道如何安装CRAN和github包,太。
安装包时会遇到几个常见的问题。通常,安装包的方法与这里推荐的方法不同,而且包来自不同的地方Bioconductor版本。当来自不同版本的包彼此不兼容时,这就会导致问题。
锻炼验证您的包是最新的,并且是从相同的包中安装的Bioconductor发布与
BiocManager:有效的()
两个常见的问题是,有些包太旧(包的新版本存在)或太新(有些包已经使用其他方法安装BiocManager).如果有太旧或太新的包,遵循来自的说明几乎总是一个好主意BiocManager:有效的()
纠正这种情况。
的每个版本只需要安装一次包R你使用,但需要是加载为每个新R您开始的会话。使用以下命令加载包
库(Biostrings)
当一个包被加载时,它有时会生成仅为信息性的消息,如果您确信这是您所加载的包的情况,请使用suppressPackageStartupMessages ()
想要更安静的体验:
suppressPackageStartupMessages({library(genome icranges) library(genome icalignments)})
锻炼探索包装小插图通常是很有帮助的。欧洲杯2021体育彩票
参观小插图DESeq2包,并通过几个步骤来理解小插图提供了什么,包括从包开始的说明、包提供的功能、实现的数学和统计细节,以及包提供的分析如何被其他包扩展Bioconductor生态系统。您可以通过RStudio访问小插图,或者通过运行诸如
browseVignettes("DESeq2")
大多数小插曲都是这样写的R小插图的代码必须正确地制作小插图。代码本身可以在包中获得。找到DESeq2小插图的代码
dir(系统。文件(包= " DESeq2”、“医生”))
“DESeq2.html”“DESeq2.html”R”“DESeq2。Rmd" "index.html"
vign < -系统。文件(包= " DESeq2”、“医生”、“DESeq2.R”)
在RStudio中打开它(例如,使用File -> open File…菜单),步骤通过的前几行R编码并将您的输出与小插图中的输出进行比较。或者,使用该命令在小插图中运行整个分析
source(vign, echo = TRUE, max。=正行)
锻炼帮助页面为特定函数的使用提供了更集中的说明。这通常是欺骗
加载Biostrings包
库(Biostrings)
在函数上寻找帮助letterFrequency ()
使用命令
letterFrequency ?
的后面有TAB补全?
还有命令的前几个字母。
帮助页面相当复杂,记录了几种不同的功能。在“描述”部分,找到什么描述letterFrequency ()
所做的事。在“用法”部分,找到可以使用的参数letterFrequency ()
,试着去理解,从参数
分段每个参数可能是什么,或者它如何影响计算。的价值
类的返回值letterFrequency ()
函数。
有时一个例子胜过千言万语。您能否在帮助页面的末尾运行示例的前两个部分(用于alphabetFrequency ()
而且letterFrequency ()
为了更好地理解letterFrequency ()
函数工作?
从哪里获得帮助?
你能在什么方面得到帮助?
如何问一个好问题
简化为几行R代码。
必须由别人管理吗
包括的输出sessionInfo ()
这通常显示出软件包过期的问题。
锻炼访问支持站点并回顾最近的五个问题。从上面提供的指导方针中,你认为哪些是“好的”?哪些得到了有用的答案?你能弄清楚回答这个问题的人是谁吗?也就是说,为什么他们认为自己知道答案?
这个非常开放的话题指向了一些最突出的问题Bioconductor用于序列分析的包。利用这个实验室的机会探索下面突出显示的包小插图和帮助页面;欧洲杯2021体育彩票许多材料将在后续的实验和讲座中更详细地介绍。
基础知识
库(GenomicRanges)
help(package=" genome icranges ") vignette(package=" genome icranges ") vignette(package=" genome icranges ", " genome icrangeshowtos ")
特定于领域的分析——探索以下两个或三个包的登陆页、小插图和参考手册。
处理序列、对齐、常见的web文件格式和原始数据;这些方案非常依赖于IRanges/GenomicRanges我们将在后面的课程中遇到基础设施。
consensusMatrix ?
为例。也可以查看BSgenome用于处理全基因组序列的软件包,例如,?”getSeq BSgenome-method”
readGAlignments ?
帮助页面,vigentte(包=“GenomicAlignments”、“summarizeOverlaps”)
进口
而且出口
函数可以读取许多常见的文件类型,例如BED, WIG, GTF,…,除了查询和导航UCSC基因组浏览器。检查进口吗?
页的基本用法。注释:Bioconductor提供对“注释”资源的广泛访问(参见AnnotationDatabiocViews层次结构);这些在周四的实验中有更详细的介绍,但在实验中有一些有趣的例子可以探索,包括:
选择吗?
exonsBy ?
页检索所有按基因或转录分组的外显子。“gene_biotype”
orgydF4y2Ba“tx_biotype”
定义生物型特征(如lincRNA,蛋白编码,miRNA等)。EnsDb数据库是为运用注释并包含针对特定ensemble版本的所有基因(蛋白质编码和非编码)的注释。大量的Bioconductor除了单个包提供的功能外,包还有助于可视化和报告。
sessionInfo ()
## R版本3.6.1 Patched (2019-07-16 r76845) ##平台:x86_64-apple-darwin17.7.0(64位)##运行在:macOS High Sierra 10.13.6 ## ## Matrix products: default ## BLAS: /Users/ma38727/bin/R-3-6-branch/lib/libRblas. #dylib ## LAPACK: /Users/ma38727/bin/R-3-6-branch/lib/libRlapack。dylib # # # #语言环境:# # [1]en_US.UTF-8 / en_US.UTF-8 en_US.UTF-8 / C / en_US.UTF-8 / en_US。UTF-8 ## ##附加的基本包:## [1]stats4 parallel stats graphics grDevices utils datasets ## [8] methods base ## ##其他附加的包:## [9] Biobase_2.45.0 genomics icranges_1 .37.14 ## [9] GenomeInfoDb_1.21.1 Biostrings_2.53.2 ## [11] XVector_0.25.0 IRanges_2.19.10 ## [13] S4Vectors_0.23.17 BiocGenerics_0.31.5 ## [15] BiocStyle_2.13.2 ## ##通过命名空间加载(并没有附加):## [1] Rcpp_1.0.1 knitr_1.23 magrittr_1.5 ## [4] zlibbioc_1.31.0 lattice_0.20-38 string_1 .4.0 ## [7] tools_3.6.1 grid_3.6.1 xfun_0.8 ## [10] htmltools_0.3.6 yaml_2.2.0 digest_0.6.20 ## [13] bookdown_0.12 Matrix_1.2-17 GenomeInfoDbData_1.2.1 ## [16] BiocManager_1.30.4 bitops_1.0-6 codetools_0.2-16 ## [19] RCurl_1.95-4.12 evaluate_0.14 rmarkdown_1.14 ## [22] stringi_1.4.3 compiler_3.6.1
本教程中报告的研究得到了美国国家人类基因组研究所和美国国立卫生研究院国家癌症研究所的支持,资助号为U41HG004059和U24CA180996。
该项目已获得欧洲研究理事会(ERC)在欧盟“地平线2020”研究与创新计划(资助协议编号633974)下的资助。