内容

原作者:马丁·摩根
展示作者:马丁•摩根Lori牧羊人
时间:2019年7月22日
回:周一实验室

客观的中可用软件的概述Bioconductor

经验教训

1Bioconductor

分析和理解高通量基因组数据

1.1软件包,小插图,工作流程

Alt测序系统

Alt测序系统

  • 1750年软件包
  • 发现和导航biocViews
  • 打包“登陆页”,例如:Gviz
    • 标题,作者/维护者,简短描述,引用,安装说明,…,下载统计
  • 所有用户可见的函数都有帮助页面,大多数都有可运行的示例
  • "小插曲"是一个重要的特征Bioconductor-说明如何使用软件包的叙述文档,带有集成代码
  • “发布”(每六个月)和“开发”分支

2

2.1找到包

特定领域的分析

锻炼

  • 请访问所有的包
  • 使用左上角的“Search biocViews”框来识别已标记用于RNASeq分析的包。探索其他分析,如ChIPSeq,表观遗传学,VariantAnnotation,蛋白质组学,单细胞等。通过扩展和收缩单个术语来探索软件包图。
  • 回到RNASeq。两个非常流行的软件包是DESeq2和edgeR。访问其中一个包的“登录页”。登陆页面有标题、作者、引用使用包的说明等。
  • 简要探索小插图和参考手册链接。你什么时候会查阅小插图?参考手册什么时候有用?

Bioconductor为处理基因组数据提供“基础设施”。我们将在本实验室后面的部分中更详细地探讨其中一些。现在……

锻炼

  • 访问的登陆页BiostringsGenomicRangesVariantAnnotation,GenomicAlignments包。创建一个简短的摘要,描述每个包的功能,以及它何时可能有用。
  • 的登录页面SummarizedExperiment包中。这个包旨在提供一种数据表示方式,以协调的方式帮助管理“化验”(例如,RNASeq计数的基因x样本矩阵)和行(例如,基因组坐标,p值)和列(例如,样本表)。简要回顾面向用户的小插图(“协调实验分析、样品和感兴趣区域的总结实验”),以了解如何使用这个包。
  • 的登录页面rtracklayer包中。从参考手册上看,什么时候会各种各样进口()而且export ()功能是有用的?

注释包以数据(而不是软件)为中心,提供关于不同标识符、基因模型、参考基因组等之间关系的信息。

锻炼

  • 在页面列表中所有的包,单击AnnotationData顶层术语。
  • 使用右边的方框搜索以以下字母开头的注释包,以了解可用的包和生物。

    • org . *:符号映射
    • TxDb。*而且EnsDb。*:基因模型
    • BSgenome。*:参考基因组

我们将在后续的实验室中看到大量额外的注释资源,包括更新的EnsDb和参考基因组AnnotationHub

工作流包旨在提供对需要几个不同包的工作流的全面介绍。这些可以是相当广泛的文件,提供非常丰富的信息来源。

锻炼

  • 简要探索“简单单细胞”工作流(或其他与您感兴趣的领域相关的工作流),以了解工作流所涵盖的内容。

2.2安装包

很可能本课程所需的包已经安装。尽管如此,了解如何安装其他软件包还是很有用的。

Bioconductor有一种使包可用的特殊方法。我们有一个“开发”分支,用于引入新的包和特性,还有一个“发布”分支,用户可以访问稳定的包。每六个月,在春季和秋季,当前的“devel”版本的包被分支成为下一个“release”版本。一个版本中的包是相互测试的,所以安装来自同一个版本的包是很重要的。的BiocManagerPackage试图简化这一过程。

包安装的第一步是确保BiocManager软件包已使用标准安装R程序。

如果(!需要(BiocManager))安装。包("BiocManager", repos = "https://cran.r-project.org")

然后,安装您想要使用的软件包

BiocManager:安装(c(“Biostrings”、“GenomicRanges”))

BiocManager知道如何安装CRAN和github包,太。

安装包时会遇到几个常见的问题。通常,安装包的方法与这里推荐的方法不同,而且包来自不同的地方Bioconductor版本。当来自不同版本的包彼此不兼容时,这就会导致问题。

锻炼验证您的包是最新的,并且是从相同的包中安装的Bioconductor发布与

BiocManager:有效的()

两个常见的问题是,有些包太旧(包的新版本存在)或太新(有些包已经使用其他方法安装BiocManager).如果有太旧或太新的包,遵循来自的说明几乎总是一个好主意BiocManager:有效的()纠正这种情况。

2.3加载和使用包

的每个版本只需要安装一次包R你使用,但需要是加载为每个新R您开始的会话。使用以下命令加载包

库(Biostrings)

当一个包被加载时,它有时会生成仅为信息性的消息,如果您确信这是您所加载的包的情况,请使用suppressPackageStartupMessages ()想要更安静的体验:

suppressPackageStartupMessages({library(genome icranges) library(genome icalignments)})

锻炼探索包装小插图通常是很有帮助的。欧洲杯2021体育彩票

  • 参观小插图DESeq2包,并通过几个步骤来理解小插图提供了什么,包括从包开始的说明、包提供的功能、实现的数学和统计细节,以及包提供的分析如何被其他包扩展Bioconductor生态系统。您可以通过RStudio访问小插图,或者通过运行诸如

    browseVignettes("DESeq2")
  • 大多数小插曲都是这样写的R小插图的代码必须正确地制作小插图。代码本身可以在包中获得。找到DESeq2小插图的代码

    dir(系统。文件(包= " DESeq2”、“医生”))
    “DESeq2.html”“DESeq2.html”R”“DESeq2。Rmd" "index.html"
    vign < -系统。文件(包= " DESeq2”、“医生”、“DESeq2.R”)

    在RStudio中打开它(例如,使用File -> open File…菜单),步骤通过的前几行R编码并将您的输出与小插图中的输出进行比较。或者,使用该命令在小插图中运行整个分析

    source(vign, echo = TRUE, max。=正行)

锻炼帮助页面为特定函数的使用提供了更集中的说明。这通常是欺骗

  • 加载Biostrings

    库(Biostrings)
  • 在函数上寻找帮助letterFrequency ()使用命令

    letterFrequency ?

    的后面有TAB补全?还有命令的前几个字母。

  • 帮助页面相当复杂,记录了几种不同的功能。在“描述”部分,找到什么描述letterFrequency ()所做的事。在“用法”部分,找到可以使用的参数letterFrequency (),试着去理解,从参数分段每个参数可能是什么,或者它如何影响计算。的价值类的返回值letterFrequency ()函数。

  • 有时一个例子胜过千言万语。您能否在帮助页面的末尾运行示例的前两个部分(用于alphabetFrequency ()而且letterFrequency ()为了更好地理解letterFrequency ()函数工作?

3.得到帮助

从哪里获得帮助?

你能在什么方面得到帮助?

如何问一个好问题

锻炼访问支持站点并回顾最近的五个问题。从上面提供的指导方针中,你认为哪些是“好的”?哪些得到了有用的答案?你能弄清楚回答这个问题的人是谁吗?也就是说,为什么他们认为自己知道答案?

4序列分析旅行团

这个非常开放的话题指向了一些最突出的问题Bioconductor用于序列分析的包。利用这个实验室的机会探索下面突出显示的包小插图和帮助页面;欧洲杯2021体育彩票许多材料将在后续的实验和讲座中更详细地介绍。

基础知识

库(GenomicRanges)
help(package=" genome icranges ") vignette(package=" genome icranges ") vignette(package=" genome icranges ", " genome icrangeshowtos ")

特定于领域的分析——探索以下两个或三个包的登陆页、小插图和参考手册。

处理序列、对齐、常见的web文件格式和原始数据;这些方案非常依赖于IRanges/GenomicRanges我们将在后面的课程中遇到基础设施。

注释:Bioconductor提供对“注释”资源的广泛访问(参见AnnotationDatabiocViews层次结构);这些在周四的实验中有更详细的介绍,但在实验中有一些有趣的例子可以探索,包括:

大量的Bioconductor除了单个包提供的功能外,包还有助于可视化和报告。

5结束问题

5.1会话信息

sessionInfo ()
## R版本3.6.1 Patched (2019-07-16 r76845) ##平台:x86_64-apple-darwin17.7.0(64位)##运行在:macOS High Sierra 10.13.6 ## ## Matrix products: default ## BLAS: /Users/ma38727/bin/R-3-6-branch/lib/libRblas. #dylib ## LAPACK: /Users/ma38727/bin/R-3-6-branch/lib/libRlapack。dylib # # # #语言环境:# # [1]en_US.UTF-8 / en_US.UTF-8 en_US.UTF-8 / C / en_US.UTF-8 / en_US。UTF-8 ## ##附加的基本包:## [1]stats4 parallel stats graphics grDevices utils datasets ## [8] methods base ## ##其他附加的包:## [9] Biobase_2.45.0 genomics icranges_1 .37.14 ## [9] GenomeInfoDb_1.21.1 Biostrings_2.53.2 ## [11] XVector_0.25.0 IRanges_2.19.10 ## [13] S4Vectors_0.23.17 BiocGenerics_0.31.5 ## [15] BiocStyle_2.13.2 ## ##通过命名空间加载(并没有附加):## [1] Rcpp_1.0.1 knitr_1.23 magrittr_1.5 ## [4] zlibbioc_1.31.0 lattice_0.20-38 string_1 .4.0 ## [7] tools_3.6.1 grid_3.6.1 xfun_0.8 ## [10] htmltools_0.3.6 yaml_2.2.0 digest_0.6.20 ## [13] bookdown_0.12 Matrix_1.2-17 GenomeInfoDbData_1.2.1 ## [16] BiocManager_1.30.4 bitops_1.0-6 codetools_0.2-16 ## [19] RCurl_1.95-4.12 evaluate_0.14 rmarkdown_1.14 ## [22] stringi_1.4.3 compiler_3.6.1

5.2确认

本教程中报告的研究得到了美国国家人类基因组研究所和美国国立卫生研究院国家癌症研究所的支持,资助号为U41HG004059和U24CA180996。

该项目已获得欧洲研究理事会(ERC)在欧盟“地平线2020”研究与创新计划(资助协议编号633974)下的资助。