Bioconductor通讯

发布的瓦莱丽Obenchain, 2015年1月

欢迎收看2015年1月通讯。这是一个季度的回顾幕后的最新发展和探索工作正在核心小组和Bioconductor社区。这个问题涵盖Docker容器,坐标映射的工作,底层重叠操作算法的变化和概述csaw这是Smyth集团最新的软件包贡献。我们希望这个通讯对你有价值,所以请分享意见和反馈。

内容

基础设施发展

码头工人

任何参加过年度BioC会议或在Hutchinson中心参加过课程的人都熟悉Bioconductor亚马逊机器图像公司(AMI)。的当前版本配置这些图像R以及所有必要的软件包依赖项和非r软件。为参与者提供一个预先配置的环境已经消除了许多“一天”的问题,如由于并发下载而导致的互联网过载、安装错误的软件包版本以及无法访问课程中使用的常见示例数据。

最近Dan一直在研究Docker软件作为提供预配置环境的另一种方法。Docker容器使用进程级隔离操作,因此比虚拟机更轻量级。此外,容器可以访问整个物理机器。

这些容器是对开发或生产有用的隔离的、可复制的环境。与AMI相反,Docker容器可以在桌面或笔记本电脑上使用,而不是在云或其他远程硬件上。我们想象它们是有用的

这项工作是探索性的,还不受支持。当集装箱准备好可以使用时,邮件列表上会有公告。有兴趣跟进发展的人士可浏览bioc_dockerGitHub库。

NCList

Hervé最近的一个项目是替换用于查找和计数重叠部分的基于区间树的算法。这种变化是由比较许多不同的染色体或许多重叠范围时观察到的性能下降引起的。他决定采用一种基于Alexander V. Alekseyenko和Christopher J. Lee的嵌套遏制列表算法的方法。

对于中等大小的数据集(例如2500万次读取),在BioC 3.1(当前的devel)中,对grange和/或GRangesList对象的重叠操作大约比BioC 3.0快3倍到10倍。内存使用也减少了~ 25%或更多。数字将根据数据的大小而变化;数据越大,进步越大。

用户可见的更改是添加到大多数基于重叠的操作中的' algorithm '参数。这允许在新的(algorithm= " nclist ")和旧的(algorithm= " intervaltree ")之间进行选择。

在撰写本文时,有三种情况下" nclist "和" intervaltree "会产生不同的输出:

有关变化和未来活动的完整描述,请参阅此帖子在bio -devel邮件列表上。

坐标映射

基因组、转录本和蛋白质空间之间的坐标转换(映射)是生物信息学中的一项常见任务。在过去的一个季度里,我们中的一组人一直致力于扩展和协调基础设施中的映射功能。

基因组和转录组之间的功能映射将被添加GenomicFeatures和通过雪茄对齐映射的方法将添加到GenomicAlignments.的Pbase包有一个映射装饰图案这说明了从蛋白质到基因组位置的定位所涉及的步骤。一旦转录组和对齐映射方法的API稳定,就可以添加类似的功能Pbase为了让制图员更完美。

其他参与该项目的有迈克尔·劳伦斯,Hervé Pagès,劳伦特·盖托,罗伯特·卡斯特罗和马丁·摩根。讨论和进展可以在biocCoordinateMapping谷歌集团。

相关的映射任务是通过对齐工具或转换程序集坐标将数据从一个程序集迁移到另一个程序集。UCSC LiftOver工具的实现rtracklayer(谢谢Michael)和UCSC链文件的可用性AnnotationHub(感谢Sonali)让这个操作变得简单。

library(AnnotationHub) hub <- AnnotationHub()

链文件格式描述了一种成对对齐,允许两个序列同时出现空白。AnnotationHub目前托管1113个链文件。

allChains <- query(hub, 'chain') ## > length(allChains) ## [1] 1113

搜索从hg38到hg19的转换:

query(hub, 'hg38ToHg19') ## > query(hub, 'hg38ToHg19') ## class: AnnotationHub ## hub: https://annotationhub.bioconductor.org ##缓存:/ home/vobencha/。AnnotationHub## display()ing 1 of 1 records on 6 mcols() ## title dataprovider species ## AH14108 hg38ToHg19.over.chain.gz hgdownload.cse.ucsc.edu Homo sapiens ## taxonomyid genome description ## AH14108 9606 hg38 UCSC liftOver chain file from hg38 to hg19 ## tags ## AH14108 liftOver, chain, UCSC, genome, homology

方法在AnnotationHub使用import.chain ()rtracklayer将数据读入R.返回对象是a类,其中每个染色体的数据被解析为ChainBlock类。

chain <- query(hub, 'hg38ToHg19')[[1]] chain ## > chain ##长度为25的链## names(25): chr1 chr2 chr3 chr4 chr5 chr6…## [1] "ChainBlock" ## attr(,"package") ## [1] "rtracklayer"

liftOver ()翻译坐标并输出aGRangesList

gr <- GRanges(c("chr7", "chr2"), IRanges(c(75625897, 68010781), width=1) res <- liftOver(gr, chain) ## > res ## GRangesList object of length 2: ## $1 ## GRanges object with 1 range and 0 metadata columns: ## seqnames ranges strand ##    ## [1] chr7 [75255215, 75255215] * ## ## $2 ## seqnames ranges strand ## [1] chr2 [68237913, 68237913] *

另一个使用liftOver ()是在改变基因组坐标系统工作流。NHGRI GWAS目录中的snp从hg38映射到hg19,导致一些位点丢失。

概述的csaw

Gordon Smyth是维多利亚州沃尔特和伊丽莎霍尔医学研究所的教授,一直活跃在Bioconductor自《盗梦空间》项目。很多人都是通过他详细的回答认识戈登的支持网站他为新手和高级用户提供了统计指导和深思熟虑的讨论。史密斯团队撰写了许多Bioconductor包包括基石贡献,如limma而且刨边机limma一直在前10和刨边机在前25名包下载数据

史密斯集团包装的一个标志是写得很好的小插图,有详细的科学和统计背景。这些文档对于微阵列或RNA-seq分析的新手来说是一个很好的起点。该小组的最新贡献是csaw软件包(ChIP-seq分析与windows) Aaron Lun。我问亚伦和戈登,他们是否愿意回答几个关于一揽子计划的问题。

Aaron Lun和Gordon Smyth谈csaw套餐:

问:ChIP-seq中的差异绑定(DB)是什么?它与RNA-seq中的差异表达(DE)有什么不同?

大多数读者都知道,ChIP-seq测序的是与靶蛋白结合的基因组DNA,而RNA-seq测序的是RNA转录本。从科学的角度来看,RNA-seq是用来测量基因表达,而ChIP-seq是用来检测基因表达的调控。例如,ChIP-seq通常用于寻找转录因子(TF)的结合位点或检查基因组中表观遗传组蛋白标记的位置。许多人通过调用每个单独的ChIP-seq库中的峰值来分析ChIP-seq数据。然后将这些峰值用于识别TF结合的位置或表观遗传标记活跃的位置。然而,在csaw包中,我们设想ChIP-seq实验具有多种实验条件,并且在每种条件下具有多个生物重复,换句话说,其结构与典型的基因表达实验非常相似。我们专注于在实验条件之间以定量的方式测试DB,而不是进行出现/缺席调用。ChIP-seq和RNA-seq实验都能产生短序列读取,可以与参考基因组对齐。原则上,这两类实验可以用大致相似的方法进行分析。在每种情况下,我们可以选择一组感兴趣的基因组位置,计算映射到这些区域的读取数,然后测试相对于生物可变性的实验条件之间的差异覆盖率。 The key difference between ChIP-seq and RNA-seq is how the genomic locations are chosen and combined.

问:DB ChIP-seq分析有助于回答什么科学问题?

传统的ChIP-seq分析在每个文库中产生一个峰值列表,这意味着蛋白质在峰值区域内与DNA结合,而不是与其他区域结合。我们持另一种观点,认为绑定覆盖是定量的,而不仅仅是存在或缺失。DB分析确定了一系列的基因组区域,在这些区域的结合强度在生物条件之间发生变化。我们认为,即使这些区域不一定是覆盖范围最高的区域,但受结合变化影响的区域最有可能具有生物学上的重要性。DB区域必然与实验中所研究的表现型或治疗感兴趣有关。因此,我们可以开始研究DB导致观察到的生物学差异的机制。我们最喜欢的分析之一是将DB与同一组基因的差异表达联系起来。这些见解很难通过常规分析获得,因为所确定的区域只与每个条件单独相关。

问:制作这个包的动机是什么?你的团队最近开始做DB ChIP-seq了吗?还是已经做了一段时间了?

我们小组做DB分析已经有一段时间了。然而,这些分析大多是基因导向的。我们将计数读取到预先定义的间隔,如启动子或基因体,然后使用edgeR包测试这些间隔是否为DB。这种类型的分析可以在ChIP-seq和RNA-seq中非常相似。csaw包是我们在不知道感兴趣区域的情况下执行从头数据库分析的第一次尝试。我们希望能够识别新的DNA元素,如新的增强子或启动子,我们希望避免潜在的令人头疼的有关兴趣区域的问题,例如错误指定基因的启动子区域。我们观察到一些常用的方法不能正确地控制错误率,因此我们有动力采取一种新的方法来进行DB从头分析。一个简单的方法是分别调用每个条件下的峰值,然后简单地比较区域,以确定每个条件下的唯一峰值。这种特别的方法没有提供任何统计错误率控制,而且倾向于夸大条件之间的差异。这种方法的一个更复杂的版本是对每种情况下称为峰值的每个区域进行统计测试。 Again, this over-estimates the differences between the conditions. Our approach gives similar flexibility to peak calling but with rigorous error rate control. The idea is to slide windows across the genome, count reads into those windows, and then use those counts to test for significant differences between conditions. Adjacent regions are then merged and the p-values combined in a statistically rigorous way. This provides the same level of statistical rigor as for our previous gene-orientated analysis but without the need to specify regions of interest beforehand. Using small windows also provides excellent spatial resolution. There are a number of other Bioc packages that can do DB analyses, diffBind and DBChIP for example, but these require a set of peaks identified with external software like MACS. The motivation for the csaw package is to avoid having to specific the genomic regions externally . We wanted to generate and discover the DB completely de novo as an integral part of the analysis. csaw is the first Bioc package to take a windowing approach.

问:在csaw中,edgeR的统计方法是如何被利用或扩展的?请从统计的角度描述,为什么RNA-seq中使用的方法适合DB ChIP-seq?

一旦一组基因组区域被选定,DB分析就非常类似于RNA-seq实验。因此,利用edgeR提供的统计方法是合乎逻辑的。edgeR考虑了重复之间的生物变异,这对数据库分析至关重要,因为每个区域的计数通常都过于分散。未能考虑到这种可变性将导致虚假的DB调用。edgeR的广义线性模型功能为分析具有多实验因素或协变量和批处理效应的复杂实验提供了丰富的框架。我们选择edgeR而不是limma和boom,因为每个窗口的ChIP-seq计数可以非常小。reads可以稀疏地分布在整个基因组中。limma和boom对于中等到较大的计数非常有效,但edgeR能够更精确地模拟非常小的整数计数的分布。csaw使用edgeR的准似然函数,因为它具有严格的错误率控制,并且可以在edgeR负二项框架内获得limma的自适应经验贝叶斯函数。作为csaw项目的一部分,我们对edgeR进行了许多改进。 Our sliding window approach to ChIP-seq generates a much larger number of regions than is typical for an RNA-seq DE analysis, so it was important to be as computationally efficient as possible. One of us (AL) converted many of the edgeR functions into C++ for speed and memory efficiency. There are a number of statistical extensions specific to csaw. These include an implementation of Simes’ method for combining the p-values of adjacent windows within a region; a non-linear normalization procedure adapted to low counts; and a method to calculate the average abundance of a region scaled to its width.

项目统计

出版物

许多核心和社区成员一直致力于撰写一篇“视角”文章,为潜在用户和开发人员提供项目概述。2021欧洲杯体育投注开户重点是可重复性、互操作性和数据访问。集体工作,“编排高通量基因组分析与Bioconductor,计划于2015年初发表在《自然方法》杂志上。

其他最近的项目级(与包级)出版物有“可扩展基因组学”R而且Bioconductor,该书回顾了处理、总结和可视化大型基因组数据的策略。Sylvia Tippman的“编程工具:R的冒险”是重点R/Bioconductor作为基因组学、海洋学和生态学应用的首选分析工具。链接可在出版物页面

要获得引用的文章的准确计数是很有挑战性的Bioconductor项目或个别软件包。该网站的出版物页面列出了对单个术语的全文搜索结果bioconductor为每个PubMedPubMedCentral而且谷歌学者.点击数从591 (PubMed)到27000(谷歌Scholar)不等。

采用包级方法,对CITATION文件中找到的标题或id的PubMed查询返回22838个引用。对于没有CITATION文件的包,PubMed对包标题的搜索返回1281个引用。

网站流量

下表比较了2014年第四季度和2013年第四季度(10月1日- 12月28日)的流量。

在第四季度,我们看到了总会话数、新会话数和总用户数的增长。

2014年第四季度网站流量对比2013年第四季度
会话 23.28%(311731和252873)
%的新会话 0.62%(36.01% vs 35.79%)
用户 24.32%(133839和107655)

总会话数增幅(百分比变化)最大的是中国,其次是西班牙,然后是美国和意大利。

2014年第四季度和2013年第四季度的总会话数
美国 24.95%(101011和80840)
中国 28.43%(27593和21485)
联合王国 11.19%(22627和20350)
德国 20.75%(21138和17506)
法国 20.47%(10446和8671)
加拿大 21.96%(9808和8042)
日本 19.21%(9406和7890)
西班牙 27.30%(8444和6633)
印度 4.15%(8048和7727)
意大利 24.68%(7494和6010)

使用谷歌Analytics生成统计数据。

包下载和新提交

与2013年第四季度(97462次)相比,2014年第四季度(106212次)软件包下载数量增长了9%。请参阅网站,以获取软件包的完整摘要下载数据

2014年第四季度总共增加了63个软件包,使总数达到954个(Bioconductor3.1)及934版本(Bioconductor3.0)。

资源和即将举行的活动

视频和网络研讨会

平均有20-30个软件包被提交Bioconductor每个季度每年产生100多个新包装。新的包装指南贴在网站但是开发2021欧洲杯体育投注开户人员经常会有额外的问题或特殊情况。我们认为,更互动的交流将有助于避免常见错误,并鼓励在软件包提交审查之前提出问题。

12月中旬,Marc和Sonail主持了一个谷歌Hangout活动,分享一些关键的开发技巧,并从更广泛的观众那里征求问题。涵盖的主题包括包组织、文档编制和代码重用。问题通过YouTube聊天窗口发布,在马克完成幻灯片演示后回答。如果您正在考虑提交一个软件包,您可能想查看发布在Bioconductor视频页面

会议和培训课程

活动页面定期更新新课程和会议公告。2015年1月,EMBL将主办欧洲开发者大会和高级会议R编程课程。

欧洲生物导体开发者会议欧洲分子生物学实验室,德国海德堡2015年1月12-13日

高级程序设计与开发欧洲分子生物学实验室,德国海德堡2015年1月15-16日

向瓦莱丽发送评论或问题vobencha@fhcrc.org