Bioconductor通讯

发布的瓦莱丽Obenchain2014年7月,

内容

软件基础设施

BSgenome包2位转换

目前BSgenome包的用例强调在整个基因组中查询许多较小的区域,例如,从潜在的编码序列基因组范围组装许多转录序列。为了有效地实现这个用例,许多BSgenome数据包现在使用UCSC 2bit格式在磁盘上存储序列。

2bit格式的一个限制是,它不支持包含除As、Cs、Gs、Ts或Ns以外的字母的基因组。这些基因组(例如hg17、hg18、GRCh38、Ecoli、air .04232008和air . tair9)使用以前的.rda存储格式,具有快速的全染色体访问,但有些慢,但仍然是非常有用的随机访问。

2bit格式目前在devel中可用,但将成为Bioconductor下一个版本的一部分。Hervé和Martin在这个项目上工作,感谢Michael支持2bit格式rtracklayer

S4向量

4月Hervé开始将低级功能从IRanges然后把他们转移到新的地方S4Vectors包中。IRanges已经发展到90个类,157个泛型和844个方法,并且变得难以维护。计划是移动不涉及范围的代码,例如向量列表虚拟类和DataFrame,Rle支安打具体类。这项工作仍在进行中,预计完成约30%。

限速

内特一直在研究连环相撞()在BAM文件中计算堆积统计数据的函数。设计目标是通用的记录过滤和下游分析结果的灵活表示。过滤是通过ScanBamParamPileupParam对象;输出是一个data.frame使用基于应用的过滤的可变列。

连环相撞()可在Rsamtools包在重击。其他Bioconductor提供类似堆积的功能的包包括gmapR(bam_tally),deepSNV(bam2R)和Rsubread(featureCounts)。它们的输入要求和输出格式略有不同,详细信息请参见手册页。

Git-SVN桥

Bioconductor项目使用Subversion (SVN)源代码控制系统。爱尔兰斯洛伐克预测SVN对于版本控制是有效的,但是不提供诸如GitHub的问题跟踪、拉请求或易于授予权限等社会性编码特性。

为了响应流行的请求,Dan创建了Git-SVN桥,允许Github存储库与BioconductorSVN储存库。SVN中的提交会被传播到GitHub,反之亦然。这项服务受到好评,截至2014年6月,已有73座桥梁建成。

要创建网桥,请参见Git-SVN bridge基本知识的

Bioconductor Amazon Machine Image (AMI)

生物导体AMI已经大修,现在兼容StarCluster。这些增强使通过MPI、SSH或Sun Grid Engine进行通信的节点直接启动集群。详细信息可以在AMI页面

创建AMI的过程已经使用Vagrant和Chef实现了自动化。我们的脚本公开的可以用来提供AMI、虚拟机(使用Virtualbox或VMware),甚至物理机。

教育和宣传

网站重新设计

Bioconductor主页现在有什么,我们希望是一个更直观和用户友好的界面。“安装”、“学习”、“使用”和“开发”字段通过高级开发人员为新手组织资源。

看一看新的设计

biocViews

索纳利本季度继续她在biocViews上的工作。一个新函数,recommendBiocViews ()可在biocViews包中。该函数查看DESCRIPTION、手册页和小插图中的单词,并建议在biocViews:package DESCRIPTION文件字段。该函数还识别包DESCRIPTION文件中出现的无效的biocViews术语(例如,拼写错误)。

recommendBiocViews ()已被合并到Single Package Builder中,用于检查新包提交;匈牙利瑞士比分鼓励新的包作者在提交包之前运行它。记住,biocViews是区分大小写和分支的(例如,软件包的术语必须来自biocViews的Software分支)。

Sonali在6月份的邮件列表中发布了所有devel软件包的推荐视图。有关完整的列表,请参见此帖子

教学视频

我们正在寻找短的,单一主题的视频作为传统小插曲和工作流程的互动补充。

计划是创建一系列5分钟的视频,封装一个HOWTO技能或概述一个项目方面。你可以和Dan一起浏览这个网站,也可以通过Martin对关键包和类的概述来快速入门。观察Marc切片和骰子一个AnnotationDb对象或读取BAM和VCF文件与Sonali和Valerie。

Sonali和Martin领导了这一努力,并计划在2014年波士顿的BioC上公布第一批视频。

构建系统

分支实验数据Subversion存储库

在历史上,只有Subversion存储库Bioconductor软件包对于每个版本都有一个不同的分支。用于实验数据和注释包的Subversion存储库有一个没有分支的主干。

从2014年春季发布开始,Subversion存储库中为实验数据创建了一个分支。其动机是允许软件和实验数据包在发布和开发构建环境中一起发展。对软件包的更新经常会破坏伴随的实验数据。对实验数据所做的更改被提交到主干中,并传播到发布版和开发版构建中,从而在某个地方或其他地方产生不兼容性。

创建新分支的一个结果是,需要碰撞' x.y.z '中的' y '版本编号方案在发布时(就像我们对软件所做的那样)。注释没有改变;它们不属于Subversion,不进行自动构建,也没有版本策略。

实验数据Subversion存储库管理方式的更改只与开发人员相关。2021欧洲杯体育投注开户公共存储库保持不变,每个存储库都有一个单独的存储库Bioconductor的版本。对于访问公共存储库的用户来说,没有可见的变化。

新的Mac OS X Mavericks制造机器

一个R3.1.0二进制Mac OS X 10.9 (Mavericks)现在可以从R核心。这R因为它是用Xcode 5构建的,用来利用Mavericks中新的编译器和功能,而这些功能在早期的OS X版本中是不可用的。

提供兼容的Bioconductor我们需要新的构建机器。丹配置了两辆新的小牛车,一辆进了释放(莫雷里亚)和一个重击(瓦)。

Xcode和clang编译器的引入导致了包含C和c++代码的包出现新的错误。Nate和Dan花了很多时间与包作者进行故障排除,并提出了一个常见问题和解决方案的列表。吸取的教训被提炼成c++ /小牛最佳实践文档。

季度项目统计

有86953次下载Bioconductor过去一个季度(4 - 6月)的软件包。在此期间接受了41个新的软件包。可以获得软件包下载统计的完整摘要在这里

该网站有来自180个国家的约11.9万名访问者(同比增长26%),其中美国、中国、英国、德国和加拿大的访问者最多。

资源、课程和会议

基因组生物学数据分析(CSAMA)

这一为期一周的强化课程每年在意大利布里克森-布雷萨诺开设,重点是大型生物实验的统计和计算分析。该课程是为研究人员与基本熟悉的实验技术,谁有兴趣开发自己的高级数据分析。

今年的主题包括RNASeq差异表达,变体调用和ChIP-Seq以及统计测试的要点,机器学习,可视化,当然使用R. Michael Lawrence介绍了一个可伸缩的基因组学该实验室涵盖了限制资源消耗,在适当的时候使用迭代和缩放基因组图形的主题。很多材料是基于一份手稿目前正在《统计科学》杂志上出版。

2014年6月课程的材料可以在网络

社区资源

社区资源链接包括MOOC的书籍和实验室:PH525x基因组学数据分析。该在线课程由Rafael Irizarry和Michael Love于2014年4月开设。课程目标是使学生能够分析和解释由现代基因组技术产生的数据,特别是微阵列和下一代测序。应用包括基因表达,基因组变异与疾病的关联,以及测量表观遗传标记。

社区页面上还有社区成员制作的YouTube视频链接、Thomas Girke的R/Bioconductor入门提示、Vince Buffalo和Sean Davis的R/Bioconductor博客对23andme数据的分析。

BioC 2014

年会将于今年7月30日至8月1日在波士顿举行网站获取演讲者和讲习班名单。

请将意见或问题发送至瓦莱丽vobencha@fhcrc.org