发布的瓦莱丽Obenchain2014年7月,
BSgenome
包2位转换目前BSgenome包的用例强调在整个基因组中查询许多较小的区域,例如,从潜在的编码序列基因组范围组装许多转录序列。为了有效地实现这个用例,许多BSgenome数据包现在使用UCSC 2bit格式在磁盘上存储序列。
2bit格式的一个限制是,它不支持包含除As、Cs、Gs、Ts或Ns以外的字母的基因组。这些基因组(例如hg17、hg18、GRCh38、Ecoli、air .04232008和air . tair9)使用以前的.rda存储格式,具有快速的全染色体访问,但有些慢,但仍然是非常有用的随机访问。
2bit格式目前在devel中可用,但将成为Bioconductor下一个版本的一部分。Hervé和Martin在这个项目上工作,感谢Michael支持2bit格式rtracklayer
。
S4向量
包4月Hervé开始将低级功能从IRanges
然后把他们转移到新的地方S4Vectors
包中。IRanges
已经发展到90个类,157个泛型和844个方法,并且变得难以维护。计划是移动不涉及范围的代码,例如向量
和列表
虚拟类和DataFrame
,Rle
和支安打
具体类。这项工作仍在进行中,预计完成约30%。
内特一直在研究连环相撞()
在BAM文件中计算堆积统计数据的函数。设计目标是通用的记录过滤和下游分析结果的灵活表示。过滤是通过ScanBamParam
和PileupParam
对象;输出是一个data.frame
使用基于应用的过滤的可变列。
连环相撞()
可在Rsamtools
包在重击。其他Bioconductor
提供类似堆积的功能的包包括gmapR
(bam_tally),deepSNV
(bam2R)和Rsubread
(featureCounts)。它们的输入要求和输出格式略有不同,详细信息请参见手册页。
的Bioconductor
项目使用Subversion (SVN)源代码控制系统。爱尔兰斯洛伐克预测SVN对于版本控制是有效的,但是不提供诸如GitHub的问题跟踪、拉请求或易于授予权限等社会性编码特性。
为了响应流行的请求,Dan创建了Git-SVN桥,允许Github存储库与Bioconductor
SVN储存库。SVN中的提交会被传播到GitHub,反之亦然。这项服务受到好评,截至2014年6月,已有73座桥梁建成。
要创建网桥,请参见Git-SVN bridge基本知识的。
生物导体AMI已经大修,现在兼容StarCluster。这些增强使通过MPI、SSH或Sun Grid Engine进行通信的节点直接启动集群。详细信息可以在AMI页面。
创建AMI的过程已经使用Vagrant和Chef实现了自动化。我们的脚本公开的可以用来提供AMI、虚拟机(使用Virtualbox或VMware),甚至物理机。
的Bioconductor
主页现在有什么,我们希望是一个更直观和用户友好的界面。“安装”、“学习”、“使用”和“开发”字段通过高级开发人员为新手组织资源。
看一看新的设计。
索纳利本季度继续她在biocViews上的工作。一个新函数,recommendBiocViews ()
可在biocViews
包中。该函数查看DESCRIPTION、手册页和小插图中的单词,并建议在biocViews:
package DESCRIPTION文件字段。该函数还识别包DESCRIPTION文件中出现的无效的biocViews术语(例如,拼写错误)。
recommendBiocViews ()
已被合并到Single Package Builder中,用于检查新包提交;匈牙利瑞士比分鼓励新的包作者在提交包之前运行它。记住,biocViews是区分大小写和分支的(例如,软件包的术语必须来自biocViews的Software分支)。
Sonali在6月份的邮件列表中发布了所有devel软件包的推荐视图。有关完整的列表,请参见此帖子。
我们正在寻找短的,单一主题的视频作为传统小插曲和工作流程的互动补充。
计划是创建一系列5分钟的视频,封装一个HOWTO技能或概述一个项目方面。你可以和Dan一起浏览这个网站,也可以通过Martin对关键包和类的概述来快速入门。观察Marc切片和骰子一个AnnotationDb对象或读取BAM和VCF文件与Sonali和Valerie。
Sonali和Martin领导了这一努力,并计划在2014年波士顿的BioC上公布第一批视频。
在历史上,只有Subversion存储库Bioconductor
软件包对于每个版本都有一个不同的分支。用于实验数据和注释包的Subversion存储库有一个没有分支的主干。
从2014年春季发布开始,Subversion存储库中为实验数据创建了一个分支。其动机是允许软件和实验数据包在发布和开发构建环境中一起发展。对软件包的更新经常会破坏伴随的实验数据。对实验数据所做的更改被提交到主干中,并传播到发布版和开发版构建中,从而在某个地方或其他地方产生不兼容性。
创建新分支的一个结果是,需要碰撞' x.y.z '中的' y '版本编号方案在发布时(就像我们对软件所做的那样)。注释没有改变;它们不属于Subversion,不进行自动构建,也没有版本策略。
实验数据Subversion存储库管理方式的更改只与开发人员相关。2021欧洲杯体育投注开户公共存储库保持不变,每个存储库都有一个单独的存储库Bioconductor
的版本。对于访问公共存储库的用户来说,没有可见的变化。
一个R
3.1.0二进制Mac OS X 10.9 (Mavericks)现在可以从R核心。这R
因为它是用Xcode 5构建的,用来利用Mavericks中新的编译器和功能,而这些功能在早期的OS X版本中是不可用的。
提供兼容的Bioconductor
我们需要新的构建机器。丹配置了两辆新的小牛车,一辆进了释放(莫雷里亚)和一个重击(瓦)。
Xcode和clang编译器的引入导致了包含C和c++代码的包出现新的错误。Nate和Dan花了很多时间与包作者进行故障排除,并提出了一个常见问题和解决方案的列表。吸取的教训被提炼成c++ /小牛最佳实践文档。
有86953次下载Bioconductor
过去一个季度(4 - 6月)的软件包。在此期间接受了41个新的软件包。可以获得软件包下载统计的完整摘要在这里。
该网站有来自180个国家的约11.9万名访问者(同比增长26%),其中美国、中国、英国、德国和加拿大的访问者最多。
这一为期一周的强化课程每年在意大利布里克森-布雷萨诺开设,重点是大型生物实验的统计和计算分析。该课程是为研究人员与基本熟悉的实验技术,谁有兴趣开发自己的高级数据分析。
今年的主题包括RNASeq差异表达,变体调用和ChIP-Seq以及统计测试的要点,机器学习,可视化,当然使用R. Michael Lawrence介绍了一个可伸缩的基因组学
该实验室涵盖了限制资源消耗,在适当的时候使用迭代和缩放基因组图形的主题。很多材料是基于一份手稿目前正在《统计科学》杂志上出版。
2014年6月课程的材料可以在网络。
新社区资源链接包括MOOC的书籍和实验室:PH525x基因组学数据分析。该在线课程由Rafael Irizarry和Michael Love于2014年4月开设。课程目标是使学生能够分析和解释由现代基因组技术产生的数据,特别是微阵列和下一代测序。应用包括基因表达,基因组变异与疾病的关联,以及测量表观遗传标记。
社区页面上还有社区成员制作的YouTube视频链接、Thomas Girke的R/Bioconductor入门提示、Vince Buffalo和Sean Davis的R/Bioconductor博客对23andme数据的分析。
年会将于今年7月30日至8月1日在波士顿举行网站获取演讲者和讲习班名单。
请将意见或问题发送至瓦莱丽vobencha@fhcrc.org。