2015年7月21-22日(开发者日:7月20日)
Fred Hutchinson癌症研究中心,西雅图,华盛顿州
twitter:# BioC2015
开发人员的一天笔记
会议调查:http://goo.gl/forms/NOi0dz8Wmx
本次会议突出了Bioconductor公司内外的最新发展。上午的科学讲座和下午的实践活动为与会者提供分析和理解高通量基因组数据所需的见解和工具。“开发人员日”在7月20日的主要会议之前举行,为开发人员和未来的开发人员提供一个了解项目方向和软件开发最佳实践的机会。2021欧洲杯体育投注开户
上午- 8:30 - 12:00,阿诺德大厦M1-A303/5/7(时间大致)
下午1:00 - 5:00,阿诺德大厦M1-A303/5/7
晚上
上午:邀请科学和社区演讲-佩尔顿礼堂
咖啡休息时间,10点到10点半
午餐时间,12点到1点
下午:同步研讨会- Pelton礼堂和Arnold大厦M1-A303, 5、7号。
第一场,下午1时至2时45分
咖啡休息时间,2:45 - 3:15
第二阶段,下午3:15 - 5:00
晚上,5:15 - 6:30:海报活动;社会小时
上午:邀请科学和社区演讲-佩尔顿礼堂
咖啡休息时间,10点到10点半
午餐时间,12点到1点
下午:同步研讨会- Pelton礼堂和Arnold大厦M1-A303, 5、7号。
第三场,下午1时至2时45分
咖啡休息时间,2:45 - 3:15
第四课,3:15 - 5:00
晚上(5:15 - 6:30):海报活动;社会小时
会议结束后提供介绍;看到课程材料.
亚伦Lun。在ChIP-seq数据中检测差分绑定区域csaw.
本次研讨会将使用csaw包对公共ChIP-seq数据集执行差分绑定分析。参与者将通过所有的步骤csaw分析管道,包括对窗口的读取计数、基于丰度的过滤、库特定偏差的规范化和统计建模。希望您对ChIP-seq过程有基本的了解。
Andrzej Oles, Wolfgang Huber。图像数据和空间模式分析基础知识R.
我们演示了如何用R处理图像数据,如何从图像中提取定量信息,以及如何使用统计方法来探索和理解数据。特别是,我们使用EBImage在R中加载和显示图像,并对它们进行操作、转换和应用过滤器。以细胞分析的显微镜为例,我们展示了如何执行图像分割,然后提取定量的物体特征。这些信息可以用于下游分析,例如,在spatstat的帮助下分析空间点模式。
主持人:Andrzej Oles
Bioconductor核心团队。介绍R而且Bioconductor.
本实验室提供了一个介绍R/Bioconductor用于高通量序列分析。它是为那些有一些但不是很熟悉的人设计的R而且Bioconductor.实验的第一部分着重于R数据类型、功能、类、方法、软件包和帮助系统,以及Bioconductor网站。实验的第二部分快速介绍了序列分析的基本包、类和方法。我们将在必要的地方短暂停留Bioconductor包就像GenomicRanges,Biostrings,GenomicAlignments,GenomicFeatures,AnnotationHub.
幻灯片:GitHub
第三部分:实验室:基础生物导体超文本标记语言,限制型心肌病,R
第四部分:实验室:中间生物导体超文本标记语言,限制型心肌病,R
丹·特南鲍姆,尹腾飞,肖楠。处理码头工人的容器R,Bioconductor、通用工作流语言/Rabix集成。
第一部分(丹·特南鲍姆):介绍Docker和Bioconductor码头工人的容器
Docker是什么?它如何帮助您?我们将介绍Docker及其容器应用程序的思想,以及它们如何在可再现性和开发方面(相同的测试环境、空白石板、预安装依赖项)提供帮助。Bioconductor提供已包含用于各种工作流的包集的预构建容器。这些容器可以直接使用,也可以在它们的基础上构建自己的容器。我们将讨论和演示许多用例,并以创建自己的容器的练习作为结束。
第二部分(尹腾飞,肖楠):我们将介绍通用工作流语言和R包cwl,实现与Rabix,然后演示如何使用docopt编写R命令行工具,如何将您的R命令行工具转换为CWL,如何使用rabix R包的R接口来描述您的工具,以及如何使用rabix在AWS云与SBG平台上开发、部署和运行它或在本地运行它。我们还将演示dockerizing R Markdown文档与Rabix支持使用liftr包;控件将从原始数据上传、管道运行和报告检索的工作流自动化sbgrAPI包。
幻灯片:
格雷格Finak。门控设计实验openCyto.
本次研讨会将涵盖流式细胞术和细胞增殖技术数据分析Bioconductor使用OpenCyto框架。用户将学习读取原始数据,执行补偿、转换和门控,并使用基于ggplot的新的ggcyto可视化框架生成图形。重点将是设计的实验,其中多个样本是匹配的(例如作为治疗和对照)。用户将学习如何使用OpenCyto利用阳性和阴性控制样本来派生数据驱动的门。
幻灯片:GitHub
Hervé Pagès,迈克尔·劳伦斯。Bioconductor高通量测序分析基础数据结构的实用介绍。
詹姆斯·麦克唐纳。常见问题解答生活!常见问题和专家解决方案,亲自交付。
被设计矩阵迷惑了吗?被反差搞糊涂了?被错误所困扰?这就是你的工作室!在本讲习班中,我们将(至少)介绍如何指定和理解设计矩阵和对比(对于使用limma、DESeq/DESeq2、edgeR等分析数据至关重要),以及如何解释线性模型的系数。我们还将展示如何调试您的(和其他人的)代码。这是一项关键的技能,不仅可以确保您自己的代码正确运行,而且可以向包作者提供反馈。
这是Bioconductor支持网站上最常被问到的两个问题,但您可能也有自己的问题。如果您计划参加本次研讨会,并有特别的问题想要讨论,请发邮件给我:jmacdon at uw。edu,我会将您的问题添加到列表中。在研讨会期间也会有提问的机会,但给我时间准备会增加我们可以讨论的问题的数量。
Kasper汉森。甲基化和Illumina 450k微阵列的分析。在本教程中,我们将介绍分析DNA甲基化数据的工具。我们将专注于使用minfi用于Illumina 450k甲基化微阵列分析的软件包。如果时间允许,我们还将讨论使用bsseq包进行全基因组亚硫酸氢盐测序分析。
伦纳德·戈尔茨坦SGSeq还有替代拼接。
的SGSeq包提供了一个框架,用于分析RNA-seq数据中的注释和新拼接事件。SGSeq从参照基因组的reads中预测外显子和剪接连接,并将它们组装成全基因组剪接图。从图中识别剪接事件,并使用跨越事件边界的读取进行量化。本讲习班介绍了SGSeq功能,包括拼接事件检测、量化、注释和可视化。
利瓦伊·沃尔德隆,蒂姆·特里切,艾丁·卡尔汉。多组学数据集综合分析的挑战与机遇。
基因组分析成本的下降有利于从一组生物标本中收集多检测基因组数据(例如,基因和转录本表达、结构变异、拷贝数、甲基化和microRNA数据)。该研讨会将带领参与者从主要癌症基因组学项目中获取多分析组学数据,在Bioconductor中表示这些复杂数据,并对质量控制、可视化和跨数据类型的统计推断进行综合分析。
幻灯片:GitHub
马克·卡尔森,索纳利·阿罗拉。Bioconductor注释资源。
注释是在实验结果中添加有价值的上下文信息的过程。“生物导体”项目一直有大量的资源来协助这方面的工作。长期以来,注释包已经有数百种,许多web服务都喜欢biomaRt,现在还有成千上万的其他有价值的资源AnnotationHub.
本实验的第一部分将提供这些不同类型资源的概述,并包括演示和练习,以帮助学生了解什么是可用的以及这些资源通常是如何使用的。讨论的主题将包括从AnnotationHub访问资源,如何使用带有AnnotationDb对象的选择接口,以及如何从TxDb或organizmdb对象获取基于范围的数据。实验室的这一部分主要针对新用户,他们需要了解可用的注释类型以及如何使用它们。对于那些还在使用过时的方式访问数据(如Bimap对象)的老用户来说,它可能也很有用。
本实验的第二部分将重点介绍新的AnnotationHub,以及如何编写菜谱,以便将新资源添加到中心。AnnotationHub在过去的一年里发生了巨大的变化,我们对那些有动力创建菜谱的社区成员很感兴趣,这些菜谱可以用来扩展可用的内容。因此,实验室的第二部分将针对更高级的用户,他们有兴趣看到中心提供的更新资源。
幻灯片:GitHub
迈克爱。rna序列读取的差异表达、操作和可视化。
我们将介绍RNA-seq分析的基本步骤Bioconductor包,包括:从各种来源加载基因注释(GenomicFeatures),创建一个计数表,可以由内部的各种统计包使用Bioconductor(GenomicAlignments,Rsubread)、探索性分析、可视化和差异表达测试(DESeq2)、结果表的注释(AnnotationDbi),生成HTML报告(ReportingTools)和检查比对的工具(基因组比对)。
Nicole Deflaux, Siddhartha Bagaria和Craig Citro,GoogleGenomics.
谷歌拥有一些非常惊人的大数据计算“锤子”,它们长期以来一直应用于搜索和视频数据。在这个研讨会上,我们用同样的方法将它们应用到整个基因组序列上。
我们会用这两个1000人基因组读和变体,还有Illumina铂金基因组gVCF变体。
我们做这一切从舒适的R提示使用公共包包括VariantAnnotation,ggbio,ggplot2,dplyr,bigrquery以及全新的Bioconductor软件包GoogleGenomics为谷歌的实现提供了一个R接口全球基因组学和健康联盟API。
我们会以一种可复制的方式运行RMarkdown文件通过Dockerized Bioconductor上运行的谷歌计算引擎虚拟机!
幻灯片:GitHub,readthedocs
托马斯Girke。自动的NGS工作流程systemPipeR在集群或单机上运行,重点是VAR-seq。
本教程介绍systemPipeR,这是一个R包,设计用于构建端到端分析管道,并为下一代序列(NGS)应用程序自动生成报告。该包还支持在单机和计算集群上运行命令行软件,如NGS对齐器和变量调用器。本教程的第一部分介绍了包的基本设计,第二部分概述了典型的VAR-Seq分析工作流程,包括读取QC/预处理、变量感知读取对齐、变量调用以及snp和带有基因组上下文信息的索引的注释。
幻灯片:GitHub
Valerie Obenchain, Martin Morgan等人。大型基因组数据的管理和分析。
该实验室将涵盖管理大型基因组数据的策略。可扩展的计算技术,如迭代、数据限制、文件管理和并行评估将在分析示例中讨论和演示。
平行部分将包括朝向BiocParallel包中。BiocParallel为并行、snow、BatchJobs和foreach包提供了统一的API。BiocParallel都是一个独立的实体包,旨在为不同的并行后端提供简单而一致的访问,同时保留各自的优势。讨论的主题将包括日志记录、错误处理、监视长时间运行的作业的进度,以及设置工作者的超时限制。
Jenny Drnevich,伊利诺伊大学。NGS培训师在线分享教学经验和材料的平台。
介绍。在过去十年中,下一代测序(NGS)应用的指数级增长导致了对能够分析这些数据的研究人员的高需求。因此,对这方面培训的需求增加了;在这种分析方面有经验的研究人员通常肩负着培训其他科学家的任务,他们必须花大量时间准备讲座和实践活动,而这些时间已经被他们的研究项目所限制。
的目标。为了解决这个问题,我们想创建一个NGS培训师交流教学经验和材料的系统,这样不仅可以大大减少组织讲座和实践的时间,还可以促进全球NGS培训师之间的交流,努力创建一个NGS培训师社区,分享最佳的培训实践,改进他们的教学,以使科学家具备分析和解释他们的数据所需的技能。
结果。我们在此介绍一个平台,供培训师根据一组通用的描述符,使用“Git”版本控制软件作为后端上传他们的课程材料。使用一组预定义的关键字对材料进行分类,将描述作为标记文件上传。一个简单的用户界面允许训练者使用这些关键字搜索描述性文件,并从材料存储库中检索特定的模块。已提供存储库的相关信息在这里内容将通过高脚杯培训门户访问。
赵世林,范德比尔特大学。一个识别上下文相关的功能转录因子对的R包。
背景。转录因子(TFs)是基因表达的基本调控因子,通常以复杂和协同的方式发挥作用。识别上下文依赖的协同tf对于理解细胞如何响应环境变化是至关重要的。海量的组学数据提供了转录的全基因组物理结合和功能效应信息,为研究转录因子的协同性提供了巨大的机会。
结果。在这里,我们开发了一个R包,FunTFPair,它提供了一种简单而强大的方法,通过整合来自ENCODE的转录因子结合位点和来自GEO的基因表达谱来识别条件特异性TF对。用户只需要提供他们感兴趣的GEO ID。FunTFPair将自动检索输入GEO ID的表达谱,从ENCODE中获取TF靶标,并识别出共同靶标在变化的实验条件下表现出统计学上显著差异或在特定条件下表现出协同转录的TF对。功能TF对及其相对重要性将在TF合作网络中报告。以GEO的两个数据集为例,说明了该软件包的使用和可靠性。
结论。FunTFPair提供了一种简单而强大的方法,可以在用户感兴趣的特定条件下探索潜在的合作tf。该软件包正在开发中,目前可在github库.我们计划在近期提交给Bioconductor。
冷宁,摩根里奇研究所。Oscope:在不同步的单细胞rna序列实验中识别振荡基因的统计管道
振荡基因表达是哺乳动物发育的基础,但监测表达振荡的技术有限。我们开发了一种名为Oscope的统计方法,用于识别和描述来自非同步细胞群的单细胞RNA-seq数据中振荡基因的转录动态。在许多数据集上的应用程序演示了该方法的实用性,还确定了Fluidigm C1平台中的一个潜在工件。
塞巴斯蒂安·巴塔利亚,罗斯威尔公园癌症研究所的。前列腺癌中核受体介导转录的基因组图谱。
前列腺癌(PCa)是美国最常见的癌症,也是导致癌症死亡的第二大原因。最初的治疗方法旨在通过雄激素剥夺疗法(ADT)减少肿瘤负担,但约一半的患者会复发,发展为阉割复发性前列腺癌(CRPCa),通常在临床上是致命的。雄激素受体(AR)是生理和恶性情况下前列腺癌生长的关键媒介,抑制雄激素受体被证明是前列腺癌患者的一线治疗有效,然而,它对CRPCa患者是不够的。维生素D受体(VDR)介导1,25(OH)2D3(维生素D)的细胞内效应,大量研究评估了维生素D的体内外效应,然而,维生素D的抗肿瘤作用在晚期癌症中消失。视黄酸受体(RARs)调节细胞分化和增殖,类视黄酸代谢在前列腺癌中发生改变。AR、VDR和RARs属于核受体(NR)超家族,其活性受到共调控复合物的严格调控。赖氨酸特异性去甲基化酶1A (LSD1)是一种转录调控因子,其表达与癌症侵袭性相关,LSD1抑制被认为是临床抗肿瘤的方法。此外,通过整合RNASeq和ChIPSeq数据,我们描述了LSD1作为AR、VDR和RARs的双共调控因子的作用,并表明LSD1调节独特的NR激活的转录通路,包括MTORC1和MYC信号网络。我们得出结论,LSD1是一个位点特异性的共激活子和共抑制子,通过调节关键的致癌途径,调节癌症进展和治疗反应。
马克·戴恩,俄勒冈健康与科学大学。用于微环境微阵列高含量筛选的计算管道
OHSU MEP-LINCS项目正在开发一个数据集和计算策略,以阐明来自微环境的信号如何影响可观察到的细胞表型和细胞内转录和蛋白质组网络。我们正在使用微环境微阵列(MEMAs)和免疫荧光成像来捕获细胞外基质蛋白和配体成对组合生长的细胞的表型。我们已经开发了两个计算管道,从试点MEP-LINCs高通量筛选实验中创建完全注释的数据集。第一个管道处理人口水平的数据,可以在完成一个实验的一个小时内获得和分析。这个QA管道在实验过程发生后立即提供关于实验过程的反馈。
单元级管道设计用于以自动化方式处理高含量成像数据。对图像特征数据进行预处理、归一化和质量评估是图像特征数据处理的基本任务。最后,我们开发了计算方法,为后续验证实验优先考虑微环境摄动因子(mep)。该管道基于开源的R包,并将贡献一个供公众使用的MEMA包。单元级数据集和相关分析可通过距离财团.
尤里·古瑟夫博士,乔治城大学。Bioconductor的染色体不稳定性指数CIN包。
CIN包计算染色体不稳定性(CIN)指数,该指数允许定量表征全基因组拷贝数改变,作为染色体不稳定性的一种度量。这种方法的算法将在一篇论文(准备中)中描述。
基因组不稳定性是肿瘤发展的一个基本特征;大多数人类肿瘤在结构和数量的改变上表现出这种不稳定性:整个染色体或染色体臂的缺失、扩增、倒置甚至丢失和获得。由这些拷贝数变化所表明的染色体不稳定性与肿瘤发展的各种事件或临床结果方面的肿瘤严重程度相关。
为了数学和定量地描述这些变异,我们首先定位它们的基因组位置并测量它们的范围。这种算法被称为“分割算法”。
CIN模块接受这些分割结果,并计算整个染色体的基因组不稳定性(称为“染色体CIN”,或“标准或常规CIN”),以及更高分辨率的跨细胞带区域的基因组不稳定性(称为“细胞带CIN”)。这允许通过研究CIN指数与这些事件的关联来评估拷贝数变化对各种生物事件或临床结果的影响。
CIN Bioconductor包允许自动处理由Affymetrix SNP 6.0阵列或类似高通量技术生成的实验拷贝数数据。该算法的旧版本显示了整体的不稳定性,已集成到G-DOC的门户网站,并作为G-DOC Plus分析工具的一部分提供给用户在这里.CIN Bioconductor软件包不仅计算总体不稳定性,还计算染色体和胞带级别的增益和损失。
艾莉森·汤普森,太平洋西北国家实验室。气候变化的特征:高通量序列数据分析方法的实施。
摘要:由于所收集数据的性质,分析高通量测序数据特别具有挑战性。在跨样本进行分析之前,必须进行归一化处理,以解释测序深度的差异,从而使样本具有可比性。此外,传统的差异表达统计检验不适用于测序产生的计数数据。虽然有许多测序数据的归一化和差分丰度算法存在,但在这两种情况下都没有明确的最佳方法。本研究的重点是比较和对比归一化和差异检测方法以及由此产生的生物学推论。在这里,我们将重点放在成对测试的DESeq和edgeR方法上,并使用Tessera项目开发的大数据工具进行探索性数据分析,并研究两种测试不同的情况。
安德鲁·j·巴斯,普林斯顿大学。superSeq:通过读子采样来评估测序深度的极限。
RNA-Seq是一种用于差异表达分析的标准基因表达谱分析技术。在RNA-Seq研究中,读取深度强烈影响测试统计量的功率,读取深度越大,统计功率越高。在一定的读取深度之后,测试统计数据的功率开始渐近线,在这个点上功率只有微小的改进。虽然现有的方法,如subSeq,可以帮助确定实验的读取深度是否饱和,但它们的局限性在于,它们不能为欠饱和的实验提供估计适当的读取深度的方法。我们提供了一种名为superSeq的新方法,该方法建模并估计了统计功率的增加,这将导致给定实验的读取深度的增加。然后,我们将superSeq框架应用于表达图谱中的38个RNA-Seq实验。在大多数研究中,该方法准确预测了测试统计量的功率与阅读深度之间的关系。因此,研究人员可以使用即将在R包superSeq中实现的这种方法来确定完成的实验的适当读取深度,以最大化统计能力。
欧建宏,scott A. Wolfe, Michael H. Brodsky,朱丽华,马萨诸塞大学。motifStack:一个可视化序列Logo对齐的工具。
序列基序代表一组相关排列序列中的保守特征,如转录因子(tf)的DNA结合位点或相关蛋白质结构域中的氨基酸模式。为了探索具有相关功能的蛋白质之间的功能和进化关系,需要工具来描述大量序列基序集合中的模式和关系。我们开发了一个灵活的开源R/Bioconductor包motifStack,用来显示和注释对齐的序列motif。我们使用motifStack来可视化和比较三个描述同源域转录因子DNA结合特异性的基序集合。我们发现,与蛋白质序列的差异相比,用于生成基序的实验和计算方法的差异可以对基序对齐产生更大的影响。通过对不同方法确定的基序进行比较,发现哺乳动物和苍蝇同源结构域的基序有预期的大量重叠。然而,我们也使用motifStack来识别物种特定的同源域绑定特性的例子。
Sarah Sheppard, Jianhong Ou, Nathan Lawson和Lihua Julie Zhu,麻省大学。cleanUpdTSeq:应用naïve贝叶斯分类器从3 '端深度测序数据精确分配聚腺苷酸化位点。
3 '端处理对转录终止、mRNA的稳定性和基因表达的调控都很重要。为了识别3 '端,大多数技术利用寡聚dt引物构建深度测序文库。然而,由于腺嘌呤均聚延伸的内部启动,这种方法可以导致人工多聚腺苷酸化位点的识别。通过分析基于oligo-dT测序的3 '端序列特征,我们开发了一个naïve贝叶斯分类器,实现为cleanUpdTSeq包,将它们分类为真或假/内部引物。所得算法精度高,易于识别新的多聚腺苷酸化位点。
乔存烨,加拿大卫生部。在8-19周的时间框架内确定胎儿发育的潜在关键窗口。
Bioconductor是建立在自由和开放的科学思想交流,以及我们的不同用户社区的贡献。本着这种精神,BioC 2015致力于为每个人提供无骚扰的会议体验。任何形式的骚扰(言语、身体、性或其他)在谈话、研讨会、海报会议、社交活动或在线上都是不被容忍的。
空间被指定在托马斯,费尔维德和耶鲁大楼前,在阿诺德大楼的车库为有限的游客,先到先得的基础上。免费游客停车时间限制在两小时内。街道停车场和付费停车场就在附近。看到弗雷德·哈奇访客网站了解更多细节。
会议地点附近的酒店(团体价格不再提供)。