2017年7月27-28日(开发者日:7月26日)
Dana Farber癌症研究所,波士顿,马萨诸塞州
这次会议突出了当前国内外的发展Bioconductor。上午的科学讲座和下午的研讨会为与会者提供了分析和理解高通量基因组数据所需的见解和工具。“开发人员日”在7月26日的主要会议之前举行,为开发人员和准开发人员提供了一个深入了解项目方向和软件开发最佳实践的机会。2021欧洲杯体育投注开户
9:00 - 9:40欢迎光临
9:40 - 10:00重点报道
10:00 - 10:30闪电谈话I
10:30 - 11:00休息
11:00 - 12:00羽毛鸟I /工作坊I
12:00 - 1:00午餐
1:00 - 1:30闪电谈话II
1:30 - 2:30羽毛鸟II /工作坊II
2:30 - 3:00休息
3:00 - 3:30闪电谈话三
3:30 - 4:30工作坊三
4:30 - 5:00小组讨论:项目方向和机会
8:00 - 8:30。登记
邀请演讲嘉宾和社区演讲
12:00 - 1:00午餐/羽绒鸟
1:00 - 2:45工作坊第一期
3:15 - 5:00工作坊第二部分
8:00 - 8:30。登记
邀请演讲嘉宾和社区演讲
12:00 - 1:00午餐/羽绒鸟
1:00 - 2:45工作坊第一期
3:15 - 5:00工作坊第二部分
5:00 - 7:00闭幕酒会
数据编程接口:制作Bioconductor软件更易于分析。受众:包开发人员和用户。2021欧洲杯体育投注开户Bioconductor包有多种类型的用户。大多数人使用包来分析数据。其中一些通过gui访问包,如Shiny应用程序,但大多数访问是编程式的。2021欧洲杯体育投注开户开发人员也是用户,因为他们在现有包的基础上开发包。因此,包的API必须服务于两个角色:数据分析和软件集成。主要是为了集成,我们在专门的类中正式定义了数据结构。集成的、语义丰富的平台的好处证明了专门化、抽象、多态等的复杂性是合理的。然而,这迫使分析师更像工程师而不是分析师那样思考。除了api和gui之外,是否还存在第三种类型的接口,即数据编程接口(DPI)?这与所谓的潮流宇宙的流畅api有什么关系? S4Vectors, IRanges, GenomicRanges. Michael Lawrence (Genentech).
教学/培训使用Bioconductor包。受众:那些教别人使用BioC包的人。你教别人使用吗Bioconductor研讨会或课堂上的套餐?如果是这样,请加入我们的网络,分享想法和讨论与教学有关的问题。你所有的材料都是自己写的,主要用吗Bioconductor课程和会议材料,还是两者的混合?你教什么主题/课程,有多深,目标受众是谁?你准备和教学的时间是如何补偿的?我们将进行在线调查,整理每个人的信息,我们将在自己之间分享,并讨论公开发布Bioconductor的网站。我们也可以有一个简短的讨论,关于开发一个介绍的可行性BioconductorData Carpentry 's Genomics Workshop模块。//www.andersvercelli.com/help/ Jenny Drnevich(伊利诺伊大学),Radhika Khetani(哈佛陈曾熙公共卫生学院)
分析来自GTEx和TCGA的公开的癌症基因组数据BioconductorTCGA / GTEx。观众:研究人员。这个羽绒鸟将解决以下问题:a)从哪里获得GTEx和TCGA数据(网站,Bioconductor包,注释,…);b)将数据读入R c)将数据细分为你想要的数据(例如,从总结实验中提取特定的癌症类型)d)现在可以问什么问题?例子:常见的问题是在正常前列腺和前列腺癌样本中哪些基因表达不同。I)由于我们从两个来源获得数据,是否存在任何批处理效应?2)前列腺癌正常样本和癌样本的差异表达分析。iii)利用差异表达基因做go富集分析,途径富集分析使用Bioconductor工具。软件包:获取GTEx/TCGA数据,纱线/计数,TCGAbiolinks;注释,AnnotationHub;DE分析,DESeq2;丰富分析,clusterProfiler。西雅图Sonali Arora Fred Hutchinson癌症研究中心。
高效存储和处理大规模单细胞基因组数据的基础设施。受众:单单元包的开发2021欧洲杯体育投注开户人员和用户。单细胞转录组学中新兴的高通量技术已经允许为样本中数千个细胞中的每个细胞快速生成表达谱。这为研究复杂群体中的细胞异质性提供了前所未有的解决方案,用于研究细胞命运选择、免疫激活和肿瘤多样性等生物过程。对这些数据的严格分析需要应用适当的统计方法,其中许多方法可从Bioconductor项目。然而,计算分析往往是复杂的一些因素。首先是目前用于单细胞RNA-seq数据分析的包之间的互操作性不佳,因为每个包都定义了自己的S4类以用于进一步处理。另一个问题是涉及的数据集的大小——即使是一个简单的实验也包含数千个细胞中数千个基因的表达值。最后,对单细胞数据的多组学分析的支持很少,这与每个细胞可获得多种类型的数据(例如,转录组学、基因组学和甲基化)的情况有关。本次会议将通过提出以下建议来解决这些问题:(i)扩展现有的用于存储单细胞转录组数据的通用S4类Bioconductor具有特定于单细胞研究槽的类;(ii)开发c++ API,使用稀疏和磁盘支持的矩阵有效处理大型单单元数据集;以及(iii)研究多组学数据可以用于综合分析的途径。散射扫描桅杆司康单片。Davide Risso(威尔康奈尔医学院生物统计和流行病学系)Aaron Lun(剑桥大学CRUK研究所)Davis McCarthy (eml - ebi) Peter Hickey(约翰霍普金斯大学)Stephanie Hicks(哈佛陈曾熙公共卫生学院Dana-Farber癌症研究所)Andrew McDavid(罗切斯特大学医学中心)
每个条目包括标题、目标读者、描述和贡献者。
R和的介绍Bioconductor。初学者。R /的介绍Bioconductor工作坊的设计是一个简单的概述Bioconductor还有一些核心包。取决于参与者的背景和R和经验Bioconductor,研讨会将涉及基本的R概念,概述什么是RBioconductor,并简要总结了一些标准Bioconductor软件包,如Biostrings, GenomicRanges, GenomicAlignment, VariantAnnotation,以及org, TxDb和AnnotationHub等注释资源。这个研讨会将会给你一些启发Bioconductor必须提供。Lori Shepherd(罗斯威尔公园癌症研究所)。
通过基因组范围基础设施的发现之旅。中间。我们将介绍GenomicRanges包和相关基础设施的基本概念。在一个结构化的介绍之后,我们将自由地探索基础设施,从GRanges和summarizeexperimental的中心数据结构到模糊的深度,由与会者的问题和兴趣驱动。主题将包括数据导入/导出,计算和汇总基因组特征的数据,重叠检测,与参考注释的集成,缩放策略和可视化。在旅程结束时,我们希望能更全面地了解Bioconductor。迈克尔·劳伦斯(Genentech)。
微生物组数据分析。中间。Bioconductor为微生物组数据采集、分析和可视化提供重要资源。本研讨会将介绍ExperimentHub,这是一个最新的基于云的平台,用于将精心策划的实验数据分发到BioconductorcuratedMetagenomicData是一个资源,提供来自26个公开研究(包括人类微生物组项目)的5000多个完整宏基因组鸟弹测序样本的统一处理的分类和代谢功能配置文件,以及精心策划的参与者数据。它演示了使用dada2, phyloseq和metagenomeSeq包对这些数据进行分析,用于去噪,估计差异丰度,alpha和beta多样性,排序和微生物组数据分析的其他方面,以及用于浏览和可视化微生物组配置文件的metavizr包。这些软件包一起提供了易于连接的组件,用于16S rRNA和整个宏基因组鸟枪微生物组谱的数据采集和灵活分析。在本次研讨会结束时,用户将能够访问公开可用的宏基因组数据,并对这些数据和其他数据进行常用的统计分析Bioconductor。Levi Waldron(市立大学公共卫生学院),Susan Holmes(斯坦福大学),Paul J. McMurdie(华盛顿大学),Edoardo Pasolli(特伦托大学),Joe Paulson (Dana-Farber癌症研究所),Lucas Schiffer(市立大学公共卫生学院),Justin Wagner(马里兰大学)。
交互式可视化和数据分析与epiviz web组件。中间。本次研讨会将讨论如何使用epiviz web组件在R markdown页面中包括基因组数据的交互式可视化。Epiviz web组件是Epiviz框架的新组件,用于支持跨各种平台和应用程序的基因组数据可视化。我们将演示如何使用组件使用图表或基于跟踪的图表组件来可视化数据,如何使用导航组件在同一页面上同时可视化来自多个区域的数据,以及如何使用环境组件启用跨所有图表的刷屏。在研讨会结束时,用户将能够设置使用epiviz web组件所需的必要库,从R加载数据,从R markdown与epiviz组件生成交互式html页面。我们还将向用户介绍如何设置和使用epiviz桌面应用程序R/Bioconductorepivizr包。本研讨会面向希望使用现有生物导体基础设施进行探索性数据分析并快速可视化基因组数据并与其他用户共享其可视化结果的中级用户。Jayaram Kancherla(马里兰大学帕克分校),Hector Corrada Bravo (UMD), Brian Gottfried (UMD)。
差异基因表达分析R/Bioconductor。中间。我们将从RNA-seq实验生成的计数数据开始,介绍基因水平差异表达分析的基本步骤。这些分析步骤将使用Bioconductor包,并将包括探索性分析,可视化和差异表达测试。Radhika Khetani, Meeta Mistry, Mary Piper(哈佛大学陈曾熙公共卫生学院)
CyTOF工作流程:高通量高维细胞术数据集的差异发现。中间。高维质量和流式细胞术(HDCyto)实验已成为高通量查询和细胞群表征的一种方法。在这里,我们提出了一个用于HDCyto数据差异分析的基于r的管道,主要基于Bioconductor包。我们使用FlowSOM聚类来计算定义细胞群,并促进可选但可重复的策略,用于手动合并算法生成的聚类。我们的工作流程提供了不同的分析路径,包括细胞类型丰度与表型或特定亚群中信号标记物变化的关联,或聚合信号的差异分析。重要的是,我们展示的差异分析是基于回归框架,其中HDCyto数据是响应;因此,我们能够模拟任意的实验设计,例如具有批处理效果的设计,配对设计等等。特别是,我们将广义线性混合模型应用于细胞群体丰度的分析或信号标记的细胞群体特异性分析,允许细胞计数的过度分散或跨样本的聚集信号进行适当的建模。为了支持正式的统计分析,我们鼓励在每个步骤进行探索性数据分析,包括质量控制(例如多维标度图)、聚类结果报告(降维、树状图热图)和差分分析(例如聚集信号图)。这个工作流最近作为预印在f1000研究Bioconductor网关。预期结果:在本次研讨会之后,参与者将能够对HDCyto (CyTOF和高维流式细胞术)数据进行完整的基于r的差异分析Bioconductor包。关键步骤包括预处理和转换、聚类、降维和差分测试。在整个流程中,我们强调探索性数据分析和可视化技术,以促进质量控制和解释。在研讨会期间,将提供完整工作流的R代码,并在示例数据集上进行演示。这将确保在研讨会结束后,参与者可以适应和扩展代码和工作流来分析他们自己的实验数据集。互动练习:研讨会将包含可选的互动练习,以逐步完成论文的工作流程。用户将被要求执行一些小任务,如改变一些图,转换调整,降维,如主成分分析(PCA),和聚类到不同数量的组。这些练习旨在展示所提出的方法的健壮性,以及不同的分析策略如何影响结果。先决条件:参与者应对R和Bioconductor。特别是,参与者应该知道如何安装和加载Bioconductor包;从保存的文件中导入和导出数据(例如.csv, .txt或.fcs格式);并创建图(最好使用“ggplot2”)。参与者还应基本熟悉HDCyto (CyTOF和/或高维流式细胞术)实验和数据分析技术(例如,之前曾使用门控或自动化方法分析过CyTOF或FACS数据集)。熟悉统计方法(特别是混合模型)也会有用,但不是必需的。Malgorzata Nowicka, Lukas M. Weber, Mark D. Robinson(苏黎世大学)。
高通量组学数据的功能富集分析Bioconductor。中间。本研讨会将概述现有的功能基因群富集分析方法和实现,如基因集、通路和网络。参与者将被介绍常用的基因集检测方法的统计理论,强调假设的潜在差异和个体的局限性。将使用选定的已建立的实例进行实际操作Bioconductor软件包在实践中表现良好。本次研讨会将为参与者提供数据准备、预处理、差异表达分析、基于集和网络的富集分析的功能,以及基因表达数据结果的可视化和探索。最后,研讨会将提供当前发展的展望,以扩展从多个高通量组学分析获得的数据的基因集富集分析。不需要特定的先验知识,但使用R操作数据的基本技能是有益的。Ludwig Geistlinger, Levi Waldron(纽约城市大学公共卫生学院)。
学习为您的项目利用70,000个人类RNA-seq样本。初学者。该项目重新处理了7万多个人类RNA-seq样本的RNA测序(RNA-seq)数据,涵盖各种组织、细胞类型和疾病状况。研究人员可以通过重新计票
Bioconductor可以快速导入基因、外显子、外显子-外显子结和碱基对覆盖数据,对R中SRA、GTEx和TCGA项目中统一处理的数据进行分析。的不同用例重新计票
包,包括下载和规范化数据,处理和清洗相关表型数据,执行差异表达(DE)分析,并创建报告,以探索使用其他方法的结果Bioconductor包。研讨会还将介绍如何将碱基对覆盖数据用于与注释无关的DE分析,以及如何将感兴趣的特性的覆盖数据可视化。参加完本次研讨会后,与会者将准备好通过利用来自70,000个人类样本的RNA-seq数据来增强他们的分析。recount2网站,重新包,纸。主题:RNA-seq预期结果:学习如何搜索项目,下载数据,探索元数据,添加更多的表型信息,并为DE分析准备数据。然后进行DE分析DESeq2
并探索结果使用regionReport
。参与者先决条件:基本熟悉包,如GenomicRanges
而且DESeq2
。将简要介绍研讨会中使用的这些包的功能。Leonardo Collado Torres(利伯大脑发展研究所)。
理解Bioconductor注释包。中间。类提供了各种注释包Bioconductor可用于将额外信息纳入高通量实验结果的项目。这可以像将Ensembl id映射到相应的HUGO基因符号一样简单,可以映射到涉及多个数据源的更复杂的查询。在本研讨会中,我们将介绍各种类型的注释包,它们包含什么,以及如何有效地使用它们。参与者应该对R和Bioconductor。詹姆斯·麦克唐纳(华盛顿大学)。
Bioconductor中间单细胞RNA测序(scRNA-seq)是一种强大而有前途的高通量分析方法,使研究人员能够测量单个细胞的全基因组转录水平。为了正确解释scRNA-seq特有的特征,例如零膨胀和高水平的技术噪声,已经开发了几种新的统计方法。本次研讨会的目的是引导与会者通过scRNA-seq数据分析工作流程,从原始基因级计数数据到聚类和细胞谱系推断。工作流有三个主要步骤,其中,对于每个步骤,我们使用不同的R包(要提交或已经打开)Bioconductor).
首先,我们提出了基于零膨胀负二项式的期望变异提取(ZINB-WaVE),这是一种通用而灵活的归一化、降维和差分表达式分析框架(R软件包zinbwave)。该方法基于ZINB模型,该模型特别考虑了零膨胀(dropout)、过度分散和数据的计数性质。在ZI概率和NB均值的模型中包含已知和未知的细胞水平协变量,允许有监督和无监督归一化。其次,我们提出了一种基于重采样的序列集成聚类(RSEC)方法(BioconductorR包集群实验)用于识别稳定和紧密的细胞集群。该方法将从不同的基本聚类算法和给定算法的应用中获得的多个聚类结果聚合到重新采样的学习集版本中。第三,我们演示了如何使用R软件包弹弓推断分支谱系和顺序细胞的发展进程。我们用最小生成树连接由RSEC识别的集群,以了解全局谱系结构。然后,我们改进这个结构,并使用高度稳定的同时主曲线对细胞进行排序,以推断平滑的分支谱系。
该工作流程将使用来自小鼠嗅觉上皮干细胞分化的scRNA-seq研究的数据进行说明。范妮Perraudeau(生物统计学,公共卫生学院,加州大学伯克利分校,美国),凯利街(生物统计学,公共卫生学院,加州大学伯克利分校,美国)的Davide Risso(生物统计学和流行病学、卫生保健政策和研究部门,威尔康奈尔医学,纽约,纽约,美国)Sandrine Dudoit(生物统计学,公共卫生学院,加州大学伯克利分校,Elizabeth Purdom(美国加州大学伯克利分校统计系)。
与TCGAbiolinks和ELMER的综合分析研讨会。中间。癌症基因组图谱(TCGA)、DNA元素百科全书(ENCODE)、NIH路线图表观基因组图谱联盟(路线图)和其他有组织的国际联盟引领了基于测序的生物数据的爆炸,从而提供了迄今为止最大的公开基因组、转录组和表观基因组数据的空前访问。这些项目为研究人员提供了惊人的机会,以高基因组分辨率研究培养的癌细胞系、正常和肿瘤新鲜组织的表观基因组。然而,在分析中使用这些数据,包括以可重复的方式搜索、下载和处理它们的艰巨任务。此外,大多数生物信息学工具是为特定的数据类型(例如,表达、表观遗传学、基因组学)设计的,这些数据类型只能提供发生的生物过程的部分视图。与单独的临床特征相比,对分子数据集和临床信息进行集成分析已被证明可以提高癌症表型的预后和预测准确性。本次研讨会将重点帮助研究人员通过利用生物导体平台内的开源软件包,对TCGA提供的分子和临床数据进行综合分析。参与者将学习从新创建的NCI基因组数据共享(GDC)门户网站搜索和下载DNA甲基化(表观遗传)和基因表达(转录)数据,并将其准备到总结实验对象中。我们将使用我们最近开发的tcgabiolinkks介绍工作流程,如果时间允许,我们将突出显示图形用户界面版本(TCGAbiolinksGUI)。 Another bioconductor package will also be introduced called ELMER which allows one to identify DNA methylation changes in distal regulatory regions and correlate these signatures with expression of nearby genes to identify transcriptional targets associated with cancer. For these distal probes correlated with a gene, a transcription factor motif analysis is performed followed by expression analysis of transcription factors to infer upstream regulators. We expect that participants of this workshop will understand the integrative analysis performed by using TCGAbiolinks + ELMER, as well as be able to execute it from the data acquisition process to the final interpretation of the results. The workshop assumes users with an intermediate level of familiarity with R, and basic understanding of tumor biology. Tiago Chedraoui Silva (University of São Paulo / Cedars-Sinai), Houtan Noushmehr (University of São Paulo/Henry Ford Health System) Benjamin Berman (Cedars-Sinai)
使用CRISPRseek和GUIDEseq设计和评估用于CRISPR-Cas9基因组编辑的指导rna。初学者。最新开发的基因组编辑系统CRISPR-Cas9比以前的可编程核酸酶平台具有更大的固有灵活性。由于其简单和有效,这项技术正在彻底改变生物学研究,并在治疗应用方面具有巨大的前景。然而,CRISPR-Cas9核酸酶在基因组内不完善的切割特异性是其治疗应用的一个担忧原因。为了促进该技术的采用和改进,我们开发了CRISPRseek用于设计靶特异性grna,并开发了GUIDEseq用于从GUIDE-seq实验中识别全基因组脱靶位点,以评估工程cirpr - cas9核酸酶的精度。在本次研讨会上,我将介绍CRISPR基因组编辑和GUIDE-seq技术,然后是使用CRISPRseek和GUIDEseq的实际操作环节。在课程结束时,学员应能够使用CRISPRseek设计各种cas9核酸酶和基因组的靶向grna,并使用GUIDEseq分析GUIDE-seq数据。朱丽华(麻省大学医学院)。
集成基因集富集分析EGSEA。初学者。目前存在许多用于基因集测试的工具,为给定的rna测序/微阵列数据集选择最佳方法是一个挑战。的EGSEA软件通过将许多不同算法的结果结合在一起的集成方法来执行基因集测试,从而克服了这个问题。EGSEA使用轰鸣声方法处理rna测序数据,并在适用的情况下,应用线性模型分析与兴趣的成对比较。然后结合从许多方法中获得的结果Bioconductor项目,包括相机,烤,炒,安全,计量,padog, plage, zscore, gsva, ssgsea,全球测试和ora,以获得共识。的功能概述EGSEA通过演示如何打包的工作流进行打包EGSEA可以应用于rna测序和微阵列数据分析小鼠乳腺上皮细胞群。它将介绍大量的基因签名EGSEA可以轻松地测试和探索基因集分析结果的详细报告选项吗EGSEA通过可与协作者共享的HTML报告提供。所获得结果的生物学相关性EGSEA也将重点介绍中国的集成方法。Matt Ritchie (Walter和Eliza Hall医学研究所)。
变体注释工作坊与FunciVAR, StateHub和MotifBreakR。中间。变体注释是评估全基因组测序研究、GWAS和其他下一代测序技术中识别的变体的潜在功能的关键步骤。在提议的研讨会中,我们将调查和审查一套工具的功能Bioconductor宇宙。在研讨会期间,参与者将学习如何从路线图,IHEC, Blueprint或ENCODE中识别公共数据集,下载它们并使用它们生成集成的染色质状态注释StateHub而且StatePaintR。参与者还将使用StateHub资源创建他们自己的注释模型。然后,我们将使用FunciVAR软件包集成了一组生物学上有趣的变体,并评估它们的生物富集,包括一些如何选择适当的背景分布的讨论。最后,参与者将使用MotifBreakR用一组变体预测潜在的基序中断。参与者需要有基本的R和Bioconductor数据结构,以及ChIP-seq或一般NGS实验和数据的一些工作知识,因为这些主题将不涉及。Dennis J Hazelett(雪松西奈医疗中心),Simon G Coetzee。
使用ChIPpeakAnno, GeneNetworkBuilder和TrackViewer集成分析和可视化ChIP-seq数据。中间。染色质免疫沉淀和DNA测序(ChIP-seq)已成为目前最流行的高通量技术,用于全基因组鉴定转录因子结合位点和组蛋白修饰。在本次研讨会上,与会者将获得分析ChIP-seq数据集的知识和实践经验Bioconductor例如ChIPpeakAnno, GeneNetorkBuilder和TrackViewer。欢迎参与者分析自己的数据集或已发布的ChIP-seq数据集。参与者必须知道如何使用R/Bioconductor,包括如何安装R,安装Bioconductor包。熟悉fastq、sam、bam等深度排序文件格式。欧建宏,朱丽华朱丽华(麻省大学医学院)。
MultiAssayExperiment多组学数据表示和分析。中间。的MultiAssayExperiment软件包提供了对多个不同基因组数据的协调表示、存储和操作。它集成了一组开放式的单一分析数据类,同时通过一组足够的数据操作、提取和重新塑造方法来抽象后端数据对象的复杂性,以与大多数数据进行交互R/Bioconductor数据分析和可视化工具。本次研讨会将介绍数据类及其基本操作,然后将引导用户通过一个完整的工作流程,包括构建和多个多组学数据集的统计分析。用户应该熟悉基本的Bioconductor数据结构,如summarizeexperiment。Marcel Ramos(市立大学公共卫生学院),Vince Carey (Dana Farber)和Levi Waldron(市立大学公共卫生学院)。
北卡罗来纳大学教堂山分校朱安琪教授;约瑟夫,易卜拉欣,北卡罗来纳大学教堂山分校;Michael, Love,北卡罗来纳大学教堂山分校- RNA-Seq数据差异表达分析的经验贝叶斯方法在RNA-Seq差异表达分析中,研究人员的目标是检测那些在不同实验条件下表达水平变化的基因,尽管在观察中存在技术和生物学差异。一个基本的挑战是准确估计效应大小,通常是根据不同条件下的对数折叠变化(LFC)。当其中一种或两种条件下测序的reads数都很小时,估计的LFC具有较大的方差,导致一些高估计的LFC,这并不代表真正的表达差异。目前的方法引入任意过滤阈值和伪计数来排除或调节读取计数小的基因的估计LFC。这些方法可能会导致分析中基因的丢失,在不同条件下存在真实差异。在这里,我们提出了一个具有宽尾先验效应量的经验贝叶斯过程,避免定义任意的过滤器阈值或伪计数。我们表明,我们对LFC的新估计量是有效的,并且比以前提出的收缩估计量有更低的偏差,同时仍然减少了那些统计信息很少的基因的方差。
Lauren Blake,芝加哥大学;萨曼莎·m·托马斯,芝加哥大学;芝加哥大学John D. Blischak;Chiaowen Joyce Hsiao,芝加哥大学;芝加哥大学Claudia Chavarria;Marsha Myrthil,芝加哥大学;Yoav Gilad,芝加哥大学;Bryan J. Pavlovic,芝加哥大学-人类和黑猩猩内胚层分化的比较研究人们对形成早期人类发展中建立的调节框架的进化力量有很大的兴趣。由于难以获得相关生物样本,这一领域的进展缓慢。诱导多能干细胞(iPSCs)提供了建立早期人类和非人灵长类动物发育阶段体外模型的能力。 Using matched iPSC panels from humans and chimpanzees, we comparatively characterized gene regulatory changes through a four-day timecourse differentiation of iPSCs (day 0) into primary streak (day 1), endoderm progenitors (day 2), and definitive endoderm (day 3). As might be expected, we found that differentiation stage is the major driver of variation in gene expression levels, followed by species. Using the Bioconductor packages edgeR and limma (Robinson et al. 2010, Ritchie et al. 2015), we identified thousands of differentially expressed genes between humans and chimpanzees in each differentiation stage. Yet, when we utilized the R/Bioconductor package Cormotif (Wei et al. 2015) to consider gene-specific dynamic regulatory trajectories throughout the timecourse, we found that 75% of genes, including nearly all known endoderm developmental markers, have similar trajectories in the two species. Interestingly, we observed a marked reduction of both intra- and inter-species variation in gene expression levels in primitive streak samples compared to the iPSCs, with a recovery of regulatory variation in endoderm progenitors. The reduction of variation in gene expression levels at a specific developmental stage, paired with overall high degree of conservation of temporal gene regulation, is consistent with the dynamics of developmental canalization. Overall, we conclude that endoderm development in iPSC-based models are highly conserved and canalized between humans and our closest evolutionary relative.
詹姆斯·阿什莫尔,MRC再生医学中心;MRC再生医学中心Luca Tosti博士;MRC再生医学中心Nicholas Tan博士;西蒙·汤姆林森博士,MRC再生医学中心;Keisuke Kaji教授,MRC再生医学中心-利用体外和体内最少数量的细胞绘制转录因子占用图基因组中转录因子(TF)结合位点的识别对于理解基因调控网络(GRNs)至关重要。虽然ChIP-seq通常用于识别TF靶点,但它需要特定的chip级抗体和较高的细胞数量,这通常限制了其适用性。DNA腺嘌呤甲基转移酶鉴定(DNA adenine methyltransferase identification, DamID)是一种研究蛋白质-DNA相互作用的独特技术,在果蝇中得到了广泛应用。与ChIP-seq不同,它不需要抗体、沉淀步骤或化学蛋白质- dna交联。在这里,我们描述了一个优化的DamID-seq协议和数据分析包,并证明了在多达1000个胚胎干细胞(ESCs)中鉴定出OCT4结合位点。此外,我们首次将该技术应用于哺乳动物体内,并在交配后7.5天(dpc)的原肠发育小鼠胚胎中成功鉴定出多个OCT4结合位点。
肖楠,Seven Bridges Genomics;殷腾飞,Seven Bridges Genomics;mihao - zhu Li,杜克大学- DockFlow: Bioconductor工作流容器化和与liftr编排我们已经积累了大量优秀的软件包,用于分析大规模生物医学数据,以实现人类基因组学的承诺。Bioconductor工作流说明了以可复制和人类可读的方式组织和演示此类软件集合的可行性。展望未来,从工程角度来看,如何在工业规模上实现全自动工作流执行和持久可重复的报告编译将成为一个挑战。例如,跨工作流的软件工具通常需要完全不同的系统依赖关系和执行环境,因此需要完全隔离。作为使用Docker探索生物信息学工作流容器化和编排可能性的首批努力之一,DockFlow项目旨在以一种干净、流畅和可扩展的方式将每一个现有的Bioconductor工作流容器化。我们将展示在R包liftr的帮助下,只需为每个工作流创建和管理一个YAML配置文件,就可以实现持久可重复的工作流容器化的目标。我们还将分享我们的经验和在这种容器化工作中遇到的陷阱,这可能为将来创建类似的生物信息学工作流程提供一些最佳实践和有价值的参考。DockFlow项目网站:https://dockflow.org。
Chiaowen Joyce Hsiao,芝加哥大学;马修·斯蒂芬斯,芝加哥大学统计学系和人类遗传学系;Kushal K Dey,芝加哥大学统计系-利用隶属度模型的等级来可视化RNA-seq表达数据的结构隶属度模型的等级,也称为“混合模型”,“主题模型”或“潜在狄利克雷分配”,是一种聚类模型的泛化,允许每个样本在多个聚类中具有成员。这些模型被广泛应用于种群遗传学中,用于对来自多个“种群”的混合个体进行建模,以及在自然语言处理中,用于对包含来自多个“主题”的单词的文档进行建模。在这里,我们说明了这些模型对RNA-seq基因表达数据的聚类样本的潜力,这些样本是在批量样本或单细胞上测量的。我们还提供了方法来帮助解释簇,通过识别在每个簇中独特表达的基因。通过将这些方法应用于几个RNA-seq应用实例,我们证明了它们在识别和总结结构和异质性方面的实用性。应用于来自GTEx项目的53个人类组织的数据,该方法突出了生物相关组织之间的相似性,并确定了概括已知生物学的独特表达基因。应用于小鼠着床前胚胎的单细胞表达数据,该方法强调了早期胚胎发育阶段的离散和连续变化,并强调了参与各种相关过程的基因——从生殖细胞发育,通过压实和桑葚胚形成,到囊胚期内细胞团和滋养层的形成。这些方法在Bioconductor包中实现CountClust。
朱丽华,麻省大学医学院;阿纳斯塔西娅·维蒂,马萨诸塞州医学院;马萨诸塞州医学院欧建宏;马萨诸塞州医学院的Timothy D. Matheson;马萨诸塞大学医学院余军;Paul Kaufman,麻省大学医学院-小鼠核仁相关结构域的基因组学和生物信息学分析在间期真核细胞中,异染色质主要分布在核仁周围和毗邻核层的区域之间,因此定义了核仁相关结构域(NADs)和核层相关结构域(LADs)。以往的研究表明,人类细胞的LADs和NADs在很大程度上是可互换的,因为有丝分裂后异染色质通常随机定位在每个子细胞中。在这里,我们通过分离核仁的深度测序鉴定了小鼠胚胎成纤维细胞中的NAD,在交联和非交联细胞样本中发现了类似的结果,我们开发了一种Bioconductor包NADfinder,用于生物信息学分析较大的NAD峰值(平均~0.3 Mb)。我们的分析表明,小鼠核仁与两类不同的峰相关联,它们类似于兼性或本构异染色质。即这些类复制时间不同,H3K9me3和H3K27me3富集不同,与LADs重叠不同。 Examples of nucleolar associations with both classes of NADs were confirmed using single cell fluorescent in situ hybridization experiments. These data are surprising given that human cell NADs are more heavily weighted towards LAD-associated heterochromatin.
Xengie Doan, Stowers医学研究所;Jennifer Gerton,医学研究所;Karen Miga,加利福尼亚大学圣克鲁兹分校-着丝粒在细胞中起着关键作用,但由于难以绘制高度相似串联重复序列的长阵列或包含着丝粒的卫星DNA,因此在基因组癌症研究中基本上被忽略了。着丝粒招募着丝粒,即微管的结合位点,以促进染色体分离。着丝粒功能缺陷可导致遗传不稳定和非整倍体。染色体不分离在许多癌症中很常见。然而,卫星DNA的改变是否会影响癌症中着丝粒的功能在很大程度上是未知的。在这项研究中,我主要关注组成人类着丝粒核心的α卫星(AS)和高阶重复序列(HORs)。着丝粒AS高度同质,主要定位于着丝粒中串联重复的多AS单位(HOR单位)。这些HOR单元本身在多兆酶阵列中重复,这些阵列在染色体中更加独特。 Since tandem repeats have a high mutation rate and can be targeted by transposable elements (TE) we ask two questions using computational approaches: 1) are HOR units expanding or contracting during stress such as cancer; and 2) are TE altering AS units with mobile element insertions. Using NCBI dbGaP whole genome sequence tumor and normal paired samples from esophageal cancer individuals, I count subsets of HOR units to characterize gain or loss of repeats in the centromere. Also, I use mobile element locator tools to detect structural variants in AS repeats. Initial results suggest HOR copy number variation in cancer and transposable element insertion presence in some centromeres. Methods and analytical challenges will also be presented.
Azfar Basunia,纽约州立大学北州/DFCI;Aedin Culhane, DFCI,孟Chen慕尼黑工业大学-使用多组学潜在变量基因集和双聚类方法在TCGA胰腺癌数据中发现免疫亚型目标利用多组学计算框架在癌症基因组图谱肿瘤中发现潜在免疫分子亚型。方法与材料: Multi Assay Experiment (MAE) R对象用于组装、存储和管理公开可用的癌症基因组图谱(TCGA)基因组数据集。这些数据包括来自30种肿瘤类型的6469例患者的RNASeq、RPPA、gistica和gistict。采用多因素分析(moGSA R包)对数据进行整合,提取77个代表70%方差覆盖率的主成分(PCs)。将代表免疫(Bindea, c7-MSigDB)、致癌(c6-MSigDB)和策展(c2-MSigDB)通路的基因集表投射到pc上,以生成每个肿瘤的通路评分。通过离散肿瘤p值表的途径,应用迭代二元双聚类(iBBiG)(10次迭代)来发现跨越癌症类型的稳健双聚类。对这些双聚类进行突变负荷(ML)、白细胞分数(LF)和生存评估。结果:生成16个具有多个肿瘤成员的集合双簇。双聚类分为强LF组(6组)、强ML-弱LF组(2组)、弱ML组(2组)、弱LF组(2组)和广义组(4组)。结论MAE-moGSA-iBBiG框架可用于揭示和分类肿瘤类型的潜在免疫亚型。影响与意义免疫亚型可以说明肿瘤-免疫反应在不同肿瘤类型之间的差异,这可以作为治疗的靶向。
威尔·汤斯,哈佛生物统计学;斯蒂芬妮·希克斯、达娜·法伯;马丁·阿尔耶,MGH;单细胞RNA-Seq (scRNA-Seq)测量单个细胞的基因表达,有可能促进新细胞类型的鉴定。通常,这是通过从数千个基因降维到少量因子,然后进行无监督聚类来实现的。scRNA-Seq数据的特征是大量的零优先出现在低表达基因(审查)。审查的速度通常因细胞和实验平台而异,可能是由于技术批量效应而不是生物学。这种变量审查扭曲了目前使用的主成分分析(PCA)、t分布随机邻居嵌入(t-SNE)和零膨胀因子分析(ZIFA)等方法推断的因素。在这里,我们提出了可变审查意识矩阵分解(VAMF),这是一种新方法,从推断的潜在因素中分离审查引起的可变性。VAMF在不使用标签的情况下删除真实数据集中的批处理效应,并在模拟数据中检测生物组,尽管有变量审查。
Dana-Farber癌症研究所的Renato Umeton;布里格姆妇女医院病理科Navin R. Mahadevan;丹娜-法伯癌症研究所信息部临床与转化信息部Adem Albayrak;哈佛医学院的Anika E. Adeni;Peter Hammerman, Lowe胸部肿瘤中心,Dana-Farber癌症研究所,贝尔弗应用癌症科学研究所和哈佛医学院;Mark Awad,洛胸肿瘤中心,达纳-法伯癌症研究所和哈佛医学院;Leena Gandhi,洛胸肿瘤中心,丹娜-法伯癌症研究所和哈佛医学院;Lynette M. Sholl,布里格姆妇女医院,病理科和哈佛医学院-将数据科学过程应用于癌症研究:报告的NSCLC中的肿瘤突变负荷与免疫治疗的持久临床反应相关背景:最近的证据表明,肺癌中免疫检查点抑制剂反应的有效性和持久性与增加的非同义突变(NSM)负担、假定的新抗原数量以及在某些肿瘤类型中PD-L1蛋白表达相关。在本研究中,我们回顾性分析了免疫检查点阻断患者肺癌突变负担、PD-L1表达和免疫浸润与临床反应的关系(S.L. Topalian, et al.)。2013;Garofalo A.等。Genome Med. 2016)。方法:整个分析工作流程都嵌入到我们的数据科学过程;该方法旨在确保结果的完全可重复性和分析的完全可伸缩性,当新数据或新见解可用时(V. Stodden et al。科学。2016)。就像我们通常如何对源代码进行版本化一样,我们决定对数据进行版本化分析:从原始文件处理到图形生成,一切都嵌入到我们的数据科学过程。来自临床靶向下一代测序的肿瘤突变负荷数据(E.P. Garcia, et。2017年《病理学与检验医学档案》对94例接受免疫检查点抑制剂治疗的肺癌患者进行了研究,并与临床结果相关,包括持久临床获益(DCB;>6个月部分或稳定缓解)和无进展生存期(PFS)。PD-L1免疫组化(克隆E1L3N,细胞信号技术,Envision+检测,Dako)如果肿瘤细胞和/或肿瘤浸润免疫细胞(IC)染色≥1%,则被认为是阳性。使用PU.1、CD3和FOXP3免疫组化来突出肿瘤相关的巨噬细胞和非调节性和调节性T细胞群,这些细胞群按mm2手工量化。结果:患者平均年龄62岁(范围:32-91岁)。肺肿瘤类型包括67种腺癌,11种鳞状细胞癌,5种其他/联合组织学。治疗包括PD-1抑制剂(73),PD-L1抑制剂(5)和多种药物(5)。在所有肿瘤类型中,DCB患者的突变负荷显著高于无持久获益(NDB)患者[p < 0.01]。肿瘤突变负荷大于中位数的患者PFS明显长于其他患者(p < 0.05)。吸烟史越长,突变负荷越高(p < 0.05),吸烟者的PFS比不吸烟者长。PD-L1在肿瘤细胞或免疫细胞中的表达与突变负荷或PFS无关。肿瘤微环境中PD-L1的表达与非调节性T细胞和调节性T细胞数量的增加相关(p < 0.05),并倾向于与肿瘤相关巨噬细胞数量的增加相关,尽管这一趋势没有达到统计学意义。结论:通过靶向下一代测序评估肺非小细胞癌中的肿瘤突变负荷与PFS增加和免疫检查点抑制剂的持久临床获益相关。在这个有限的队列中,使用克隆E1L3N表达的PD-L1不能预测对这些治疗的反应。我们增加了越来越多的证据,表明增加的癌症体细胞突变影响免疫检查点封锁的反应。
德国慕尼黑大学医学院生物医学中心生物信息学核心设施Tamas Schauer;Tobias Straub,德国慕尼黑大学医学院生物医学中心生物信息学核心设施;Peter B Becker,德国慕尼黑大学医学院生物医学中心生物信息学核心设施-果蝇单胚胎转录组RNA-seq归一化策略归一化是转录组数据分析的关键步骤。在这里,我们探索各种标准化策略使用核糖体耗尽总RNA测序从单个果蝇胚胎。我们比较了与基因或共识转座子序列一致的读计数的相对归一化,以及使用ERCC刺入rna的绝对归一化。由DESeq包计算的大小因子并不总是给出可靠的归一化,例如,当在早期阶段只检测到不到一半的基因时。基因库大小和基于ercc的归一化正确地测量了转录组,因为使用这些方法,已知的内控基因(例如核糖体蛋白基因)在不同阶段之间是不变的。与共识转座子序列一致的Reads也需要外部归一化,因为大多数转座子在发育过程中上调。ERCC归一化的一个缺点是样本和重复之间的方差增加。因此,ERCC归一化只能用于相对较大的效应量,就像果蝇胚胎发育期间的情况一样。
沃尔特和伊丽莎·霍尔医学研究所的马特·里奇;苏诗安,沃尔特和伊丽莎霍尔医学研究所;慈善法律,沃尔特和伊丽莎霍尔医学研究所-格里姆玛:为你的基因绘制更大的图形rna测序是一种流行的技术,可以同时研究成千上万个转录本的基因表达变化。为了使基因表达数据的探索更容易,我们开发了Glimma,这是一个R包,可为基因表达分析生成交互式图。Glimma图使用d3.js将多个信息层连接到单个HTML页面中。例如,一个glimma风格的平均差异图,允许人们从汇总统计数据的显示中选择一个点,以显示原始图旁边的样本表达水平。这一特性允许研究人员搜索感兴趣的基因或样本,并放大以获得更好的分辨率,从而使研究人员更容易地查询数据。与传统的多维缩放(MDS)图不同,Glimma的MDS图在同一页面上显示了多个维度和组组合。结果Glimma可以在生物信息学家和生物学家之间轻松共享,增强报告能力,同时保持可重复性。除了大量rna测序数据,Glimma还可以处理来自微阵列、单细胞rna测序和甲基化实验的数据。
Myriam, Maumy-Bertrand,斯特拉斯堡大学和法国科学研究中心;Frederic, Bertrand, Strasbourg大学和CNRS - plsRglm:使用GPU的广义PLS回归,基于偏最小二乘(PLS)回归的过程,最近在高维基因组数据集的分析中受到了很大的关注,最近开发了用于执行变量选择。这些过程大多依赖于一些通常由交叉验证(CV)确定的调优参数,这具有非常高的计算成本。我们开发了一个基于R函数的GPU来加速我们现有的包plsRglm。plsRglm包的目的是通过几种新技术处理完整和不完整的数据集,或者至少是一些r中还没有实现的技术。实际上,它不仅可以将PLS回归扩展到广义线性回归模型,而且还可以使用自举技术,保留一次和重复的k倍交叉验证。此外,图形显示帮助用户在使用引导技术时评估预测器的重要性。
Frederic, Bertrand,斯特拉斯堡大学和法国科学研究中心;Myriam, Maumy-Bertrand,斯特拉斯堡大学和CNRS - randABC:近似贝叶斯计算软件包阐明基因调控网络是理解正常细胞生理学和复杂病理表型的重要一步。逆向工程是利用基因在一段时间内或在不同的实验条件下的表达来发现目标细胞过程中基因网络的结构。基因表达数据通常有噪声,高度相关,具有高维,这一事实解释了需要特定的统计方法来逆向工程底层网络。在已知的方法中,近似贝叶斯计算(ABC)算法还没有得到很好的研究。由于计算开销,它们的应用也仅限于少数基因。在这项工作中,我们开发了一种新的多层次ABC方法,具有较少的计算成本。在第一级,该方法捕获网络的全局属性,如无标度和聚类系数,而第二级的目标是捕获局部属性,包括每一对基因被链接的概率。
吉米·布林,阿德莱德大学罗宾逊研究所;本杰明·T·梅恩,阿德莱德大学罗宾逊研究所;Shalem Leemaqz,阿德莱德大学罗宾逊研究所;Sam Buckberry,西澳大学;卡洛斯·罗德里格斯·洛佩兹,阿德莱德大学;克莱尔·T·罗伯茨,阿德莱德大学罗宾逊研究所;Tina Bianco-Miotto,阿德莱德大学罗宾逊研究所- msgbsR:分析甲基化敏感基因分型测序数据的R包基因分型测序(GBS)是分析高多样性物种大基因组的一种实用且经济有效的方法。这种测序方法,加上甲基化敏感酶,是研究基因组部分DNA甲基化的有效工具,在其他测序技术中无法获得或在微阵列技术中没有注释。目前的软件工具不能完成所有的GBS实验,例如那些甲基化敏感限制性内切酶。在这里,我们介绍msgbsR,一个R包,包含分析甲基化敏感基因分型测序(msGBS)实验的工具。 msgbsR contains functions for identifying and quantifying read counts at methylated sites directly from BAM files. It also enables verification of cut sites with the correct recognition sequence of the restriction enzyme. In addition, it also contains functions to test for differential methylation and creating genomic plots of the cut site locations. Furthermore, msgbsR, is fully documented and available freely online as a Bioconductor package (//www.andersvercelli.com/packages/msgbsR).
Dror Berel Fred Hutchinson癌症研究中心;Raphael Gottardo -免疫空间的原型元分析演示,使用指定的S4对象免疫空间是一个强大的管理和分析引擎门户网站,用于整合人体免疫数据建模。目前,它包含66项人类免疫学研究的数据,涵盖4084名参与者。每项研究都包含多种数据类型,包括微阵列、流式细胞仪、血凝抑制试验等。其中一些分析包含数千种生物测量(例如mRNA基因转录物,FACS分析物/标记物)。数据是标准化和注释的解释性临床结果和生物学本体。除了门户网站,整个免疫空间数据库也可以通过免疫空间,一个API R/Bioconductor包直接下载。将所有研究、所有主题和所有变量(包括相关和独立变量)的如此全面的数据汇总起来是一项详尽的任务。在这里,我们演示了一个R分析管道来完成这项任务,并演示了一个使用特定假设的元分析。R/Bioconductor MultiAssayExperiment (MAE)包是一个指定的S4类,用于多种分析的综合组学数据。 All data from a study is converted and stored in a single MAE object, which is a non-atomic R object. A tibble R class is used to systematically access multiple non-atomic objects in a fashion reminiscent of the canonical R data.frames 10 out of the 66 ImmuneSpace studies include complete data for both microarray (gene markers) and clinical outcome that is derived from the Hemagglutination assay (HAI). For each study, association between the clinical outcome and each of the genes (separately) is modeled via a logistic regression, and summarized as an odds-ratio (OR) estimation. For each gene, a ‘meta’ OR across all single-studies is calculated by taking into account the relative weight for each of the study’s effect sizes. A forest plot summarize all single-studies and ‘meta’ ORs. The combination of such well-annotated standardized data, and designated tools for accessing it, enables modification and extension of this prototype analysis into broader pipelines of meta-analysis hypotheses testing.