序列分析的生物体 - 介绍

表观组织2014.
作者:Martin Morgan (mtmorgan@fhcrc.org)
日期：2014年8月24日

整体工作流程

实验设计
- 保持简单，例如，“控制”和“治疗”组
- 复制在治疗!
湿实验室顺序准备
- 记录协变量，包括处理日 - 可能的“批量效应”
（Illumina）测序（Bentley等，2008，Doi：10.1038 / Nature07517）
结盟
- 选择匹配任务，例如:[Rsubread][]， Bowtie2 for ChIPseq，一些形式的RNAseq;BWA, GMAP更适合变量调用
分析a.简化，例如，“计数表”b.差分表达式，峰值识别，…
理解

Bioconductor

高通量基因组数据的分析与理解

统计分析:大数据、技术产物、设计实验;严格的
理解:生物背景，视觉化，再现性
高通量
- 测序:RNASeq, ChIPSeq，变种，拷贝数，…
- 微阵列:表达，SNP，…
- 流式细胞术，蛋白质组学，图像，…

包、插图、工作流程

ALT测序生态系统

824包
探索和导航biocViews
包的着陆页
- 标题，作者/维护者，简短描述，引用，安装说明，...，下载统计
所有用户可见函数都有帮助页面，大多数具有可运行的示例
“小插曲”是Bioconductor的一个重要特性——叙述文档说明了如何使用集成代码的软件包
“Release”(每六个月一次)和“devel”分支

对象

表示复杂的数据类型
促进互操作性
S4对象系统
- 自省:getClass（）,showMethods(…，在哪里=search()),selectmethod（）
- “访问器”和其他文档化的操作函数/方法，而不是直接访问对象结构
交互式帮助
- 方法?“字符串的子串,<选项卡>”要选择关于方法的帮助，课吗?D <选项卡>课堂求助

例子

要求（生物探测器）＃生物序列数据（phix174phage）＃样本数据，查看？phix174phage phix174phage

长度为6的##甲DNAStringSet实例##宽度SEQ名称## [1] 5386 GAGTTTTATCGCTTCCATGAC ... ATTGGCGTATCCAACCTGCA Genbank登录## [2] 5386个GAGTTTTATCGCTTCCATGAC ... ATTGGCGTATCCAACCTGCA RF70s ## [3] 5386 GAGTTTTATCGCTTCCATGAC ... ATTGGCGTATCCAACCTGCA SS78＃＃[4] 5386 gagtttatcgcttccatgac ... attggcgtatccaacctgca bull ## [5] 5386 gagttttatcgcttccatgac ... attggcgtatccaacctgca g97 ## [6] 5386 gagttttatcgcttccatgac ... attggcgtatccaacctgca neb03

m <-共识矩阵(phix174噬菌体)[1:4，]#细胞核。x位置计数多态性<- which(colsum (m != 0) > 1) m[，多态性]

## [，1] [，2] [，3] [，4] [，5] [，7] [，8] [，9] [，9] ## 5 4 3 0 0 5 2 0## C 0 0 0 0 5 1 0 0 0 5 ## 0＃2 3 0 0 1 4 0 ## T 0 0 0 0 1 5 0 0 1

showMethods(类类(phiX174Phage) =, =搜索())

案例研究：使用DNA序列数据

加载Biostrings包和phiX174Phage数据集。phix174噬菌体是什么类?找到该类的帮助页面，并确定应用于该类的有趣函数。
在Biostrings包中发现小插曲与装饰图案(包=“Biostrings”)。函数中添加另一个参数小插图函数查看“BioStringsQuickoverView”的小插图。
进入Biostrings登陆页面//www.andersvercelli.com。这可以通过访问biocViews页面来实现。你能在网站上找到BiostringsQuickOverview小插图吗?
以下代码加载一些示例数据，6个版本的Phix174phage Genome作为Dnastringset对象。

库(Biostrings)数据(phiX174Phage)

解释下面的代码是做什么的，以及它是如何工作的

m <- consensusMatrix(phix174噬菌体)[1:4，]多态性<- which(colsum (m != 0) > 1)

## [，1] [，2] [，3] [，4] [，5] [，6] [，7] [，9] [，9] ## Genbank“G”“g”“a”“一个”“C”“C”“一个”“G”“C”## RF70S“a”“a”“a”“g”“g”“c”“g”“c”“t”“t”“t”“g”“g”“c”c“。”g“”c“。”g“”c“##SS78“a”“a”“一个”“g”“c”“t”“t”“t”“g”“c”## bull“g”“g”“g”“a”“c”“t”““”a“”t“## g97”a“a”“g”“a”“c”“t”“t”“g”“t”“t”“g”“a”“a”“c”## n nb03“a”“a”“g”“t”“t”“g”“g”

'S4'类、方法和包

本节重点介绍类、方法和包，目标是学习如何导航帮助系统和交互式发现工具。

动机

序列分析是专门的

大数据需要以一种高效内存和高效时间的方式处理
针对序列数据的独特特性，已经开发出了特定的算法

额外的注意事项

重用已经存在的、经过测试的代码比重复发明轮子更容易，也更不易出错。
当包共享类似的数据结构时，包之间的互操作性更容易。

解决方案:使用定义良好的班级表示复杂数据;方法对类进行操作以执行有用的函数。类和方法放置在一起并作为包这样我们都可以从艰苦的工作和测试代码中获益。

案例研究:《IRanges and grange》

的IRanges包定义一个重要的类，用于指定整数范围，例如，

图书馆（绞喉）IR < - 铁气（START = C（10,20,30），宽度= 5）IR

##长度范围3 ##开始结束宽度## [1]10 14 5 ## [2]20 24 5 ## [3]30 34 5

在范围内有许多有趣的操作，例如，侧面()识别相邻的范围

侧面(ir, 3)

##长度范围3 ##开始结束宽度## [1]7 9 3 ## [2]17 19 3 ## [3]27 29 3

请参阅帮助页面的侧面，？侧翼，并探索其他基于范围的行动。

的IRanges类是类层次结构的一部分。要看这个，要求R求类的IR.的类定义IRanges班级

班级（IR）

# #[1]“IRanges”# # attr(“包”)# #[1]“IRanges”

getClassdef（类（IR））

##类“讽刺”[包“讽刺”] ## ##插槽：## ##名称：开始宽度名称元素##类：整数整数字符符号## ##名称：ElementMetadata元数据##类####扩展：##类“范围”，直接##类“Integerlist”，按类别“范围”，距离2 ##类“范围”，按类别“范围”，距离2 ##类“原子列表”，按类别“范围”，距离3 ##类“列表”，按类别“范围”，距离4 ##类“向量”，按类别“范围”，距离5 ##类“注释”，按类“范围”范围“，距离6 ######已知的子类：”普通Arranges“

注意IRanges延伸到范围类。现在尝试进入?”旁边,<选项卡>，在哪里<选项卡>意味着按Tab键询问选项卡完成（可能在RStudio中可能不需要）。您可以看到多个不同类别有帮助页面。标签完成

?”旁边,Ranges-method”

并验证您所处的页面描述了与an相关的方法IRanges实例。

的Genomicranges.package扩展了范围的概念，包括与范围在序列分析中的应用有关的特征，特别是将范围与序列名称(例如染色体)和链相关联的能力。创建一个农庄基于我们的实例IRanges实例，如下

库(GenomicRanges)

##加载所需的包:GenomeInfoDb

gr < -农庄(c(“chr1”、“chr1”,“chr2”),红外光谱、链= c ("+", "-", "+")) gr

## [2] chr1 [20,24] - ## [3] chr2[30,34] + ##——## seqlength: ## chr1 chr2 ## NA NA

侧翼序列的概念在生物学上有更微妙的含义。特别地，我们可能会想到侧翼序列+链会在范围之前，但负链会在范围之后。验证侧面应用于农庄对象具有此行为。

侧面(gr, 3)

## [3] chr1 [25,27] - ## [3] chr2[27,29] + ##——## seqlength: ## chr1 chr2 ## NA NA

发现类农庄扩展，找到记录行为的帮助页面侧面当应用到GRanges对象时，验证帮助页面是否记录了我们刚才观察到的行为。

类(gr)

# #[1]“农庄”# # attr(“包”)# #[1]“GenomicRanges”

getClassDef(类(gr))

##类“granges”[包“genomicranges”] ## ##插槽：## ##名称：SEQNAMES范围范围股线元素metaData ##类## ##扩展：##类“Genomicranges”，直接##类“载体”，按类别“Genomicranges”，距离2 ##类“GenomicRangesomissing”，按类别为“Genomicranges”，距离2 ##类“GenomicRangesorgrangesList”，按类别的“基因组织”，距离2 ##类“注释”，按类别“基因组织”，距离3

？“侧翼，基因组ranges-方法”

请注意可用的侧面()方法中定义的方法扩展了方法Genomicranges.包中。

似乎有很多有用的方法可以用于研究基因组范围;我们可以从命令行中发现其中一些方法，表明这些方法应该位于当前位置search ()路径

showMethods (class = "农庄”,=搜索())

使用帮助（）中的帮助页Genomicranges.包,小插曲()查看和访问可用的鸽子;这些也可以在RSTUDIO“帮助”标签中使用。

帮助(package="GenomicRanges") vignette(package="GenomicRanges") vignette(package="GenomicRanges"， "GenomicRangesHOWTOs")

序列分析旅行团

这个非常开放的主题指向一些最著名的用于序列分析的生物导体包。利用这个实验室的机会来探索包的插图和下面突出显示的帮助页面;欧洲杯2021体育彩票许多材料将在以后的实验和讲座中更详细地讨论。

基础知识

生物导体包列在biocViews页面。每个包都有与之相关的“biocViews”(受控词汇表中的标签);可以搜索它们来识别适当标记的包，以及包的标题和作者。
每个包裹都有一个“登陆页”，例如Genomicranges.。访问此登录页，并注意描述、作者和安装说明。软件包通常写在科学文献中，如果可用的话，相应的引用会出现在登陆页面上。在登陆页面上还有链接到小插图和参考手册，在底部是跨平台可用性和下载统计数据的指示。
使用着陆页上的说明需要安装一次包。安装后，包可以加载到r会话中

库(GenomicRanges)

帮助系统交互式查询，如上所述:

帮助(package="GenomicRanges") vignette(package="GenomicRanges") vignette(package=" genomics ranges "， "GenomicRangesHOWTOs")

具体域分析 - 探索以下两种或三个包装的着陆页面，小插图和参考手册。

用于分析差异表达的重要包装包括刨边机和DESeq2;两者都有可供探索的优秀小插曲。其他的研究方法包含在生物导体包装中，可以通过访问biocViews网页，搜索“差异表达”视图术语，并通过搜索“RNA序列”等缩小选择范围。
流行的芯片序列包包括DiffBind为了比较样品间的峰，ChIPQC用于质量评估，以及Chippeakanno.用于注释结果(例如，发现附近的基因)。什么其他ChIP-seq包列出在biocViews页面?
使用称为变体(VCF文件)的程序包很方便，例如VariantAnnotation,变型滤波器,ensemblVEP;用于调用变体的包包括，例如，h5vc和VariantTools。
有几个包标识序列数据的拷贝数变体，包括cn.mops;从biocViews页，什么其他拷贝数包是可用的?的CNTools包提供了一些有用的工具来比较样本之间的段。
微生物组和宏基因组分析是促进包，如phyloseq和metagenomeSeq。
代谢组学、化学信息学、图像分析和许多其他高通量分析领域也代表了生物导体;通过biocViews和标题搜索来探索这些。

使用序列，对齐，常用Web文件格式和原始数据;这些包装非常依赖于此IRanges/Genomicranges.基础设施，我们将在后面的课程中遇到。

的Biostringspackage用于表示DNA等序列，具有许多方便的序列相关功能。查看帮助页面上记录的函数？ConsensusMatrix.为例。也可以查看BSgenome用于处理全基因组序列的程序包，例如，?”getSeq BSgenome-method”
的基因管理包用于输入与参考基因组对齐的读码。例如，查看readGAlignments ?帮助页面,vigentte(包=“GenomicAlignments”、“summarizeOverlaps”)
rtracklayers进口和出口函数可以读取许多常见的文件类型，例如BED, WIG, GTF，…，除了查询和导航UCSC基因组浏览器。检查进口吗?页面以获取基本用法。
的ShortRead和Rsamtools包可用于分别用于对FASTQ和BAM文件的较低级别访问。探索ShortRead装饰图案可扩展的基因组学实验室，以了解有效处理大文件的方法。

注释:Bioconductor提供了对“注释”资源的广泛访问(参见AnnotationDataBIOCVIEWS层次结构）;这些在星期四的实验室中更详细地介绍，但在此实验室期间探索一些有趣的例子包括：

biomaRt,PSICQUIC,KEGGREST和其他在线资源查询包;每一个都有内容丰富的小插曲。
annotationdbi.是?的基石注释数据Bioconductor提供的软件包。
- org.包(例如,org.Hs.eg.db）包含不同基因标识符，例如Entrez和符号之间的地图。这些包的基本接口在帮助页面上介绍选择吗?
- TxDb包(例如,TxDb.Hsapiens.UCSC.hg19.knownGene)包含基因模型(外显子坐标、外显子/转录关系等)，这些模型来源于UCSC基因组浏览器的hg19 knownGene track。这些包可以被查询，例如exonsBy ?页面检索按基因或转录本分组的所有外显子。
- BSgenome包(例如,BSgenome.Hsapiens.UCSC.hg19）含有模型生物的全基因组。
VariantAnnotation和ensemblVEP提供对序列注释设施的访问，例如识别编码变体;看看VariantAnnotation简介小插图简介;我们将在星期四实验室重新访问这一点。
快速看（我们将在星期四的实验室中做更多的事情）注释工作流程在Bioconductor网站上。

总结

Bioconductor是一个大的R包集合，用于分析和理解高通量基因组数据。Bioconductor依赖正式的类来表示基因组数据，所以对类有一个基本的理解是很重要的，包括寻求类和方法的帮助。Bioconductor使用小插图来增加传统的帮助页面;这些在说明整个包的使用方面非常有价值。