序列分析的生物体 - 介绍

表观组织2014.
作者:Martin Morgan (mtmorgan@fhcrc.org)
日期:2014年8月24日

整体工作流程

  1. 实验设计
  2. 湿实验室顺序准备
  3. (Illumina)测序(Bentley等,2008,Doi:10.1038 / Nature07517)

  4. 结盟

  5. 分析a.简化,例如,“计数表”b.差分表达式,峰值识别,…

  6. 理解

Bioconductor

高通量基因组数据的分析与理解

包、插图、工作流程

ALT测序生态系统

对象

例子

要求(生物探测器)#生物序列数据(phix174phage)#样本数据,查看?phix174phage phix174phage
长度为6的##甲DNAStringSet实例##宽度SEQ名称## [1] 5386 GAGTTTTATCGCTTCCATGAC ... ATTGGCGTATCCAACCTGCA Genbank登录## [2] 5386个GAGTTTTATCGCTTCCATGAC ... ATTGGCGTATCCAACCTGCA RF70s ## [3] 5386 GAGTTTTATCGCTTCCATGAC ... ATTGGCGTATCCAACCTGCA SS78##[4] 5386 gagtttatcgcttccatgac ... attggcgtatccaacctgca bull ## [5] 5386 gagttttatcgcttccatgac ... attggcgtatccaacctgca g97 ## [6] 5386 gagttttatcgcttccatgac ... attggcgtatccaacctgca neb03
m <-共识矩阵(phix174噬菌体)[1:4,]#细胞核。x位置计数多态性<- which(colsum (m != 0) > 1) m[,多态性]
## [,1] [,2] [,3] [,4] [,5] [,7] [,8] [,9] [,9] ## 5 4 3 0 0 5 2 0## C 0 0 0 0 5 1 0 0 0 5 ## 0#2 3 0 0 1 4 0 ## T 0 0 0 0 1 5 0 0 1
showMethods(类类(phiX174Phage) =, =搜索())

案例研究:使用DNA序列数据

  1. 加载Biostrings包和phiX174Phage数据集。phix174噬菌体是什么类?找到该类的帮助页面,并确定应用于该类的有趣函数。
  2. 在Biostrings包中发现小插曲与装饰图案(包=“Biostrings”)。函数中添加另一个参数小插图函数查看“BioStringsQuickoverView”的小插图。
  3. 进入Biostrings登陆页面//www.andersvercelli.com。这可以通过访问biocViews页面来实现。你能在网站上找到BiostringsQuickOverview小插图吗?
  4. 以下代码加载一些示例数据,6个版本的Phix174phage Genome作为Dnastringset对象。
库(Biostrings)数据(phiX174Phage)

解释下面的代码是做什么的,以及它是如何工作的

m <- consensusMatrix(phix174噬菌体)[1:4,]多态性<- which(colsum (m != 0) > 1)
## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,9] [,9] ## Genbank“G”“g”“a”“一个”“C”“C”“一个”“G”“C”## RF70S“a”“a”“a”“g”“g”“c”“g”“c”“t”“t”“t”“g”“g”“c”c“。”g“”c“。”g“”c“##SS78“a”“a”“一个”“g”“c”“t”“t”“t”“g”“c”## bull“g”“g”“g”“a”“c”“t”““”a“”t“## g97”a“a”“g”“a”“c”“t”“t”“g”“t”“t”“g”“a”“a”“c”## n nb03“a”“a”“g”“t”“t”“g”“g”

'S4'类、方法和包

本节重点介绍类、方法和包,目标是学习如何导航帮助系统和交互式发现工具。

动机

序列分析是专门的

额外的注意事项

解决方案:使用定义良好的班级表示复杂数据;方法对类进行操作以执行有用的函数。类和方法放置在一起并作为这样我们都可以从艰苦的工作和测试代码中获益。

案例研究:《IRanges and grange》

IRanges包定义一个重要的类,用于指定整数范围,例如,

图书馆(绞喉)IR < - 铁气(START = C(10,20,30),宽度= 5)IR
##长度范围3 ##开始结束宽度## [1]10 14 5 ## [2]20 24 5 ## [3]30 34 5

在范围内有许多有趣的操作,例如,侧面()识别相邻的范围

侧面(ir, 3)
##长度范围3 ##开始结束宽度## [1]7 9 3 ## [2]17 19 3 ## [3]27 29 3

请参阅帮助页面的侧面,?侧翼,并探索其他基于范围的行动。

IRanges类是类层次结构的一部分。要看这个,要求R求类的IR.的类定义IRanges班级

班级(IR)
# #[1]“IRanges”# # attr(“包”)# #[1]“IRanges”
getClassdef(类(IR))
##类“讽刺”[包“讽刺”] ## ##插槽:## ##名称:开始宽度名称元素##类:整数整数字符符号## ##名称:ElementMetadata元数据##类####扩展:##类“范围”,直接##类“Integerlist”,按类别“范围”,距离2 ##类“范围”,按类别“范围”,距离2 ##类“原子列表”,按类别“范围”,距离3 ##类“列表”,按类别“范围”,距离4 ##类“向量”,按类别“范围”,距离5 ##类“注释”,按类“范围”范围“,距离6 ######已知的子类:”普通Arranges“

注意IRanges延伸到范围类。现在尝试进入?”旁边,<选项卡>, 在哪里<选项卡>意味着按Tab键询问选项卡完成(可能在RStudio中可能不需要)。您可以看到多个不同类别有帮助页面。标签完成

?”旁边,Ranges-method”

并验证您所处的页面描述了与an相关的方法IRanges实例。

Genomicranges.package扩展了范围的概念,包括与范围在序列分析中的应用有关的特征,特别是将范围与序列名称(例如染色体)和链相关联的能力。创建一个农庄基于我们的实例IRanges实例,如下

库(GenomicRanges)
##加载所需的包:GenomeInfoDb
gr < -农庄(c(“chr1”、“chr1”,“chr2”),红外光谱、链= c ("+", "-", "+")) gr
## [2] chr1 [20,24] - ## [3] chr2[30,34] + ##——## seqlength: ## chr1 chr2 ## NA NA

侧翼序列的概念在生物学上有更微妙的含义。特别地,我们可能会想到侧翼序列+链会在范围之前,但负链会在范围之后。验证侧面应用于农庄对象具有此行为。

侧面(gr, 3)
## [3] chr1 [25,27] - ## [3] chr2[27,29] + ##——## seqlength: ## chr1 chr2 ## NA NA

发现类农庄扩展,找到记录行为的帮助页面侧面当应用到GRanges对象时,验证帮助页面是否记录了我们刚才观察到的行为。

类(gr)
# #[1]“农庄”# # attr(“包”)# #[1]“GenomicRanges”
getClassDef(类(gr))
##类“granges”[包“genomicranges”] ## ##插槽:## ##名称:SEQNAMES范围范围股线元素metaData ##类## ##扩展:##类“Genomicranges”,直接##类“载体”,按类别“Genomicranges”,距离2 ##类“GenomicRangesomissing”,按类别为“Genomicranges”,距离2 ##类“GenomicRangesorgrangesList”,按类别的“基因组织”,距离2 ##类“注释”,按类别“基因组织”,距离3
?“侧翼,基因组ranges-方法”

请注意可用的侧面()方法中定义的方法扩展了方法Genomicranges.包中。

似乎有很多有用的方法可以用于研究基因组范围;我们可以从命令行中发现其中一些方法,表明这些方法应该位于当前位置search ()路径

showMethods (class = "农庄”,=搜索())

使用帮助()中的帮助页Genomicranges.包,小插曲()查看和访问可用的鸽子;这些也可以在RSTUDIO“帮助”标签中使用。

帮助(package="GenomicRanges") vignette(package="GenomicRanges") vignette(package="GenomicRanges", "GenomicRangesHOWTOs")

序列分析旅行团

这个非常开放的主题指向一些最著名的用于序列分析的生物导体包。利用这个实验室的机会来探索包的插图和下面突出显示的帮助页面;欧洲杯2021体育彩票许多材料将在以后的实验和讲座中更详细地讨论。

基础知识

库(GenomicRanges)

帮助系统交互式查询,如上所述:

帮助(package="GenomicRanges") vignette(package="GenomicRanges") vignette(package=" genomics ranges ", "GenomicRangesHOWTOs")

具体域分析 - 探索以下两种或三个包装的着陆页面,小插图和参考手册。

使用序列,对齐,常用Web文件格式和原始数据;这些包装非常依赖于此IRanges/Genomicranges.基础设施,我们将在后面的课程中遇到。

注释:Bioconductor提供了对“注释”资源的广泛访问(参见AnnotationDataBIOCVIEWS层次结构);这些在星期四的实验室中更详细地介绍,但在此实验室期间探索一些有趣的例子包括:

总结

Bioconductor是一个大的R包集合,用于分析和理解高通量基因组数据。Bioconductor依赖正式的类来表示基因组数据,所以对类有一个基本的理解是很重要的,包括寻求类和方法的帮助。Bioconductor使用小插图来增加传统的帮助页面;这些在说明整个包的使用方面非常有价值。