介绍Bioconductor

用户!2014
作者:Martin Morgan (mtmorgan@fhcrc.org), Sonali Arora
日期:2014年6月30日

R

用于统计计算和图形的语言和环境

全功能的编程语言
互动和解释-方便和宽容
连贯的,丰富的文档
统计。因素(),NA
可扩展- CRAN, Bioconductor, github，…

向量、类对象

非常高效。矢量化“原子”向量的计算逻辑,整数,数字,复杂的,字符,字节
原子向量是更复杂的基础对象
- 矩阵-带有“dim”属性的原子向量
- data.frame-长度相等的原子向量列表
正式的类表示向量的复杂组合，例如返回值lm (),低于

函数、泛型方法

函数将输入转换为输出，可能有副作用，例如，rnorm (1000)
- 参数首先按名称匹配，然后按位置匹配
- 函数可以定义(某些)实参以具有默认值
通用的功能分派方法基于参数的类别，例如:print ()。
方法是实现特定泛型的函数，例如，print.factor;方法调用间接，通过通用。

自省

一般属性,例如,类(),str ()
职业专用属性,例如,昏暗的()

帮助

?打印:帮助通用打印
print.data.frame ?:关于类data.frame对象打印方法的帮助。

例子

df <- data.frame(x=x, y=y) # object of class 'data.frame' plot(y ~ x, df) # generic plot, method plot.formula . df (x ~ x, df

未命名块-块-1的绘图

fit <- lm(y ~x, df) # class 'lm'方法的对象(class=class(fit)) #内省

# # [1] add1。lm *别名。lm *方差分析。lm* ## [4] case.names.lm* confint。lm cooks.distance。lm* ##[7]异常。lm * dfbeta。lm * dfbetas。lm* ## [10] drop p1。lm * dummy.coef.lm效果。lm* ##[13]萃取。lm *家庭。lm *公式。lm* ##[16]值。lm *的影响。lm *卡帕。lm ##[19]标签。lm * logLik。lm* model.frame.lm* ## [22] model.matrix.lm nobs。lm *情节。lm* ## [25] predict.lm print.lm* proj.lm* ## [28] qr.lm* residuals.lm rstandard.lm* ## [31] rstudent.lm* simulate.lm* summary.lm ## [34] variable.names.lm* vcov.lm* ## ## Non-visible functions are asterisked

Bioconductor

分析和理解高通量基因组数据

统计分析:大数据、技术产物、设计实验;严格的
理解:生物背景，视觉化，再现性
高通量
- 测序:RNASeq, ChIPSeq，变种，拷贝数，…
- 微阵列:表达，SNP，…
- 流式细胞术，蛋白质组学，图像，…

包、插图、工作流程

Alt测序系统

824包
探索和导航biocViews
包的着陆页
- 标题，作者/维护者，简短描述，引用，安装说明，…，下载统计数据
所有用户可见的函数都有帮助页面，大多数都有可运行的示例
“小插曲”是Bioconductor的一个重要特性——叙述文档说明了如何使用集成代码的软件包
“Release”(每六个月一次)和“devel”分支

对象

表示复杂的数据类型
促进互操作性
S4对象系统
- 自省:getClass (),showMethods(…,where=search()),selectMethod ()
- “访问器”和其他文档化的操作函数/方法，而不是直接访问对象结构
交互式帮助
- 方法?“字符串的子串,<选项卡>”要选择关于方法的帮助，课吗?D <选项卡>课堂求助

例子

require(Biostrings) # biosequences data(phiX174Phage) # sample data, see

## A DNAStringSet instance of length 6 ## width seq names ## [1] 5386 GAGTTTTATCGCTTCCATGAC…ATTGGCGTATCCAACCTGCA Genbank ## [2] 5386 GAGTTTTATCGCTTCCATGAC…ATTGGCGTATCCAACCTGCA RF70s ## [3] 5386 GAGTTTTATCGCTTCCATGAC…ATTGGCGTATCCAACCTGCA SS78 ## [4] 5386 gagttttcgcttccatgac…ATTGGCGTATCCAACCTGCA Bull ## [5] 5386 gagttttcgcttccatgac…ATTGGCGTATCCAACCTGCA G97 ## [6] 5386 GAGTTTTATCGCTTCCATGAC…ATTGGCGTATCCAACCTGCA NEB03

m <-共识矩阵(phix174噬菌体)[1:4，]#细胞核。x位置计数多态性<- which(colsum (m != 0) > 1) m[，多态性]

# # [1] [2] [3] [4] [5] [6] [7] [8] [9] # # 4 5 4 3 0 0 5 2 0 # # C 0 0 0 0 5 1 0 0 5 # # G 2 1 2 3 0 0 1 4 0 # # T 0 0 0 0 1 5 0 0 1

showMethods(类类(phiX174Phage) =, =搜索())

锻炼

加载Biostrings包和phiX174Phage数据集。phix174噬菌体是什么类?找到该类的帮助页面，并确定应用于该类的有趣函数。
在Biostrings包中发现小插曲与装饰图案(包=“Biostrings”)。函数中添加另一个参数装饰图案函数查看“BiostringsQuickOverview”小插图。
进入Biostrings登陆页面//www.andersvercelli.com。这可以通过访问biocViews页面来实现。你能在网站上找到BiostringsQuickOverview小插图吗?

下面的代码加载一些示例数据，作为DNAStringSet对象加载6个版本的phix174噬菌体基因组。

库(Biostrings)数据(phiX174Phage)

解释下面的代码是做什么的，以及它是如何工作的

m <- consensusMatrix(phix174噬菌体)[1:4，]多态性<- which(colsum (m != 0) > 1)

# #[1][2][3][4][5][6][7][8][9] # #基因库“G”“G”“”“”“C”“C”“A”“G”“C”# # RF70s“”“”“”“G”“C”“T”“A”“G”“C”# # SS78“”“”“”“G”“C”“T”“A”“G”“C”# #牛“G”“A”“G”“A”“C”“T”“”“”“T”# # G97“A”“A”“G”“A”“C”“T”“G”“A”“C”# # NEB03“”“”“”“G”“T”“T”“A”“G”“C”

总结

Bioconductor是一个大的R包集合，用于分析和理解高通量基因组数据。Bioconductor依赖正式的类来表示基因组数据，所以对类有一个基本的理解是很重要的，包括寻求类和方法的帮助。Bioconductor使用小插图来增加传统的帮助页面;这些在说明整个包的使用方面非常有价值。