介绍Bioconductor

马丁•摩根
2014年10月29日

生物体

分析和理解高通量基因组数据

包装,羽毛,工作流动

对象

例子

suppresspackageStartUpMessages({库(BiCostrings)})数据(phix174phage)#示例数据,查看?phix174phage phix174phage
## [1] 5386 GAGTTTTATCGCTTCCATGAC…## [1]5386 GAGTTTTATCGCTTCCATGAC…ATTGGCGTATCCAACCTGCA Genbank ## [2] 5386 GAGTTTTATCGCTTCCATGAC…ATTGGCGTATCCAACCTGCA rf70 ## [3] 5386 GAGTTTTATCGCTTCCATGAC…Attggcgtatccaacctgca ss78 ## [4] 5386 gagttttatcgcttccatgac…ATTGGCGTATCCAACCTGCA公牛## [5]5386 GAGTTTTATCGCTTCCATGAC…Attggcgtatccaacctgca g97 ## [6] 5386 gagttttatcgcttccatgac…ATTGGCGTATCCAACCTGCA NEB03
m < -  consensusmatrix(phix174phage)[1:4,]#nucl。X位置计数多态< - 哪个(COLSUMS(M!= 0)> 1)M [,多晶型]
# # [1] [2] [3] [4] [5] [6] [7] [8] [9] # # 4 5 4 3 0 0 5 2 0 # # C 0 0 0 0 5 1 0 0 5 # # G 2 1 2 3 0 0 1 4 0 # # T 0 0 0 0 1 5 0 0 1
showmethods(class = class(phix174phage),其中= search())

核心概念

基因组范围

基因组范围

为什么基因组范围?

数据对象

例子:隆重

##'注释'包;更多以后... suppressPackageStartUpMessages({库(TXDB.HSAPIENS.CCSC.HG19.knownGENE)})启动子< - 启动子(TXDB.HSAPIENS.CUCSC.HG19.KNOKNOKNGENE)##'GRANGES'具有2个元数据专栏启动子
## seqnames ranges strand | tx_id tx_name ##    |   ## [1] chr1 [9874, 12073] + | 1 uc001aaa。3 ## [2] chr1 [9874,12073] + | 2 uc010nxq。1 ## [3] chr1 [9874,12073] + | 3 uc010nxr。1 ## [4] chr1 [67091,69290] + | 4 uc001aal。1 ## [5] chr1 [319084, 321283] + | 5 uc001aaq。2 ## ... ... ... ... ... ... ...## [82956] chrY [27605479, 27607678] - | 78803 uc004fwx。1 ## [82957] chrY [27606222, 27608421] - | 78804 uc022cpc。1 ## [82958] chrY [27607233,27609432] - | 78805 uc004fwz。3 ## [82959] chrY [27635755, 27637954] - | 78806 uc022cpd。1 ## [82960] chrY [59360655, 59362854] - | 78807 uc011ncc。1 ## ------- ## seqinfo:来自hg19基因组的93个序列(1个循环)
头(表(SEQNAMES(启动子)))
## ## chr1 chr2 chr3 chr4 chr5 chr6 ## 7967 5092 4328 2888 3366 4220
表(链(发起人))
## ## + - * ## 42198 40762 0
SEQINFO(启动子)
## seqinfo对象具有93个序列(1个循环)来自hg19 genomeHG19 ## ... ... ## Chrun_GL000245 36651假HG19 ## Chrun_GL000246 38154 False HG19 ## Chrun_GL000247 36422 False HG19 ## Chrun_GL000248 39786 False HG19 ## Chrun_GL000249 38502 False HG19
##矢量样接入启动子[SEQNAMES(启动子)%在%C(“CHR1”,“CHR2”)]
## seqnames ranges strand | tx_id tx_name ##    |   ## [1] chr1 [9874, 12073] + | 1 uc001aaa。3 ## [2] chr1 [9874,12073] + | 2 uc010nxq。1 ## [3] chr1 [9874,12073] + | 3 uc010nxr。1 ## [4] chr1 [67091,69290] + | 4 uc001aal。1 ## [5] chr1 [319084, 321283] + | 5 uc001aaq。2 ## ... ... ... ... ... ... ...## [13055] chr2 [242617330,242619529] - | 13055 uc002wcb。2 ## [13056] chr2 [242751523,242753722] - | 13056 uc002wck。1 ## [13057] chr2 [242794933, 242797132] - | 13057 uc010fzs。3 ## [13058] chr2 [242800859, 242803058] - | 13058 uc002wcq。4 ## [13059] chr2 [242800859, 242803058] - | 13059 uc010fzt。3 ## ------- ## seqinfo:来自hg19基因组的93个序列(1个循环)
##元数据MCols(启动子)
## tx_id tx_name ##   ## 1 1 uc001aaa3 ## 2 2 uc010nxq。1 ## 3 3 uc010nxr。1 ## 4 4 uc001aal。1 ## 5 5 uc001aaq2 ## ... ... ...## 82956 78803 uc004fwx。1 ## 82957 78804 uc022cpc。1 ## 82958 78805 uc004fwz。3 ## 82959 78806 uc022cpd。1 ## 82960 78807 uc011ncc
长度(唯一(促销者$ tx_name))
## [1] 82960
##外显子,由转录exbytx < -  Exonsby(txdb.hsapiens.ucsc.hg19.knowngene,“tx”,使用.names = true)##列表 - 类似于子集EXBYTX [1:10]#也是逻辑,字符,......
## GrangesList长度的对象10:## $ UC001AAA.3 ## Granges对象具有3个范围和3个元数据列:## SEQNAMES范围股票|EXON_ID EXON_NAME EXON_RANK ##    |<整数>  <整数> ## [1] CHR [11874,12227] + |1  1 ## [2] CHR1 [12613,12721] + |3  2 ## [3] CHR1 [13221,14409] + |5  3 ## $ uc010nxq.1 ## GRANGES对象具有3个范围和3个元数据列:## SEQNAMES范围股票|EXON_ID EXON_NAME EXON_RANK ## [1] CHR1 [11874,12227] + |1  1 ## [2] CHR1 [12595,12721] + |2  2 ## [3] CHR1 [13403,14409] + |6  3 ## $ uc010nxr.1 ## granges对象与3个范围和3个元数据列:## SEQNAMES范围股票| exon_id exon_name exon_rank ## [1] chr1 [11874, 12227] + | 1  1 ## [2] chr1 [12646, 12697] + | 4  2 ## [3] chr1 [13221, 14409] + | 5  3 ## ## ... ## <7 more elements> ## ------- ## seqinfo: 93 sequences (1 circular) from hg19 genome
uc001aaa exByTx[[”。#也是数字
# #农庄对象与范围和3元数据列:# # seqnames范围链| exon_id exon_name exon_rank # # < Rle > < IRanges > < Rle > | <整数> <人物> <整数> # # [1]chr1(11874、12227)+ | 1 < NA > 1 # # [2] chr1(12613、12721)+ | 3 < NA > 2 # # [3] chr1(13221、14409)+ | 5 < NA > 3  ## ------- ## seqinfo:从hg19基因组中获得93个序列(1个循环)
##访问器返回类型列表,例如IntegerList宽度(exByTx)
## IntegerList of length 82960 ## [["uc001aaa. txt "]3"]] 354 109 1189 ## ["uc010nxq。1"]] 354 127 1007 ## ["uc010nxr。1"]] 354 52 1189 ## ["uc001aal。1"]] 918 ## ["uc001aaq。2"]] 32 ## ["uc001aar。2"] 62 ## ["uc009vjk。2"]] 192 58 2500 ## ["uc001aau。3"]] 169 58 4143 ## ["uc021oeh。1"]] 58 248 406 514 ## ["uc021oei。1"]] 894 ##…## <82950更多的元素>
log10(宽度(exByTx))
##长度82960的NumericList ## [[ “uc001aaa.3”]] 2.54900326202579 2.03742649794062 3.07518185461869 ## [[ “uc010nxq.1”]] 2.54900326202579 2.10380372095596 3.00302947055362 ## [[ “uc010nxr.1”]] 2.54900326202579 1.7160033436348 3.07518185461869 ##[“UC001AAL.1”]] 2.96284268120124 ## [[“UC001AAQ.2”]] 1.50514997831991#792398949825 #79239168949825 1.79239168949825 1.79794009356294 3.79794000867204 3.79794000867204 3.76342799356294 3.283422799356204 3.283342799356294 3.76342799356294[[ “uc001aau.3”]] 2.22788670461367 1.76342799356294 3.61731493329829 ## [[ “uc021oeh.1”]] 1.76342799356294 2.39445168082622 2.60852603357719 2.71096311899528 ## [[ “uc021oei.1”]] 2.95133751879592 ## ... ## <82950个以上的元素>
##'容易'询问基本问题,例如......神秘(未达到(log10(宽度(exbytx))))#宽度的外显子

plot of chunk egg - grangeslist

exByTx[which.max(max(width(exByTx)))] #最大外显子
## GrangesList长度为1:## $ UC031QJH.1 ## Granges对象具有1个范围和3个元数据列:## SEQNAMES范围股票|EXON_ID EXON_NAME ##    |<整数> <字符> ## [1] CH11 [102591363,102796374] + |164764  ## Exon_rank ## <整数> ## [1] 1 ## ## ------- ## SEQINFO:93序列(1个圆形)来自HG19基因组
exbytx [哪个东西(ElementLengths(Exbytx))]#成绩单与大多数外显子
长度为1的GRangesList对象。1 ## GRanges对象有5065个范围和3个元数据列:# # seqnames范围链| exon_id exon_name # # < Rle > < IRanges > < Rle > | <整数> <人物> # # [1]chr14(107283004、107283004)- | 192985 < NA > # # [2] chr14(107282819、107282819)- | 192984 < NA > # # [3] chr14(107281146、107281146)- | 192983 < NA > # # [4] chr14(107281126、107281126)- | 192982 < NA > # # [5] chr14 (107276018,107276044) | 192981 < NA > ## ... ... ... ... ... ... ...## [5061] chr14 [106067906, 106068064] - | 187862  ## [5062] chr14 [106054457, 106054734] - | 187853  ## [5063] chr14 [106052986,106052998] - | 187849  ## [5064] chr14 [105994262, 105994283] - | 187848  ## [5065] chr14 [105994256, 105994283] - | 187848  ## [5065] chr14 [105994256,105994261) | 187847 < NA > # # exon_rank # # <整数> # # 1 # # [2]2 [1]# # 3 # # [3][4]4 # # [5]5  ## ... ...## [5062] ## [5062] ## [5062] ## [5065] 5065 ## ## ------- ## seqinfo:来自hg19基因组的93个序列(1个循环)

有许多整洁的基于范围的操作(稍后详述)!

范围操作

一些细节

集成容器

什么是实验?

为什么整合?

数据对象

概括分析

例子:表达式(见小插曲BioBase.)。

suppresspackageStartUpMessages({库(全部)})数据(全部)所有
## ExpressIonset(StorageMode:LockedEnvironment)## AssayData:12625功能,128个样本##元素名称:exprs ## protocoldata:none ## phenodata ## Samplenames:01005 01010 ... LAL4(总计)## Varlabels:COD诊断...上次看到的日期(21总计)## varmetadata:Labeldescription ##特色:None ##实验Data:使用'实验Data(Object)'## PubMedids:14684422 16243790 ##注释:hgu95av2
##“表型”(sample)和“特征”数据头(pData(ALL))
## COD诊断性别时代BT缓解CR日期.CR T(4; 11)T(9; 22)## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6 / 6/1997 False True ## 01010 1010 3/ 29/29 / 2000 M 19 B2 CR CR 6/27/2000 FALSE FRESE ## 03002 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA ## 04006 4006 7/17/1907 M 38 B1 CRCR 9/8/1997 True False ## 04007 4007 7/22/1997 M 57 B2 CR CR 9/17/1997 False False ## 04008 4008 7/30/1997 M 17 B1 CR CR 9/27 / 1997 False False## cyto.normal citog mol.biol融合蛋白mdr电气ccr ## 01005假t(9; 22)bcr / abl p210 neg dypoid ## 01010假简单的Alt。neg  pos dypoid false ## 03002 na  bcr / abl p190 neg dypoid false ## 04006 false t(4; 11)All1 / AF4  Neg Dypoid ## 04007 False Del(6Q)neg  neg dypoid false ## 04008错误复杂alt。neg  neg hyperd。FALSE ## relapse transplant f.u date last seen ## 01005 FALSE TRUE BMT / DEATH IN CR  ## 01010 TRUE FALSE REL 8/28/2000 ## 03002 TRUE FALSE REL 10/15/1999 ## 04006 TRUE FALSE REL 1/23/1998 ## 04007 TRUE FALSE REL 11/4/1997 ## 04008 TRUE FALSE REL 12/15/1997
头(featureNames(所有)
## [1]“1001_AT”“1002_F_AT”“1003_S_AT”“1004_AT”“1005_AT”
##访问pData列;矩阵像构造子集;exprs() ALL[, ALL$sex %in% "M"]
## ExpressionSet (storageMode: lockedEnvironment) ## assayData: 12625 features, 83 samples ## element names: exprs ## protocolData: none ## phenoData ## samplename: 01005 01010…83001(83总计)## varLabels:鳕鱼诊断…date last seen (21 total) ## varMetadata: labelDescription ## featureData: none ## experimentData: use 'experimentData(object)' ## pubMedIds: 14684422 16243790 ##注释:hgu95av2
范围(exprs(所有)
## [1] 1.984919 14.126571
## 30%'大多数变量'功能(c.f.,genefilter :: varfilter)iqr < -  apply(exprs(全部),1,iqr)所有[Iqr> stantile(iqr,0.7),]
## ExpressionSet (storageMode: lockedEnvironment) ## assayData: 3788 features, 128 samples ## element names: exprs ## protocolData: none ## phenoData ## samplename: 01005 01010…LAL4(128总计)## varLabels:鳕鱼诊断…date last seen (21 total) ## varMetadata: labelDescription ## featureData: none ## experimentData: use 'experimentData(object)' ## pubMedIds: 14684422 16243790 ##注释:hgu95av2

例子:概括分析(见小插曲GenomicRanges)。

suppresspackagestartupmessages({图书馆(气道)})数据(气道)气道
## exptData(1): " ## assays(1): counts ## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData元数据列名称(0):## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
##列和行数据colData
运行avgLength ##       ## SRR1039508 GSM1275862 N61311 untrt untrt SRR1039509 GSM1275863 N61311 trt untrt SRR1039509 126 ## SRR1039512 GSM1275866 N052611 untrt untrt SRR1039512 126 ## SRR1039512 GSM1275867 N052611SRR1039513 87 ## SRR1039516 GSM1275870 N080611 untrt untrt SRR1039516 120 ## SRR1039517 GSM1275871 N080611 untrt untrt SRR1039517 126 ## SRR1039520 GSM1275874 N061011 untrt untrt SRR1039521 98 ##实验样本生物样本## 
rowData(气管)
## GRangesList对象的长度为64102:## $ENSG00000000003# # seqnames范围链| exon_id exon_name # # < Rle > < IRanges > < Rle > | <整数> <人物> # # [1]X(99883667、99883667)- 667145 | ENSE00001459322 # # [2] X(99885756、99885756)- | 667146 ENSE00000868868 # # [3] X(99887482、99887482)- | 667147 ENSE00000401072 # # [4] X(99887538、99887538)- | 667148 ENSE00001849132 # # [5] X [99888402,99888536) - | 667149 ENSE00003554016  ## ... ... ... ... ... ... ...# # [13] X(99890555、99890555)- 667156 | ENSE00003512331 # # [14] X(99891188、99891188)- | 667158 ENSE00001886883 # # [15] X(99891605、99891605)- | 667159 ENSE00001855382 # # [16] X(99891790、99891790)- | 667160 ENSE00001863395 # # [17] X(99894942、99894942)- | 667161 ENSE00001828996  ## ## ...## <64101 more elements> ## ------- ## seqinfo: 722个序列(1个循环)来自一个未指定的基因组
## Access Coldata;矩阵像构造子集;Assay()/分析()气道[,Airway $ Dex%In%“Trt”]
## exptData(1): " ## assays(1): counts ## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData元数据列名(0):## colnames(4): SRR1039509 SRR1039513 SRR1039517 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
头(测定(气道))
## SRR1039508 SRR1039509 SRR1039512 SRR1039513 SRR1039516 ## ENSG00000000003 679 448 873 408 1138 ## 0 ENSG00000000005 0 0 0 0 ## 467 ENSG00000000419 515 621 365 587 ## 260 ENSG00000000457 211 263 164 245 ## 60 ENSG00000000460 55 40 35 78 ## ENSG000000009380 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0
测定(气道)
##长度1 ##名称(1):counts
##库大小COLSUM(测定(气道))
## srr1039508 srr1039509 srr1039512 srr1039513 srr1039516 srr1039517 ## 20637971 18809481 25348649 15163415 24448408 30818215 ## srr1039520 srr1039521 # 19126151 21164133
hist(Rowmeans(log10(测定(气道)))))

大块蛋的绘图-总结实验

实验室

GC含量

  1. 计算hg19构建中human chr1的GC含量,不包括序列为“N”的区域。你需要

    1. 加载BSgenome.Hsapiens.UCSC.hg19
    2. 提取,使用[[即染色体1(“chr1”)。< !-]] >
    3. alphabetFrequency ()计算chr1中核苷酸的数量或频率
    4. 使用标准R.函数来计算GC内容。
    库(BSgenome.Hsapiens.UCSC.hg19)
    ##加载所需包:BSGenome ##加载所需包:RtrackLayer
    chr1seq < - BSgenome.Hsapiens.UCSC。“chr1”hg19 [[]] chr1alf < - alphabetFrequency (chr1seq) chr1gc < - sum (chr1alf [c(“G”、“c”)])/笔(chr1alf [c(“A”、“c”、“G”、“T”)))
  2. 计算chr1上‘外显子组’(大约所有基因区域)的GC含量。你需要

    1. 加载txdb.hsapiens.ucsc.hg19.knowngene.包裹。
    2. 基因()提取所有基因的基因区,然后进行亚群操作,限制到染色体1。
    3. getseq,bsgenome-method从BsGenome物体的染色体1中提取序列。
    4. alphabetFrequency ()(有争议折叠=真实-为什么?)和standardR.提取基因gc内容的操作。
    [seqnames(genes) %in% "chr1"] seq1 <- getSeq(bsgenome . haspens . ucsc .hg19. knowngene) <- genes[seqnames(genes) %in% "chr1"] seq1 <- getSeq(bsgenome . haspens . ucsc .)hg19 genes1) alf1 < - alphabetFrequency (seq1崩溃= TRUE) gc1 < - sum (alf1 [c(“G”、“c”)])/笔(alf1 [c(“A”、“c”、“G”、“T”)))

    刚刚计算的GC含量如何与每个外显子的GC含量的平均值相比较?回答这个使用alphabetFrequency ()但是崩溃= FALSE),并调整GC含量的计算以作用于一个矩阵,而不是向量。为什么这些数字不同呢?

    ALF2 < - 字母频率(SEQ1,COLLAPSE = FALSE)GC2 < -  RowSums(ALF2 [,C(“G”,“C”)])/ Rowsums(ALF2 [,C(“A”,“C”,“G”,“t”)])
  3. 绘制每个基因GC含量的直方图,标注染色体和外显子组GC含量信息。使用基本的图形嘘(),abline(),情节(密度(…)),情节(ecdf(...)),等等(下面是一个例子)。如果这太容易,为班级准备一个简短的陈述,说明如何使用另一个可视化的信息类型R.图形包装,例如,ggplot2.,{r cranpkg(“ggvis”),或{r cranpkg(“格子”)}。

    Plot (density(gc2)) abline(v=c(chr1gc, gc1), col=c(“red”,“blue”),lwd=2)

    大块gc-denisty图

集成容器

这个练习说明了如何使用集成的容器有效地管理数据;它不是为分析RNASeq差异表达数据提供了一种合适的方法。

  1. 加载气道包和气道数据集。稍微探索一下它,例如,确定它的维度(感兴趣的区域和样本的数量),描述样本的信息,和值的范围数数化验。这些数据来自一个rna测序实验。这colData ()描述治疗组和其他信息。这分析()是每个样本中每个感兴趣区域重叠的短读的(原始)数量。上面总结了这个练习的解决方案。

  2. 创建仅包含30%最变量的数据集的子集(使用IQR为度量)观察。绘制ASINH变换的分布(除了0)行均值计数的分布

    IQR < -  Apply(Assay(Airway),1,IQR)Airway1 < -  Airway [IQR> Smianile(IQR,0.7),]图(密度(RoImeans(AsinH(Asinh(Asinh))))))

    大块气道图-图

  3. 使用genefilter包裹rowttests功能(咨询它的帮助页面!),以比较两者之间的ASINH变换的读数敏捷每行的治疗组。以各种方式探讨结果,例如,找到“大多数”差异表达基因,治疗组之间具有最大(绝对)差异的基因,添加调整P.价值(Via.p.adjust (), 在里面统计数据包)等。你能获得每个治疗组的读计数,对于最差异表达的基因?

    suppressPackageStartupMessages({library(genfilter)}) ttest <- rowttests(asinh(assay(airway1)), airway1$dex) ttest$p。的< - p.adjust (tt $ p。值,方法=“黑洞”)tt(头(订单(tt p.adj美元)),)
    ##统计DM p.value p.adj ## ENSG00000179593 24.61562 5.463536 2.956680e-07 0.005671209 ## ENSG00000101342 15.22622 2.697598 5.065386e-06 0.014773935 ## ENSG00000101347 15.69846 2.485261 4.233805e-06 0.014773935 ## ENSG00000134253 -15.46740 -1.483468 4.619047e-06 0.014773935 ## ESG00000143494 -14.93364 -2.760705 5.675890E-06 0.054983 2.6178982-06 0.0114982-06
    分裂(测定(Airway1)[订购(TTEST $ P.ADJ)[1],],Airway1 $ Dex)
    ## $ TRT ## SRR1039509 SRR1039513 SRR1039517 SRR1039517 SRR1039521 ## 81 87 129 213 ## ## $ UTTT ## SRR1039508 SRR1039512 SRR1039516 SRR1039516 SRR1039520 ## 0 0 0 0
  4. 将差异表达式的统计数据添加到Airway1.概括分析。确认统计信息已经添加。

    MCols(Rowdata(Airway1))< -  TTEST头(MCols(Airway1))
    ##统计dm p.value p.adj ## <数字> <数字> <数字> <数字> ## 1 -1.62895587 -0.38927224 0.15444536 0.6325992 ## 2 0.09683305 0.01803387 0.92601249 0.9799343 ## 3 -0.67163380 -0.09939038 0.52681603 0.8637800 ## 4 -0.81787455 -0.16759915 0.44468651 0.8286889 ## 0.598789220.8865085 ## 6 -2.55199111 -0.29224482 0.04337408 0.4154906

资源

出版物(一般生物体)

其他