内容

作者:Sonali Arora(sarora@fredhutch.org.
日期:2015年7月20日至24日

本课程的材料要求R版本3.2.1和生物导体版本3.2

0.1生物导体的高级实验室 - RNA-SEQ分析

本实验室将带领您通过端到端RNA-Seq差异表达流程,使用deseq2.和其他一起生物体包裹。

注:许多其他的生物体包装还可用于基因级别的差异表达的统计推理,包括edger.贝凯DSS.林马

0.2行使

使用来自气道,设计和实施
结束于终端RNA-SEQ差异表达分析,使用deseq2.

步骤包括 -

0.3分析数据

该实验室中使用的数据是用地塞米松处理的气道平滑肌细胞RNA-SEQ试验,一种具有抗炎作用的合成糖皮质激素类固醇。例如,在哮喘患者中使用糖皮质激素,以防止或减少气道的炎症。在实验中,用1微摩尔地塞米松处理了四次初级人气道平滑肌细胞系18小时。对于四种细胞系中的每一种,我们具有治疗和未处理的样品。

实验的参考是:

他是,江X,瓦格纳P,胡河,王q,klanderman b,惠特克rm,duan q,lasky-su j,nikolos c,jester w,johnson m,panettieri r jr,tantisira kg,weiss st,lu q。“RNA-SEQ转录组分析将脆皮曲线导致响应基因识别为调节气道平滑肌细胞中细胞因子功能的糖皮质激素敏感基因。”Plos一个。2014年6月13日; 9(6):E99625。PMID:24926665.。地理:GSE52778.

有关我们的分析,我们将使用数据包中的数据气道

图书馆(“气道”)数据(气道)

0.4解决方案

0.4.1.答案1:加载数据

存储在内部的数据气道是一个概括分析对象。

图书馆(“气道”)数据(Airway)SE < -  Airway Se
##类:范围:Dim:64102 8 ##元数据(1):''##测定(1):计数## Rownames(64102):ENSG000000005 ... LRG_98 LRG_99 ## ROWRANGES元数据列名称(0):## Colnames(8):SRR1039508 SRR1039509 ... SRR1039520 SRR1039521 ## GOLDATA名称(9):SAMPLENAME CELL ...样品生物素

0.4.2答案2:创建deseqdataset.

一旦我们有了完整的注释概括分析对象,我们可以构建一个deseqdataset.来自它的对象,然后将形成实际的起点deseq2.包裹,在以下部分中描述。我们为分析添加了适当的设计。

图书馆(“DESEQ2”)DDS < -  DESQDATASET(SE,DESIGN =〜CELL + DEX)

0.4.3.答案3:差异表达管道

确保这一点是方便的untrt是第一级德克斯因子,使默认log2折叠更改被计算为未经处理的处理(默认情况下,r会选择第一个字母级别,记住:除非您告诉他们,否则计算机不知道该怎么办)。功能相关实现这一点:

DDS $ DEX < - 相关(DDS $ DEX,“UNTRT”)

最后,我们已准备好运行差异表达管道。使用数据对象准备,deseq2.现在可以分析单个呼叫对功能进行运行DESEQ.

DDS < -  DESQ(DDS)
##估计尺寸因子##估计离散度##基因离散度估计##均值-离散关系##最终离散度估计##拟合模型和检验

此函数将打印出其执行的各种步骤的消息。这些在手动页面中更详细地描述DESEQ.,可以通过键入访问?Deseq.。简而言之,这些是:尺寸因子的估计(控制序列实验的库尺寸的差异),对每个基因的分散估计,并拟合广义的线性模型。

一种deseqdataset.返回包含它内部的所有拟合信息,以下部分介绍如何从此对象中提取兴趣表的结果表。

0.4.4答案4:构建结果表

打电话结果没有任何参数将提取估计的log2 fold变化和P.设计公式中最后变量的值。如果此变量有超过2个级别,结果将提取结果表,用于最后一个级别与第一个级别的比较。

(RES < - 结果(DDS))
## log2折叠更改(地图):dex trt vs vs untrt ## wald测试p值:dex trt vs vs untrt ##与64102行和6列## Basemean log2foldchange LFCSE stat pvalue padj ##  <数字> <数字> <数字> <数值> ## ENSG00000000003 708.60217 -0.37424998 0.09873107 -3.7906000 0.0001502838 0.001251416 ## ENSG00000000005 0.00000 NA NA NA NA NA ## ENSG00000000419 520.29790 0.20215551 0.10929899 1.8495642 0.0643763851 0.192284345 ## ENSG00000000457 237.16304 0.03624826 0.13684258 0.2648902 0.7910940556 0.910776144## ENSG00000000460 57.93263 -0.08523371 0.24654402 -0.3457140 0.7295576905 0.878646940 ## ... ... ... ... ... ... ... ## LRG_94 0 NA NA NA NA NA ## LRG_96 0 NA NA NAna na ## lrg_97 0 na na na na na ## lrg_98 0 na na na na ## lrg_99 0 na na na na na na

res.是一个dataframe.对象,它带有元数据,其中包含关于列含义的信息:

mcols(res,使用.names = true)
##与6行和2列##类型说明##  <字符> ##所有样本的标准化计数的基础中央均值## log2foldchange结果log2折叠变化(地图):dex trt vs untrt ## lfcse结果标准错误:DEX TRT VS UNTRT ## STAT结果WALD统计:DEX TRT VS UNTRT ## PValue结果WALD TEST P值:DEX TRT VS UNTRT ## PADJ结果BH调整P值

第一列,,是标准化计数值的平均值,除以所有样本的大小因子。其余四列是具体的对比,即比较TRT.水平untrt因子变量的级别德克斯。查看帮助页面结果(通过打字?结果)查阅如何获取其他对比资料。

log2foldchange.效果大小估计。它告诉我们,由于与未处理的样品相比,由于用地塞米松治疗,基因的表达似乎有多大的变化。将该值报告为基本2的对数刻度:例如,1.5的log2折叠变化意味着基因的表达式通过乘法因子增加\(2 ^{1.5} \ \)约2.82

我们还可以用下面的代码对结果进行总结,这行代码报告了一些额外的信息

摘要(RES)
## ##在33469中用非零总读数##调整后的P值<0.1 ## LFC> 0(向上):2641,7.9%## LFC <0(向下):2242,6.7%##异常值[1]:0,0%##低计数[2]:15441,46%##(平均数量<5)## [1]请参阅“cookscutoff”的论点?结果## [2]查看“独立熏蒸”的论点结果

0.4.5答案5:可视化结果

可视化特定基因的计数的快速方法是使用Plotcounts.函数,它作为论点deseqdataset.这是一个基因名称,以及绘制计数的小组。

Topgene < -  Rownames(RES)[哪个方法(Res $ Padj)] PlotCounts(DDS,Gene = Topgene,IntGroup = C(“Dex”))

0.5参考文献

有很多详细的分析见
-案例研究 - 如何建立概述 - 气道数据集
-差异表达实验室

0.6什么不是在BioC2015错过!

如果您喜欢此实验室并希望在此领域了解更多信息,请不要错过BioC2015的以下实验室

0.7sessioninfo()

sessioninfo()
## R 3.2.1(2015-06-18)##平台:X86_64-Unknown-Linux-GNU(64位)##正在运行:Ubuntu 14.04.2 LTS ### locale:## [1] lc_ctype = en_us.utf-8 lc_numeric = c lc_time = en_us.utf-8 ## [4] lc_collat​​e = c lc_monetary = en_us.utf-8 lc_messages = en_us.utf-8 ## [7] lc_paper = en_us.utf-8 LC_NAME=C LC_ADDRESS=C ## [10] LC_TELEPHONE=C LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C ## ## attached base packages: ## [1] stats4 parallel stats graphics grDevices utils datasets methods base ## ## other attached packages: ## [1] RColorBrewer_1.1-2 gplots_2.17.0 ## [3] DESeq2_1.9.23 RcppArmadillo_0.5.200.1.0 ## [5] Rcpp_0.11.6 airway_0.103.1 ## [7] Rattus.norvegicus_1.3.1 org.Rn.eg.db_3.1.2 ## [9] GO.db_3.1.2 OrganismDbi_1.11.42 ## [11] BSgenome.Rnorvegicus.UCSC.rn5_1.4.0 BSgenome_1.37.3 ## [13] rtracklayer_1.29.12 TxDb.Rnorvegicus.UCSC.rn5.refGene_3.1.3 ## [15] org.Hs.eg.db_3.1.2 RSQLite_1.0.0 ## [17] DBI_0.3.1 TxDb.Hsapiens.UCSC.hg19.knownGene_3.1.3 ## [19] GenomicFeatures_1.21.13 AnnotationDbi_1.31.17 ## [21] AnnotationHub_2.1.30 RNAseqData.HNRNPC.bam.chr14_0.7.0 ## [23] GenomicAlignments_1.5.11 Rsamtools_1.21.14 ## [25] Biostrings_2.37.2 XVector_0.9.1 ## [27] SummarizedExperiment_0.3.2 Biobase_2.29.1 ## [29] GenomicRanges_1.21.16 GenomeInfoDb_1.5.8 ## [31] IRanges_2.3.14 S4Vectors_0.7.10 ## [33] BiocGenerics_0.15.3 ggplot2_1.0.1 ## [35] BiocStyle_1.7.4 ## ## loaded via a namespace (and not attached): ## [1] bitops_1.0-6 httr_1.0.0 tools_3.2.1 ## [4] R6_2.1.0 KernSmooth_2.23-15 rpart_4.1-10 ## [7] Hmisc_3.16-0 colorspace_1.2-6 nnet_7.3-10 ## [10] gridExtra_2.0.0 curl_0.9.1 graph_1.47.2 ## [13] formatR_1.2 labeling_0.3 caTools_1.17.1 ## [16] scales_0.2.5 genefilter_1.51.0 RBGL_1.45.1 ## [19] stringr_1.0.0 digest_0.6.8 foreign_0.8-65 ## [22] rmarkdown_0.7 htmltools_0.2.6 BiocInstaller_1.19.8 ## [25] shiny_0.12.1 BiocParallel_1.3.34 gtools_3.5.0 ## [28] acepack_1.3-3.3 RCurl_1.95-4.7 magrittr_1.5 ## [31] Formula_1.2-1 futile.logger_1.4.1 munsell_0.4.2 ## [34] proto_0.3-10 stringi_0.5-5 yaml_2.1.13 ## [37] MASS_7.3-43 zlibbioc_1.15.0 plyr_1.8.3 ## [40] grid_3.2.1 gdata_2.17.0 lattice_0.20-33 ## [43] splines_3.2.1 annotate_1.47.1 locfit_1.5-9.1 ## [46] knitr_1.10.5 geneplotter_1.47.0 reshape2_1.4.1 ## [49] codetools_0.2-14 biomaRt_2.25.1 futile.options_1.0.0 ## [52] XML_3.98-1.3 evaluate_0.7 latticeExtra_0.6-26 ## [55] lambda.r_1.1.7 httpuv_1.3.2 gtable_0.1.2 ## [58] mime_0.3 xtable_1.7-4 survival_2.38-3 ## [61] cluster_2.0.2 interactiveDisplayBase_1.7.0