具有RNA-SEQ示例的共同工作流程

用户!2014
作者:马丁摩根(mtmorgan@fhcrc.org.),Sonali Arora
日期:2014年6月30日

概述

rnaseq.

Chipseq - 染色质免疫尺寸

变体

结构的

深度:rnaseq

工作流程

统计挑战

甲状旁腺腺瘤中的rnaseq

这项工作流出来自更全面的示例甲状旁腺包装和套餐CSAMA 2014.作坊。它用deseq2.估计基因级差异表达。分析在计数读取与Ensembl基因区域对齐后拾取;计数可以使用SummarizeOverlaps(),如下所述甲状旁腺小插图。

数据来自Haglund等人《甲状旁腺腺瘤中功能性雌激素受体的证据》,《临床内分泌杂志》,2012年9月。本实验研究了雌激素受体在甲状旁腺肿瘤中的作用。研究人员从4例患者中提取甲状旁腺腺瘤细胞进行原代培养。这些原代培养物用二芳基丙腈(DPN),一种雌激素受体β激动剂,或4-羟他莫西芬(OHT)处理。从处理和对照培养物中分别于24小时和48小时提取RNA。

首先加载计数数据,它已经被小心地作为概括分析目的。使用诸如此类的访问器探索对象Rowdata(SE)冷酷(SE)exptdata(se)$ miame, 和头(测定(SE))

要求(“deseq2”)
##加载所需包:DESEQ2 ##加载所需包:RCPP ##加载所需包:RCPParmadillo
需要(“甲状旁腺”)
##加载所需包:甲状旁腺
数据(“甲脱石甲状腺”)SE < - 甲状旁腺功能克拉姆斯(SE)< -  SE $ run

第一步是添加实验设计并执行额外的准备步骤。该实验包含几种技术复制,而这些技术可以在模型中纳入其中,这里我们只是汇集它们(汇集技术复制通常适用于RNAseQ数据)。

DDSFULL < -  DESQDATASET(SE,DESIGN =〜患者+处理)DDSCOLLAPSED < - 折叠事实(DDSFULL,GROUPBY = DDSFULL $ SAMPLE,RUN = DDSFULL $ RUN)DDS < -  DDSCOLLAPSED [,DDSCOLLAPSED $ TIME ==“48H”] DDS $时间< -  DROPLEVELS(DDS $ TIME)DDS $治疗<-ferfel(DDS $待遇,“控制”)

整个工作流程由呼叫执行Deseq()功能。这包括库尺寸因子估计,色散估计,模型拟合,独立滤波和基于指定设计的测试统计数据。在这里,我们在DPN和控制之间进行比较生成结果。

DDS < -  DESQ(DDS)
##估计尺寸因子##估计离散度##基因离散度估计##均值-离散关系##最终离散度估计##拟合模型和检验
RES < - 结果(DDS,对比度= C(“处理”,“DPN”,“Control”)))

其余步骤提供了数据的一些基本检查和可视化。我们识别调整后的基因(多重比较)P.值小于0.1,并通过它们的log2折叠更改顺序。

Ressig < -  Res [哪个(Res $ Padj <0.1),]头(Ressig [Order(Ressig $ log2foldchange),])
## log2折叠更改(地图):治疗DPN VS Control ## Wald测试P值:治疗DPN VS Control ## DataFrame与6行和6列## Basemean Log2foldchange LFCSE STAT ##   <数字>   ## ESG00000163631 233.3 -0.9307 0.2842-03 ## ENSG000001980 0.151.6 -0.6902 0.151.6 -0.6902 0.151.0-05111111/01890-051111530.9 -0.6756 0.2109 -3.203 1.359E-03 ## ENSG00000233705 198.6 -0.6727 0.1446-4.651 3.398.6 -2351 3.3918-06 ## 401C-06 -651 0.1446-06 ## 4.9912-0.654 0.1212-06 ## 0.1212-0.654 0.1912-0.654 0.1046 -6254 3.9912-10 ## 3.9912-10 ## 3.  ## ENSG00000163631 5.685e-02 ## ENSG00000119946 2.448E-03 ## ENSG00000041982 1.986C-02#6.687E-02#6.687E-02#6.687E-02#6.687E-02 ## ESG0000000233705 1.053E-03 ## ensg000000911377 9.228e-07

“MA”曲线表示每个基因作为一个点,在X轴上的所有样品上具有平均表达,并且在Y轴上的处理组之间的LOG2折叠变化;突出显示的值是调整的基因P.值小于0.1。

plotma(res,ylim = c(-1,1))

块Deseq-ma

采取的策略deseq2.对于分散估计总结了plotdispests()功能。它显示(a)黑色每基因色散估计,(b)一个红色趋势线,代表色散和标准化计数之间的全局关系,©蓝色的“缩小”值通过全局关系培养各个色散估计,(d)蓝色 -具有未调整的高基因分散体的带圈分散异常值。

Plotdispests(DDS,Ylim = C(1E-6,1E1))

Chunk Deseq-Dispestest的情节

最终诊断是直方图的图P.值在零假设下应该是均匀的值;右边的歪斜可能表示在模型中不适合的批处理或其他效果

hist(res $ pvalue,breaks = 40,col =“灰色”)

chunk deseq-hist图