RNA-Seq工作流程

Martin Morgan，Sonali Arora
2015年2月3日

文科工作流程

1.实验设计

保持简单

经典的实验设计
时间序列
在可能的情况下没有缺失的值
预期的分析必须是可行的——能否将现有的样本和感兴趣的假设结合起来，形成一个可检验的统计假设?

复制

复制的程度决定了生物学问题的细微之处。
没有复制（每次治疗1个样品）：定性描述有限的统计选择。
每次处理3-5次:用细胞系或其他明确定义的实体设计实验操作;两组之间平均表达的变化是2倍。
每次治疗重复10-50次:群体研究，例如，癌细胞系。
1000次重复:前瞻性研究，如SNP发现
一个资源:rnaseqpower.

避免实验因素与其他因素混淆

常见问题：从同一流动细胞上的一次处理中的样品;来自治疗1的样品首先处理，处理2处理第二等。

记录co-variates

注意批处理的影响

Leek等人，2010，《自然评论遗传学》11733 - 739，韭菜和故事Plos Genet 3（9）：e161。
科学发现:普遍的批量效应
统计洞察:替代变量分析:识别和构建替代变量;消除已知的批处理效应
优点：减少依赖，稳定错误率估算，提高重复性
战斗软件 /股东价值分析Bioconductor包裹
从一个设施的HapMap样本，按处理日期订购。

2.湿实验室

的混杂因素

记录或避免

你的工件特定协议

序列污染物
富集偏见，例如，非均匀的转录物表示。
PCR伪影 - 适配器污染物，序列特异性放大偏压，......

3.测序

轴的变异

单与配对结束
长度:50 - 200元
每个示例的读取数

特定应用，例如，

芯片SEQ：短，单端读数通常足够
RNA-SEQ，已知基因：单或配对读数
rna序列、转录本或新的变体:对端读
拷贝数:单端读或对端读
结构变体：配对读数
变体：深度通过更长，配对读取
微生物组:长末端对读(重叠末端)

4.对齐

定位策略

新创
- 没有参考基因组;相当大的排序和计算资源
基因组
- 建立参考基因组
- Splice-aware对准器
- 新的成绩单发现
转录组
- 建立参考基因组;可靠的基因模型
- 简单的对齐器
- 已知基因/转录物表达

拼接感知对齐器（和Bioconductor包装器)

Bowtie2.(Rbowtie)
明星(doi)
GMAP / GSNAP.(gmapR)
subread (doi）（Rsubread)
系统评价(Engstrom et al.， 2013，doi)

(5。蝴蝶结/礼帽/袖扣/袖口)

大礼帽用途Bowtie2.为了执行基本的单端和对端对齐，然后使用算法将难以对齐的读数放置在它们对齐良好的配偶附近。
袖扣(doi)大礼帽产量和估计现有和新的转录性丰富。袖扣是如何工作的
[Cuffdiff] []评估实验组之间估计丰富的统计显着性

5.简化为“计数表”

使用已知的基因模型来计数对齐的读取重叠的感兴趣区域/基因模型
基因模型可以是公共的(如UCSC, NCBI, ENSEMBL)或特设（GFF文件）
GenomicAlignments: summarizeOverlaps ()
htseq.,htseq-count

步骤6.分析

摘要

算本身，而不是一个总结(RPKM, FRPKM，…)，是相关的分析
- 对于给定基因，更大的计数意味着更多信息;RPKM等，将所有估计视为同样的信息。
- 比较是跨越样本每一个感兴趣的区域;所有的样本都有相同的兴趣区域，所以模库的大小没有必要校正，例如，基因长度或可映射性。

归一化

由于一些无聊的原因，库的大小(每个样本的读取总数)不同;我们需要在统计分析中考虑库大小的差异。
每个样本的计数读数总数是不是对图书馆规模的一个很好的估计。它不一定会受到数量大的区域的影响，并可能在基因间引入偏差和相关性。相反，应该使用库大小的稳健度量方法，该方法考虑了计数分布的偏态(最简单的方法:修剪过的几何平均值;更高级/更适合在实验室中遇到)。
库大小(读取总数)在不同样本之间是不同的，应该包括在内作为统计补偿在分析差异表达中，而不是在分析中早期'除以'图书馆大小。

适当的误差模型

计数数据是不是通常分布或作为泊松过程，而是作为负二项式。
泊松(射击噪声，即样本内技术和读取计数中的采样变化)与生物样本之间变化的组合结果。
负二项式模型需要估计另外的参数（'色散'），其在小样本中估计不佳。
基本的策略是使用从具有相似表达值的基因中获得的更稳健的局部估计来调节每个基因的估计(下面提供更多的借用信息)。

预滤器

天真地，统计测试（例如，T-Test）可以应用于计数表的每一行。但是，我们的样本相对较少（10年代），非常多的比较（10,000人），所以一个天真的方法可能会非常受到动力，导致非常高错误发现率
无论在考虑的假设如何，一种简单的方法通过消除可能导致统计显着性的区域来执行更少的测试。
示例：在所有样本中的0个计数的区域可能不可能对假设的重大遗憾，因此来自进一步的分析。
基本方法:'K over A'样式过滤器-要求至少K个样本中最少A(规范化)读取计数。方差滤波器，例如，IQR(四分位区间)提供了变异性的稳健估计;可以用来排列和丢弃变化最小的区域。
更微妙的方法:刨边机装饰图案;今天的工作流程。

贷款信息

为什么低统计功率会提高错误发现率?
培养直觉的一种方法是将t检验(例如)识别为方差比率。分子是治疗特异性的，但分母是对总体可变性的测量。
方差用不确定性来衡量;高估或低估分母方差对t统计量或类似的比例有不对称的影响，而低估了膨胀这个数据比高估的数据更能使数据缩水。因此提高了错误发现率。
在微阵列或RNA-seq实验中使用的典型零假设下，每个基因可能对处理(分子方差)有不同的反应，但一个基因的总体变异性是相同的，至少对于平均表达相似的基因是相同的
策略是将分母方差估计为基因的组间方差，主持通过所有基因的平均群体差异。
这一策略利用了同样的实验设计已应用于所有检测的基因这一事实，并有效地降低了错误发现率。

步骤7。理解

将差异表达的区域放在语境中

与基因组范围相关的基因名称
基因设定富集和类似的分析
接近监管标志
与其他分析相容，例如甲基化，拷贝数，变体，......
在TCGA卵巢癌Affymetrix微阵列数据集中发现38个错误标记的样本基因组拷贝数与mRNA表达之间的相关性。

实验室

实验室是基于由Michael Love, Simon Anders, Wolfgang Huber开发的RNA-seq工作流程的改进版本。