RNA-SEQ工作流动

马丁·摩根，索娜莉·阿罗拉
2014年10月28日

7步工作流程

1.实验设计

把事情简单化

古典实验设计
时间序列
在可能的情况下，不遗漏值
预期的分析必须是feasbile - 可以将可用的样本和假设组合以配制可测试的统计假设吗？

复制

复制程度决定了生物问题的细节。
无重复(每次处理1个样本):定性描述和有限的统计选项。
3-5每处理重复：设计使用细胞系或其他明确的实体进行实验操作;2倍（？）在组之间平均表达的变化。
每次治疗10-50重复：人口研究，例如癌细胞系。
1000的重复：前瞻性研究，例如，SNP发现
一个资源：RNASeqPower

避免与其他因素混淆的实验因素

常见问题:来自同一处理的样品都在同一个流动细胞上;处理1第一次处理，处理2第二次处理，等等。

记录共变量

意识到批量效果

Leek等人，2010年，自然评论Genetics 11733-739.、《PLoS Genet 3》(9):E161.。
科学发现：普及批量效应
统计见解：代理变量分析：识别和构建替代变量;删除已知的批量效果
好处:减少依赖性，稳定错误率估计，提高再现性
战斗软件/SVA.生物体包
根据加工日期从一家工厂订购的HapMap样品。

2.湿式实验室

混杂因素

记录或避免

你的文物特定的协议

序列的污染物
富集偏向，例如，非统一的文本表述。
PCR产物-适配器污染物，序列特异性扩增偏差，…

3.测序

变异轴

单和paired-end
长度：50-200nt.
每个样本的读数数

特定于应用程序,例如,

ChIP-seq:短的，单端读取通常是足够的
rna序列，已知基因:单端或双端读
RNA-SEQ，转录物或新型变体：配对读数
复制编号：单个或配对read
结构变体:对端读
变体:深度通过更长的，对端读取
Microbiome：长配对读数（重叠结束）

4.对齐

对准策略

德诺维
- 没有参考基因组;大量的排序和计算资源
基因组
- 建立参考基因组
- 拼接感知对齐器
- 小说记录发现
转录组
- 建立参考基因组;可靠的基因模型
- 简单的调整器
- 已知基因/转录本表达

Splice-aware对准器(生物体包装）

Bowtie2（r）
星星（迪伊）
GMAP / GSNAP（GMAPR.）
底部（迪伊)(rsubread.）
系统评估（ENGSTROM等，2013年，迪伊）

（5A。Bowtie2 / Tophat /袖扣/袖扣）

Tophat.使用Bowtie2为了执行基本的单一和配对结束对齐，然后使用算法将难以对准的读取读入其良好对齐的配对。
袖扣（迪伊）需要Tophat.输出和估计现有和新的转录本丰度。袖扣如何工作
[Cuffdiff][]评估试验组间估计丰度的统计学意义

5.减少“计数表”

使用已知的基因模型来计数感兴趣的重叠区域/基因模型
基因模型可以是公共（例如，UCSC，NCBI，Ensembl）或特别的(人造石铺地面文件)
Genomicalign :: SummarizeOverlaps（）
HTSeq那Htseq-count.

步骤6。分析

摘要

计数本身，而不是摘要（RPKM，FRPKM，......）与分析相关
- 对于一个给定的基因，计数越多意味着信息越多;RPKM等，将所有估计当作同样有用的信息。
- 比较是跨越样本每个兴趣区域;所有样品都具有相同的感兴趣区域，因此Modulo文库尺寸不需要校正，例如基因长度或标号。

正常化

图书馆的尺寸不同（每个样本的总计读数）因不合理的原因;我们需要考虑统计分析中图书馆规模的差异。
每个样本的读取总数为不良好的图书馆规模估计。它不一定受到大计数的区域的影响，并且可以引入基因的偏差和相关性。相反，使用稳健的库大小测量，该库大小考虑到计数的分发（最简单：修剪的几何平均值;在实验室中遇到的更高级/适当）。
图书馆大小（计数读数的总数）在样品之间不同，并且应包括在内作为统计偏移在差异表达的分析中，而不是在分析的早期“除以”库的大小。

适当的错误模型

统计数据不正态分布或泊松过程，但更像是负二项式。
具有生物样本之间的变化，组合泊松（拍摄'噪声，即样本内的样品技术和采样变化）。
负二项模型需要估计一个额外的参数(“离散度”)，这在小样本中估计很差。
基本策略是通过从具有相似表达值的基因衍生的更强大的局部估计来适度的每个基因估计（下面提供借阅信息一点）。

预过滤

简单地说，统计检验(例如，t检验)可以应用于计数表的每一行。然而，我们有相对较少的样本(10个)和非常多的比较(10,000个)，所以一个幼稚的方法可能是非常弱的，导致非常高假发现率
一种简单的方法是通过删除不可能产生统计显著性的区域来执行更少的测试，无论考虑的假设是什么。
例如:无论假设如何，在所有样本中计数为0的区域不可能是显著的，因此从进一步的分析中排除。
基本方法：'k上的'风格过滤器 - 需要至少k个样本中的最小（归一化）读数。方差滤波器，例如，IQR（间歇范围）提供了可变异性的稳健估计;可用于排名和丢弃最少不同的区域。
更细致的方法：edger.小插图;今天的工作流程。

借用信息

为什么低统计功率升高了虚假的发现率？
开发直觉的一种方法是识别T检验（例如）作为差异的比率。分子特定于处理，但是分母是一种整体变异性的量度。
差异以不确定性衡量;在估计的估计中或估计的估计具有对T型统计或类似的比率的不对称效果，低估膨胀统计数据比高估常见统计数据更大。因此提高了虚假的发现率。
在微阵列或RNA-SEQ实验中使用的典型无效假设下，每个基因可以对治疗（分子方差）不同，但是基因的整体可变性是相同的，至少对于具有相似平均表达的基因
该策略是估计分母方差作为基因的群体之间的差异，适度所有基因组间方差的平均值。
该策略利用相同的实验设计已经应用于所有测定的所有基因，并且在适度的假冒发现率下有效。

步骤7.理解

在上下文中放置差异表达的地区

与基因组范围相关的基因名称
基因集合富集及类似分析
靠近监管标志
与其他分析相结合，如甲基化、拷贝数、变异等。
基因组拷贝数和mRNA表达之间的相关性鉴定了TCGA卵巢癌症患者患者微阵列数据集中的38个错误标记的样品。

实验室

实验室基于由Michael Love，Simon Anders，Wolfgang Huber开发的RNA-SEQ工作流程的修改版本。