动力与工作流程

主要参考文献

哈尔琴科、托尔斯托鲁科夫和帕克(2008）.
伦及史密斯(2014）.

ChIP-seq

Kharchenko等人(2008）. ChIP-seq概述

标签与序列读取;3 '方向单端读扩展
链移/互相关
定义峰(窄峰，如转录因子结合位点)与弥漫性峰(如组蛋白标记)

用于差分绑定的ChIP-seq

设计实验，每个处理重复样品
使用微阵列/ RNA-seq分析

新的统计问题

在没有“数据窥探”的情况下推断峰值(使用相同的数据两次，一次推断峰值，一次估计差分绑定)
保留权力
降低错误发现率

工作流程

继贝利等人之后，2013

实验设计与执行

单样本
- ChIPed转录因子和
- 输入(片段基因组DNA)或对照(例如，含有非特异性抗体的IP，如免疫球蛋白G、IgG)
设计实验
- TF /控制对的复制

排序与比对

深度排序的经验法则:\ \(> 10米)窄峰读数，\ \(> 20米)对于宽阔的山峰
长而成对的末端有用但不是必需的-在不明确的区域对齐
基本的对准器通常是足够的，例如，不需要对准拼接连接
Sims等人，2014

峰打电话

大量的峰值调用程序;有些专门用于例如窄峰和宽峰。
Commmonly使用:苹果电脑， PeakSeq, CisGenome，…
MACS:基于模型的ChIP-Seq分析，Liu等，2008
- 缩放控制标签计数以匹配ChIP计数
- 移动中心峰值\ (d / 2 \)
- 用泊松过程来模拟标签的出现
- 寻找固定宽度的滑动窗口与过多的标记丰富
- 经验FDR:交换芯片和控制样本;FDR是#控制峰值/ #芯片峰值
- 输出:被调用峰值的BED文件

加分析

注释:我的峰在什么基因附近?
差异表现:与治疗2相比，治疗1中哪些峰值表现过多或不足?
主题识别(超过已知主题的峰值?)和发现
综合分析，例如，调控元件和表达的关联

峰打电话

“已知”范围

计数预先定义范围内的标签，例如，已知基因的启动子区域
明显的限制，例如，监管要素不在规定范围内;指定范围包含多个行为互补的调节元件

新创窗户

宽度:窄峰，1bp;宽峰，150bp
偏移量:25 - 100 bp;影响计算量

新创峰打电话

第三方软件(许多可用;苹果电脑常用的)
调用峰值的各种策略- Lun & Smyth，表1
- 独立调用每个样本;各样本峰的交集或并集，…
- 调用峰值来自池库
- .．.
相关的幻灯片pdf

跨库的峰值调用

表1:峰值呼叫策略描述。每个策略都有一个标识符，并由MACS运行的模式、运行该策略的库以及为组合库或组之间的峰值而执行的整合操作(如果有的话)来描述。对于方法6，取每个富集方向上的峰并集。

ID	模式	图书馆	操作
1	Single-sample	个人	联盟
2	Single-sample	个人	十字路口
3.	Single-sample	个人	至少2个
4	Single-sample	在组上合并	联盟
5	Single-sample	在组上合并	十字路口
6	两个示例	在组上合并	联盟
7	Single-sample	全部合并	- - - - - -

如何选择?-伦&史密斯，
- 在零假设下，第一类错误率是均匀的
- 表2: I型错误的后果
- 最佳策略:从池库中调用峰值
- 表2:使用每个峰值调用策略的计数进行差异富集测试时观察到的I型错误率。显示了指定错误阈值范围内的错误率。所有值表示10次模拟迭代的平均值，标准误差如括号所示。RA:使用随机选择的10,000个真峰进行参考分析。

ID	出错率
	0.01	0.05	0．1
类风湿性关节炎	0.010 (0.000)	0.051 (0.001)	0.100 (0.002)
1	0.002 (0.000)	0.019 (0.001)	0.053 (0.001)
2	0.003 (0.000)	0.030 (0.000)	0.073 (0.001)
3.	0.006 (0.000)	0.042 (0.001)	0.092 (0.001)
4	0.033 (0.001)	0.145 (0.001)	0.261 (0.002)
5	0.000 (0.000)	0.001 (0.000)	0.005 (0.000)
6	0.088 (0.006)	0.528 (0.013)	0.893 (0.006)
7	0.010 (0.000)	0.049 (0.001)	0.098 (0.001)

## 10万个t-tests under null, n = 6m <- matrix(rnorm(n * 100000)， ncol=n) P <- genfilter::rowttests(m, factor(rep(1:2，每个=3)))$ P。值分位数(P, c(。001， .01， .05))

## 0.00109 0.01013 0.05035

嘘(P,减免= 20)

新创混合策略

实用:差分绑定(csaw）

这个练习是基于csaw插图，在那里可以找到更多的细节。

1 - 4:实验设计…对齐

该实验涉及NFYA蛋白在胚胎干细胞和末端神经元之间的结合谱的变化。这是Tiwari等人提供的数据的子集。2012可作为GSE25532．有两个es(胚胎干细胞)和两个tn(终末神经元)复制。从GEO中提取单端FASTQ文件，使用Rsubread，并使用后处理(排序和索引)Rsamtools该脚本可在

系统。file(package="UseBioconductor"， "scripts"， "ChIPSeq"， "NFYA"， "preprocess.R")

创建一个总结所使用文件的数据帧。

files <- local({acc <- c(es_1="SRR074398"， es_2="SRR074399"， tn_1="SRR074417"， tn_2="SRR074418") data.frame(Treatment=sub("_.*"， ""， names(acc))， replication =sub(". SRR074418")。*_"， ""， names(acc))， sra=sprintf("%s. "Sra "， acc)， fastq=sprintf("%s.fastq.gz"， acc)， bam=sprintf("%s.fastq.gz.subread。BAM"， acc)， row.names=acc, stringsAsFactors=FALSE)})

5:减少

切换到BAM文件所在的目录

setwd (~ / UseBioconductor-data / ChIPSeq / NFYA”)

加载csaw库并在重叠窗口中计数读取。返回一个SummarizedExperiment，所以探索一下…

库(csaw)库(GenomicRanges)片段。Len <- 110系统。time({data <- windowCounts(files$bam, width=10, ext= fragr .len)}) # 156秒acc <- sub(".fastq. len . "*"， ""， data$bam.files) colData(data) <- cbind(files[acc，]， colData(data))

6:分析

过滤(小插图第3章)从过滤低计数窗口开始。可能会有很多这样的(有多少?)是否有合理的方法来选择过滤阈值?

library(edgeR) # for aveLogCPM() keep <- aveLogCPM(assay(data)) >= -1 data <- data[keep，]

归一化(成分偏差)(小插图第4章)csaw在归一化中使用了二进制计数。容器相对于ChIP峰值较大，假设容器主要代表无差异绑定区域。类对样本仓计数进行规范化刨边机TMM (M值的修剪中位数)方法见RNASeq差异表达实验室。请查看小插图第4章以获得更多关于规范化的信息(在为其他协议开发标准化方法时，这是一个有用的资源!)

系统。time({binned <- windowCounts(files$bam, bin=TRUE, width=10000)}) #139秒normfacs <- normalize(binned)

实验设计与差动绑定(小插图第5章)微分结合将评估使用刨边机，我们需要指定实验设计

设计<-模型。矩阵(~治疗,colData(数据)

应用标准刨边机识别差异绑定区域的工作流程。创造性地探索结果。

y <- asDGEList(data, norm.factors=normfacs) y <- estimateDisp(y, design) fit <- glmQLFit(y, design, robust=TRUE) results <- glmQLFTest(fit, contrast=c(0,1)) head(results$table)

## logFC logCPM F PValue ## 1 -0.674 -1.36 0.631 0.4321 ## 2 -0.769 -1.40 0.800 0.3772 ## 3 -0.362 -1.33 0.186 0.6686 ## 4 0.494 -1.37 0.346 0.5599 ## 5 1.476 -1.17 3.135 0.0852 ## 6 2.192 -1.24 5.763 0.0217

多个测试(小插图第6章)挑战是FDR在所有检测到的差异绑定地区这是我们感兴趣的，但是FDR的微分界是什么呢窗户；区域通常由多个重叠的窗口组成。作为第一步，我们将采取一种“快速而肮脏”的方法，通过合并“高丰度”窗口来识别区域，例如，彼此之间相差1kb

merge <- mergeWindows(rowRanges(data)， tol=1000L)

在区域内跨窗口组合测试结果。本文第6.5节探讨了几种策略。

tabcom <- combineTests(合并的$id，结果$表)头(tabcom)

## nWindows logFC。logFC。down PValue FDR ## 1 10 1 0.4321 0.610 ## 2 20 1 0.6686 0.804 ## 3 43 0 0.0826 0.213 ## 4 1 10 0.3898 0.571 ## 5 20 2 0.1904 0.361 ## 610 0 0.8320 0.913

本文第6.6节讨论了确定区域内“最佳”窗口的方法。

最后，创建一个GRangesList这与两个结果表和计算结果的基因组范围有关。

gr <- rowRanges(data) mcols(gr) <- as(results$table， "DataFrame") grl <- split(gr, merged$id) mcols(grl) <- as(tabcom， "DataFrame")

f . ChIP-seq

马丁·摩根(mtmorgan@fredhutch.org）

2015-04-07

动力与工作流程

ChIP-seq

工作流程

峰打电话

跨库的峰值调用

实用:差分绑定(csaw）

1 - 4:实验设计…对齐

5:减少

6:分析

注释

csaw

ChIPseeker