动力与工作流程

主要参考文献

ChIP-seq

Kharchenko等人(2008).ChIP-seq概述

用于差分绑定的ChIP-seq

新的统计问题

工作流程

实验设计与执行

排序与比对

峰打电话

加分析

峰打电话

“已知”范围

新创窗户

新创峰打电话

跨库的峰值调用

ID 模式 图书馆 操作
1 Single-sample 个人 联盟
2 Single-sample 个人 十字路口
3. Single-sample 个人 至少2个
4 Single-sample 在组上合并 联盟
5 Single-sample 在组上合并 十字路口
6 两个示例 在组上合并 联盟
7 Single-sample 全部合并 - - - - - -
ID 出错率
0.01 0.05 0.1
类风湿性关节炎 0.010 (0.000) 0.051 (0.001) 0.100 (0.002)
1 0.002 (0.000) 0.019 (0.001) 0.053 (0.001)
2 0.003 (0.000) 0.030 (0.000) 0.073 (0.001)
3. 0.006 (0.000) 0.042 (0.001) 0.092 (0.001)
4 0.033 (0.001) 0.145 (0.001) 0.261 (0.002)
5 0.000 (0.000) 0.001 (0.000) 0.005 (0.000)
6 0.088 (0.006) 0.528 (0.013) 0.893 (0.006)
7 0.010 (0.000) 0.049 (0.001) 0.098 (0.001)
## 10万个t-tests under null, n = 6m <- matrix(rnorm(n * 100000), ncol=n) P <- genfilter::rowttests(m, factor(rep(1:2,每个=3)))$ P。值分位数(P, c(。001, .01, .05))
## 0.00109 0.01013 0.05035
嘘(P,减免= 20)

新创混合策略

实用:差分绑定(csaw

这个练习是基于csaw插图,在那里可以找到更多的细节。

1 - 4:实验设计…对齐

该实验涉及NFYA蛋白在胚胎干细胞和末端神经元之间的结合谱的变化。这是Tiwari等人提供的数据的子集。2012可作为GSE25532.有两个es(胚胎干细胞)和两个tn(终末神经元)复制。从GEO中提取单端FASTQ文件,使用Rsubread,并使用后处理(排序和索引)Rsamtools该脚本可在

系统。file(package="UseBioconductor", "scripts", "ChIPSeq", "NFYA", "preprocess.R")

创建一个总结所使用文件的数据帧。

files <- local({acc <- c(es_1="SRR074398", es_2="SRR074399", tn_1="SRR074417", tn_2="SRR074418") data.frame(Treatment=sub("_.*", "", names(acc)), replication =sub(". SRR074418")。*_", "", names(acc)), sra=sprintf("%s. "Sra ", acc), fastq=sprintf("%s.fastq.gz", acc), bam=sprintf("%s.fastq.gz.subread。BAM", acc), row.names=acc, stringsAsFactors=FALSE)})

5:减少

切换到BAM文件所在的目录

setwd (~ / UseBioconductor-data / ChIPSeq / NFYA”)

加载csaw库并在重叠窗口中计数读取。返回一个SummarizedExperiment,所以探索一下…

库(csaw)库(GenomicRanges)片段。Len <- 110系统。time({data <- windowCounts(files$bam, width=10, ext= fragr .len)}) # 156秒acc <- sub(".fastq. len . "*", "", data$bam.files) colData(data) <- cbind(files[acc,], colData(data))

6:分析

过滤(小插图第3章)从过滤低计数窗口开始。可能会有很多这样的(有多少?)是否有合理的方法来选择过滤阈值?

library(edgeR) # for aveLogCPM() keep <- aveLogCPM(assay(data)) >= -1 data <- data[keep,]

归一化(成分偏差)(小插图第4章)csaw在归一化中使用了二进制计数。容器相对于ChIP峰值较大,假设容器主要代表无差异绑定区域。类对样本仓计数进行规范化刨边机TMM (M值的修剪中位数)方法见RNASeq差异表达实验室。请查看小插图第4章以获得更多关于规范化的信息(在为其他协议开发标准化方法时,这是一个有用的资源!)

系统。time({binned <- windowCounts(files$bam, bin=TRUE, width=10000)}) #139秒normfacs <- normalize(binned)

实验设计与差动绑定(小插图第5章)微分结合将评估使用刨边机,我们需要指定实验设计

设计<-模型。矩阵(~治疗,colData(数据)

应用标准刨边机识别差异绑定区域的工作流程。创造性地探索结果。

y <- asDGEList(data, norm.factors=normfacs) y <- estimateDisp(y, design) fit <- glmQLFit(y, design, robust=TRUE) results <- glmQLFTest(fit, contrast=c(0,1)) head(results$table)
## logFC logCPM F PValue ## 1 -0.674 -1.36 0.631 0.4321 ## 2 -0.769 -1.40 0.800 0.3772 ## 3 -0.362 -1.33 0.186 0.6686 ## 4 0.494 -1.37 0.346 0.5599 ## 5 1.476 -1.17 3.135 0.0852 ## 6 2.192 -1.24 5.763 0.0217

多个测试(小插图第6章)挑战是FDR在所有检测到的差异绑定地区这是我们感兴趣的,但是FDR的微分界是什么呢窗户;区域通常由多个重叠的窗口组成。作为第一步,我们将采取一种“快速而肮脏”的方法,通过合并“高丰度”窗口来识别区域,例如,彼此之间相差1kb

merge <- mergeWindows(rowRanges(data), tol=1000L)

在区域内跨窗口组合测试结果。本文第6.5节探讨了几种策略。

tabcom <- combineTests(合并的$id,结果$表)头(tabcom)
## nWindows logFC。logFC。down PValue FDR ## 1 10 1 0.4321 0.610 ## 2 20 1 0.6686 0.804 ## 3 43 0 0.0826 0.213 ## 4 1 10 0.3898 0.571 ## 5 20 2 0.1904 0.361 ## 610 0 0.8320 0.913

本文第6.6节讨论了确定区域内“最佳”窗口的方法。

最后,创建一个GRangesList这与两个结果表和计算结果的基因组范围有关。

gr <- rowRanges(data) mcols(gr) <- as(results$table, "DataFrame") grl <- split(gr, merged$id) mcols(grl) <- as(tabcom, "DataFrame")

注释

csaw

ChIPseeker