内容

1动机和工作流程
2实用：差异绑定（csaw)

1动机和工作流程

关键参考文献
- 哈尔琴科、托尔斯图鲁科夫和帕克(2008年）。
- 伦和史密斯(2014年）。

1.1芯片SEQ.

芯片SEQ概述

标签与测序读数;3'方向的单端读取扩展
股线移位/交叉相关
定义峰(狭窄的，如转录因子结合位点)相对于弥漫性峰(如组蛋白标记)

1.1.1芯片SEQ用于差动绑定

设计实验，每次治疗重复样品
微阵列/ rna序列分析

1.1.2新颖的统计问题

推断没有“数据窥探”的峰值（使用相同的数据两次，一次推断峰值，一次估计差分绑定）
保留权力
最小化虚假发现率

1.2工作流程

遵循Bailey等人。，2013年

1.2.1实验设计与执行

单一样本
- 芯片转录因子和
- 输入（碎片的基因组DNA）或对照（例如，具有非特异性抗体如免疫球蛋白G，IgG）的IP
设计实验
- TF / Control对的复制

1.2.2测序和对准

拇指测序深度规则：\（> 10m \）阅读为狭窄的山峰，\（> 20m \）对于广阔的山峰
长期和配对的末端有用但不是必要的 - 在暧昧地区的对齐
基本对准器一般是适当的，例如，不需要对准拼接接头
Sims等人，2014年

1.2.3峰值呼叫

大量的峰值调用程序;有些专门用于窄峰和宽峰。
少数用：马克斯、PeakSeq、CisGenome、…
基于模型的ChIP-Seq分析，Liu等，2008年
- 缩放控制标签计数以匹配芯片数量
- 通过移位中心峰值\（d / 2 \）
- 将标签的出现建模为泊松过程
- 寻找固定宽度滑动窗口，具有富有的标签富集数量
- 经验FDR：交换芯片和控制样品;FDR是＃控制峰/＃芯片峰值
- 输出：被称为峰值的床档

1.2.4加分析

注释：我的山峰附近是什么基因？
差分表示：与治疗2相比，治疗1中的峰值过度或代表哪些峰值？
图案识别（在已知的主题上的峰值？）和发现
一体化分析，例如，复杂监管要素和表达

1.3峰值呼叫

1.3.1.'已知'范围

计数预定义范围内的标签，例如已知基因的启动子区域
明显的限制，例如，监管要素不在指定范围内;指定的范围包含具有互补行为的多个监管元素

1.3.2新创视窗

宽度：窄峰，1bp;广阔的山峰，150bp
偏移量:25 - 100 bp;影响的计算负担

1.3.3.新创峰值呼叫

第三方软件(许多可用;马克斯常用）
呼叫峰值的各种策略 - LUN＆SMYTH，表1
- 独立拨打每个样本;样品中的峰值或峰的联盟，......
- 从池库呼叫峰值
- …
相关幻灯片PDF.

1.4跨库的峰值调用

表1：峰值呼叫策略的描述。每个策略都被赋予标识符，并且由运行MAC的模式，运行它的图书馆以及在库或组之间组合峰值的合并操作（如果有的话）。对于方法6，采用富集的每个方向上的峰的结合。

ID	模式	图书馆	手术
1	单样本	个人	联盟
2	单样本	个人	路口
3.	单样本	个人	至少2
4	单样本	汇集在一起	联盟
5	单样本	汇集在一起	路口
6	两个示例	汇集在一起	联盟
7	单样本	汇集了所有	-

如何选择？- LUN＆SMYTH，
- 在零假设下，I型错误率是均匀的
- 表2.：I型错误的后果
- 最佳策略：从池库呼叫峰值
- 表2.：使用来自每个峰值呼叫策略的计数，观察到的I型错误率。显示了一系列指定错误阈值的错误率。所有值表示具有括号中所示的标准误差的10个模拟迭代的平均值。RA：参考分析使用10 000随机选择真正的峰值。

ID	错误率
	0.01	0.05	0.1
类风湿性关节炎	0.010（0.000）	0.051（0.001）	0.100（0.002）
1	0.002（0.000）	0.019（0.001）	0.053（0.001）
2	0.003 (0.000)	0.030 (0.000)	0.073 (0.001)
3.	0.006 (0.000)	0.042（0.001）	0.092（0.001）
4	0.033（0.001）	0.145（0.001）	0.261（0.002）
5	0.000（0.000）	0.001（0.000）	0.005 (0.000)
6	0.088（0.006）	0.528（0.013）	0.893（0.006）
7	0.010（0.000）	0.049 (0.001)	0.098（0.001）

## 10万个t检验在null下，n = 6 n <- 6;m <- matrix(rnorm(n * 100000)， ncol=n) P <- genfilter::rowttests(m, factor(rep(1:2, each=3)))$ P。值分位数(P c(。001 . 01 . 05))

## 0.1％1％5％## 0.000954 0.010309 0.049512

嘘(P,减免= 20)

1.4.1新创混合策略

2实用：差异绑定（csaw)

这项运动基于csawVignette，可以找到更详细的详细信息。

2.1步骤1 - 4：实验设计......对齐

该实验涉及胚胎干细胞和末端神经元之间NFYA蛋白结合谱的改变。它是Tiwari等人提供的数据的子集。2012年可用作GSE25532。有两种ES（胚胎干细胞）和两种TN（末端神经元）重复。单端FASTQ文件从GEO中提取，使用rsubread.，并处理后（分类和索引）使用Rsamtools使用脚本可用

文件。path("ChIPSeq"， "NFYA"， "scripts"， "preprocess.R")

创建一个汇总所用文件的数据帧。

ACC < -  C（ES_1 =“SRR074398”，ES_2 =“SRR074399”，TN_1 =“SRR074417”，TN_2 =“SRR074418”）文件< -  data.frame（处理=子（“_。*”，“，”姓名“，名称（ACC）），复制=子（“。* _”，“”，名称（ACC）），SRA = SPRINTF（“％S.SRA”，ACC），FASTQ = SPRINTF（“％s.fastq.gz”，ACC），BAM = SPRINTF（“％s.fastq.gz.subread.bam”，ACC），Row.names = ACC，StringSasFactors = False）

2.2第五步:减少

更改为BAM文件所在的目录

setwd(“ChIPSeq / NFYA / bam”)

加载CSAW库并计数在重叠窗口中读取。这回归A.SummarizedExperiment，所以稍微探索一下……

图书馆(csaw)图书馆(GenomicRanges)碎片弹。Len <- 110系统。time({data <- windowCounts(files$bam, width=10, ext= fraga .len)}) # 156 seconds acc <- sub(".fastq. txt ")cbind(files[acc，]， colData(data))

有关减少步骤的进一步讨论，请参阅第2章csaw装饰图案。

2.3第六步:分析

过滤（Vignette第3章）首先过滤低计数窗口。这些可能有很多（有多少？）。有没有合理的方式来选择过滤阈值？

library(edgeR) # for aveLogCPM() keep <- aveLogCPM(assay(data)) >= -1 data <- data[keep，]

标准化（组成偏差）（Vignette第4章）CSAW在归一化中使用Binned Counts。箱相对于芯片峰值很大，假设箱主要代表非差分限制区域。使用该样本箱数量归一化edger.RNASeq差异表达实验室采用的TMM (M值的裁剪中值)方法。关于规范化的更多信息请参见第4章(在为其他协议开发规范化方法时，这是一个有用的资源!)

system.time（{binned < -  windowcounts（文件$ bam，bin = true，widey = 10000）}）＃139 realfacs < -  normalize（binned）

实验设计和差动绑定(插图第5章)差异装订将评估使用edger.，我们需要详细说明实验设计

< -设计模型。矩阵(~治疗,colData(数据)

申请标准edger.工作流程以识别差异绑定的区域。创造性地探索结果。

y <- estimateDisp(y, design) fit <- glmQLFit(y, design, robust=TRUE) results <- glmQLFTest(fit, contrast=c(0,1)) head(results$table)

## logFC F PValue ## 1 -2.38 0.39466 0.52986 ## 2 1.052 -2.39 0.41573 0.51907 ## 3 0.118 -2.16 0.00698 0.93341 ## 4 -0.847 -1.79 0.50517 0.47724 ## 5 -5.885 -2.15 7.98493 0.00472 ## 6 -5.629 -2.31 6.58683 0.01027

多个测试（Vignette第6章）挑战是所有检测到的差分绑定的FDR地区是人们对此感兴趣的，但是立即可用的是跨越差异绑定的FDR视窗;区域通常由多个重叠的窗口组成。作为第一步，我们将采用一种“快速而肮脏”的方法，通过合并“高丰度”窗口来识别区域，例如，彼此之间有1kb

合并< -  mergewindows（Rowranges（数据），tol = 1000L）

将测试结果与地区内的窗口相结合。在Vignette的6.5节中探讨了几项策略。

tabcom < -  combinetss（合并$ ID，结果$表）头（TABCOM）

# # nWindows logFC。logFC。PValue罗斯福方向# # 1 2 2 0 0.5299 0.999 0.0106 - 0.999 # # 2 6 0 5到10 # # 3 1 5 0.7301 - 0.999 # # 4 7 5 2 0.0689 - 0.999 # # 5 3 1 0 0.9728 0.999混合# # 6 1 0 1 0.3816 - 0.999

Vignette第6.6节讨论了识别区域内“最佳”窗口的方法。

最后，创造一个农庄总结合并的Windows和组合测试统计信息的对象。

最终< - 合并$ Region MCols（Final）< -  AS（TabCom，“DataFrame”）

2.4第7步：理解

2.4.1注解

作为结果如何纳入的示例

库（org.mm.eg.db）库（txdb.mmusculus.ucsc.mm10.knowngene）Anno < -  detailranges（final，txdb = txdb.mmusculus.cussc.mm10.knowngene，Orgdb = org.mm.eg.db，启动子= C（3000,1000），dist = 5000）mcols（最终）< -  cbind（mcols（final），dataframe（anno））

最差分表达区域的“顶桌”可以通过订购获得最终的由这件事PValue列，也许首先过滤以删除不重叠已知启动子的区域。

注释的<- final[nzchar(final$overlap)]注释的[order(annotated$PValue)]

## GRanges对象有279384个范围和9个元数据列:# # seqnames范围链| nWindows # # < Rle > < IRanges > < Rle > | <整数> # # [1]chr4(70373201、70373201)* | 37 # # [2]chr19(23357351、23357351)* | 15 # # [3]chr6(103649001、103649001)* | 10 # # [4]chrUn_JH584304 [51 70160] * | 1245 # # [5] chr9(3034201、3034201)* | 49  ## ... ... ... ... . ...## [279380] * bb0 4 ## [279381] chr5 [118141051, 118144410] * | 16 ## [279382] chr6 [108497701, 10850260] * | 17 ## [279383] chr8 [76776951, 76777110] * | 4 ## [279384] chr5 [123945901, 123950210] * | 27 ## logFC。logFC。PValue罗斯福方向# # <整数> <整数> <数字> <数字> <人物> # # [1]12 12 1.07 9.95 e-52 e-48下来# # [2]4 8 1.91 e-31 6.90 e-27 # # [3] 0 8 4.14 e-26 9.96 e-22 # # [4] 5 1179 1.13 2.53 e-25 e-21 49 # # [5] 0 2.43 4.77 e-24 e-20下来  ## ... ... ... ... ... ...# #[279380] 1 0 1 1混合# #[279381]4 0 1 1 # #[279382]混合0 5 1 1 # #[279383]混合0 0 1 1混合# #[279384]9 7 1 1混合左右# # # #重叠<人物> <人物> <人物> # # [1]Cdk5rap2 | 5 | - Cdk5rap2 | 4 | - [981] # # [2] Mamdc2 | 7 | - Mamdc2 | 8 | - [3904] Mamdc2 | 6 | - [4550] # # [3] Chl1 | 7 | + Chl1 | 6 | + [1672] # # [4] Pisd-ps3 |划分| - # # [5]Mir101c|0|- Mir101c|1|-[209] ## ... ... ... ...## [279380] Dsp|I|+ Dsp|2|+[785] Dsp|3-4|+[1056] ## [279381] Fbxw8| 58|+ Itpr1|57|+[3808] Itpr1|59|+[3617] ## [279383] Gm10649|I|- ## [279384] Ccdc62|6|+ Ccdc62|5|+[1596] Ccdc62|7-9|+[989 ## ------- ## seqinfo: 66个序列来自一个未指定的基因组

B4 - ChIP-seq

2017年5月8日 - 9日

内容