内容

1动机和工作流程

1.1芯片SEQ.

芯片SEQ概述

芯片SEQ概述

  • 标签与测序读数;3'方向的单端读取扩展
  • 股线移位/交叉相关
  • 定义峰(狭窄的,如转录因子结合位点)相对于弥漫性峰(如组蛋白标记)

1.1.1芯片SEQ用于差动绑定

  • 设计实验,每次治疗重复样品
  • 微阵列/ rna序列分析

1.1.2新颖的统计问题

  • 推断没有“数据窥探”的峰值(使用相同的数据两次,一次推断峰值,一次估计差分绑定)
  • 保留权力
  • 最小化虚假发现率

1.2工作流程

1.2.1实验设计与执行

  • 单一样本

    • 芯片转录因子和
    • 输入(碎片的基因组DNA)或对照(例如,具有非特异性抗体如免疫球蛋白G,IgG)的IP
  • 设计实验

    • TF / Control对的复制

1.2.2测序和对准

  • 拇指测序深度规则:\(> 10m \)阅读为狭窄的山峰,\(> 20m \)对于广阔的山峰
  • 长期和配对的末端有用但不是必要的 - 在暧昧地区的对齐
  • 基本对准器一般是适当的,例如,不需要对准拼接接头
  • Sims等人,2014年

1.2.3峰值呼叫

  • 大量的峰值调用程序;有些专门用于窄峰和宽峰。
  • 少数用:马克斯、PeakSeq、CisGenome、…
  • 基于模型的ChIP-Seq分析,Liu等,2008年

    • 缩放控制标签计数以匹配芯片数量
    • 通过移位中心峰值\(d / 2 \)
    • 将标签的出现建模为泊松过程
    • 寻找固定宽度滑动窗口,具有富有的标签富集数量
    • 经验FDR:交换芯片和控制样品;FDR是#控制峰/#芯片峰值
    • 输出:被称为峰值的床档

1.2.4加分析

  • 注释:我的山峰附近是什么基因?
  • 差分表示:与治疗2相比,治疗1中的峰值过度或代表哪些峰值?
  • 图案识别(在已知的主题上的峰值?)和发现
  • 一体化分析,例如,复杂监管要素和表达

1.3峰值呼叫

1.3.1.'已知'范围

  • 计数预定义范围内的标签,例如已知基因的启动子区域
  • 明显的限制,例如,监管要素不在指定范围内;指定的范围包含具有互补行为的多个监管元素

1.3.2新创视窗

  • 宽度:窄峰,1bp;广阔的山峰,150bp
  • 偏移量:25 - 100 bp;影响的计算负担

1.3.3.新创峰值呼叫

  • 第三方软件(许多可用;马克斯常用)
  • 呼叫峰值的各种策略 - LUN&SMYTH,表1

    • 独立拨打每个样本;样品中的峰值或峰的联盟,......
    • 从池库呼叫峰值
  • 相关幻灯片PDF.

1.4跨库的峰值调用

  • 表1:峰值呼叫策略的描述。每个策略都被赋予标识符,并且由运行MAC的模式,运行它的图书馆以及在库或组之间组合峰值的合并操作(如果有的话)。对于方法6,采用富集的每个方向上的峰的结合。
ID 模式 图书馆 手术
1 单样本 个人 联盟
2 单样本 个人 路口
3. 单样本 个人 至少2
4 单样本 汇集在一起 联盟
5 单样本 汇集在一起 路口
6 两个示例 汇集在一起 联盟
7 单样本 汇集了所有 -
  • 如何选择?- LUN&SMYTH,

    • 在零假设下,I型错误率是均匀的
    • 表2.:I型错误的后果
    • 最佳策略:从池库呼叫峰值
    • 表2.:使用来自每个峰值呼叫策略的计数,观察到的I型错误率。显示了一系列指定错误阈值的错误率。所有值表示具有括号中所示的标准误差的10个模拟迭代的平均值。RA:参考分析使用10 000随机选择真正的峰值。
ID 错误率
0.01 0.05 0.1
类风湿性关节炎 0.010(0.000) 0.051(0.001) 0.100(0.002)
1 0.002(0.000) 0.019(0.001) 0.053(0.001)
2 0.003 (0.000) 0.030 (0.000) 0.073 (0.001)
3. 0.006 (0.000) 0.042(0.001) 0.092(0.001)
4 0.033(0.001) 0.145(0.001) 0.261(0.002)
5 0.000(0.000) 0.001(0.000) 0.005 (0.000)
6 0.088(0.006) 0.528(0.013) 0.893(0.006)
7 0.010(0.000) 0.049 (0.001) 0.098(0.001)
## 10万个t检验在null下,n = 6 n <- 6;m <- matrix(rnorm(n * 100000), ncol=n) P <- genfilter::rowttests(m, factor(rep(1:2, each=3)))$ P。值分位数(P c(。001 . 01 . 05))
## 0.1%1%5%## 0.000954 0.010309 0.049512
嘘(P,减免= 20)

1.4.1新创混合策略

2实用:差异绑定(csaw)

这项运动基于csawVignette,可以找到更详细的详细信息。

2.1步骤1 - 4:实验设计......对齐

该实验涉及胚胎干细胞和末端神经元之间NFYA蛋白结合谱的改变。它是Tiwari等人提供的数据的子集。2012年可用作GSE25532。有两种ES(胚胎干细胞)和两种TN(末端神经元)重复。单端FASTQ文件从GEO中提取,使用rsubread.,并处理后(分类和索引)使用Rsamtools使用脚本可用

文件。path("ChIPSeq", "NFYA", "scripts", "preprocess.R")

创建一个汇总所用文件的数据帧。

ACC < -  C(ES_1 =“SRR074398”,ES_2 =“SRR074399”,TN_1 =“SRR074417”,TN_2 =“SRR074418”)文件< -  data.frame(处理=子(“_。*”,“,”姓名“,名称(ACC)),复制=子(“。* _”,“”,名称(ACC)),SRA = SPRINTF(“%S.SRA”,ACC),FASTQ = SPRINTF(“%s.fastq.gz”,ACC),BAM = SPRINTF(“%s.fastq.gz.subread.bam”,ACC),Row.names = ACC,StringSasFactors = False)

2.2第五步:减少

更改为BAM文件所在的目录

setwd(“ChIPSeq / NFYA / bam”)

加载CSAW库并计数在重叠窗口中读取。这回归A.SummarizedExperiment,所以稍微探索一下……

图书馆(csaw)图书馆(GenomicRanges)碎片弹。Len <- 110系统。time({data <- windowCounts(files$bam, width=10, ext= fraga .len)}) # 156 seconds acc <- sub(".fastq. txt ")cbind(files[acc,], colData(data))

有关减少步骤的进一步讨论,请参阅第2章csaw装饰图案

2.3第六步:分析

过滤(Vignette第3章)首先过滤低计数窗口。这些可能有很多(有多少?)。有没有合理的方式来选择过滤阈值?

library(edgeR) # for aveLogCPM() keep <- aveLogCPM(assay(data)) >= -1 data <- data[keep,]

标准化(组成偏差)(Vignette第4章)CSAW在归一化中使用Binned Counts。箱相对于芯片峰值很大,假设箱主要代表非差分限制区域。使用该样本箱数量归一化edger.RNASeq差异表达实验室采用的TMM (M值的裁剪中值)方法。关于规范化的更多信息请参见第4章(在为其他协议开发规范化方法时,这是一个有用的资源!)

system.time({binned < -  windowcounts(文件$ bam,bin = true,widey = 10000)})#139 realfacs < -  normalize(binned)

实验设计和差动绑定(插图第5章)差异装订将评估使用edger.,我们需要详细说明实验设计

< -设计模型。矩阵(~治疗,colData(数据)

申请标准edger.工作流程以识别差异绑定的区域。创造性地探索结果。

y <- estimateDisp(y, design) fit <- glmQLFit(y, design, robust=TRUE) results <- glmQLFTest(fit, contrast=c(0,1)) head(results$table)
## logFC F PValue ## 1 -2.38 0.39466 0.52986 ## 2 1.052 -2.39 0.41573 0.51907 ## 3 0.118 -2.16 0.00698 0.93341 ## 4 -0.847 -1.79 0.50517 0.47724 ## 5 -5.885 -2.15 7.98493 0.00472 ## 6 -5.629 -2.31 6.58683 0.01027

多个测试(Vignette第6章)挑战是所有检测到的差分绑定的FDR地区是人们对此感兴趣的,但是立即可用的是跨越差异绑定的FDR视窗;区域通常由多个重叠的窗口组成。作为第一步,我们将采用一种“快速而肮脏”的方法,通过合并“高丰度”窗口来识别区域,例如,彼此之间有1kb

合并< -  mergewindows(Rowranges(数据),tol = 1000L)

将测试结果与地区内的窗口相结合。在Vignette的6.5节中探讨了几项策略。

tabcom < -  combinetss(合并$ ID,结果$表)头(TABCOM)
# # nWindows logFC。logFC。PValue罗斯福方向# # 1 2 2 0 0.5299 0.999 0.0106 - 0.999 # # 2 6 0 5到10 # # 3 1 5 0.7301 - 0.999 # # 4 7 5 2 0.0689 - 0.999 # # 5 3 1 0 0.9728 0.999混合# # 6 1 0 1 0.3816 - 0.999

Vignette第6.6节讨论了识别区域内“最佳”窗口的方法。

最后,创造一个农庄总结合并的Windows和组合测试统计信息的对象。

最终< - 合并$ Region MCols(Final)< -  AS(TabCom,“DataFrame”)

2.4第7步:理解

2.4.1注解

作为结果如何纳入的示例

库(org.mm.eg.db)库(txdb.mmusculus.ucsc.mm10.knowngene)Anno < -  detailranges(final,txdb = txdb.mmusculus.cussc.mm10.knowngene,Orgdb = org.mm.eg.db,启动子= C(3000,1000),dist = 5000)mcols(最终)< -  cbind(mcols(final),dataframe(anno))

最差分表达区域的“顶桌”可以通过订购获得最终的由这件事PValue列,也许首先过滤以删除不重叠已知启动子的区域。

注释的<- final[nzchar(final$overlap)]注释的[order(annotated$PValue)]
## GRanges对象有279384个范围和9个元数据列:# # seqnames范围链| nWindows # # < Rle > < IRanges > < Rle > | <整数> # # [1]chr4(70373201、70373201)* | 37 # # [2]chr19(23357351、23357351)* | 15 # # [3]chr6(103649001、103649001)* | 10 # # [4]chrUn_JH584304 [51 70160] * | 1245 # # [5] chr9(3034201、3034201)* | 49  ## ... ... ... ... . ...## [279380] * bb0 4 ## [279381] chr5 [118141051, 118144410] * | 16 ## [279382] chr6 [108497701, 10850260] * | 17 ## [279383] chr8 [76776951, 76777110] * | 4 ## [279384] chr5 [123945901, 123950210] * | 27 ## logFC。logFC。PValue罗斯福方向# # <整数> <整数> <数字> <数字> <人物> # # [1]12 12 1.07 9.95 e-52 e-48下来# # [2]4 8 1.91 e-31 6.90 e-27 # # [3] 0 8 4.14 e-26 9.96 e-22 # # [4] 5 1179 1.13 2.53 e-25 e-21 49 # # [5] 0 2.43 4.77 e-24 e-20下来  ## ... ... ... ... ... ...# #[279380] 1 0 1 1混合# #[279381]4 0 1 1 # #[279382]混合0 5 1 1 # #[279383]混合0 0 1 1混合# #[279384]9 7 1 1混合左右# # # #重叠<人物> <人物> <人物> # # [1]Cdk5rap2 | 5 | - Cdk5rap2 | 4 | - [981] # # [2] Mamdc2 | 7 | - Mamdc2 | 8 | - [3904] Mamdc2 | 6 | - [4550] # # [3] Chl1 | 7 | + Chl1 | 6 | + [1672] # # [4] Pisd-ps3 |划分| - # # [5]Mir101c|0|- Mir101c|1|-[209] ## ... ... ... ...## [279380] Dsp|I|+ Dsp|2|+[785] Dsp|3-4|+[1056] ## [279381] Fbxw8| 58|+ Itpr1|57|+[3808] Itpr1|59|+[3617] ## [279383] Gm10649|I|- ## [279384] Ccdc62|6|+ Ccdc62|5|+[1596] Ccdc62|7-9|+[989 ## ------- ## seqinfo: 66个序列来自一个未指定的基因组