单一样本
设计实验
ID | 模式 | 图书馆 | 手术 |
---|---|---|---|
1 | 单样本 | 个人 | 联盟 |
2 | 单样本 | 个人 | 路口 |
3. | 单样本 | 个人 | 至少2 |
4 | 单样本 | 汇集在一起 | 联盟 |
5 | 单样本 | 汇集在一起 | 路口 |
6 | 两个示例 | 汇集在一起 | 联盟 |
7 | 单样本 | 汇集了所有 | - |
如何选择?- LUN&SMYTH,
ID | 错误率 | ||
---|---|---|---|
0.01 | 0.05 | 0.1 | |
类风湿性关节炎 | 0.010(0.000) | 0.051(0.001) | 0.100(0.002) |
1 | 0.002(0.000) | 0.019(0.001) | 0.053(0.001) |
2 | 0.003 (0.000) | 0.030 (0.000) | 0.073 (0.001) |
3. | 0.006 (0.000) | 0.042(0.001) | 0.092(0.001) |
4 | 0.033(0.001) | 0.145(0.001) | 0.261(0.002) |
5 | 0.000(0.000) | 0.001(0.000) | 0.005 (0.000) |
6 | 0.088(0.006) | 0.528(0.013) | 0.893(0.006) |
7 | 0.010(0.000) | 0.049 (0.001) | 0.098(0.001) |
## 10万个t检验在null下,n = 6 n <- 6;m <- matrix(rnorm(n * 100000), ncol=n) P <- genfilter::rowttests(m, factor(rep(1:2, each=3)))$ P。值分位数(P c(。001 . 01 . 05))
## 0.1%1%5%## 0.000954 0.010309 0.049512
嘘(P,减免= 20)
这项运动基于csawVignette,可以找到更详细的详细信息。
该实验涉及胚胎干细胞和末端神经元之间NFYA蛋白结合谱的改变。它是Tiwari等人提供的数据的子集。2012年可用作GSE25532。有两种ES(胚胎干细胞)和两种TN(末端神经元)重复。单端FASTQ文件从GEO中提取,使用rsubread.,并处理后(分类和索引)使用Rsamtools使用脚本可用
文件。path("ChIPSeq", "NFYA", "scripts", "preprocess.R")
创建一个汇总所用文件的数据帧。
ACC < - C(ES_1 =“SRR074398”,ES_2 =“SRR074399”,TN_1 =“SRR074417”,TN_2 =“SRR074418”)文件< - data.frame(处理=子(“_。*”,“,”姓名“,名称(ACC)),复制=子(“。* _”,“”,名称(ACC)),SRA = SPRINTF(“%S.SRA”,ACC),FASTQ = SPRINTF(“%s.fastq.gz”,ACC),BAM = SPRINTF(“%s.fastq.gz.subread.bam”,ACC),Row.names = ACC,StringSasFactors = False)
更改为BAM文件所在的目录
setwd(“ChIPSeq / NFYA / bam”)
加载CSAW库并计数在重叠窗口中读取。这回归A.SummarizedExperiment
,所以稍微探索一下……
图书馆(csaw)图书馆(GenomicRanges)碎片弹。Len <- 110系统。time({data <- windowCounts(files$bam, width=10, ext= fraga .len)}) # 156 seconds acc <- sub(".fastq. txt ")cbind(files[acc,], colData(data))
有关减少步骤的进一步讨论,请参阅第2章csaw装饰图案。
过滤(Vignette第3章)首先过滤低计数窗口。这些可能有很多(有多少?)。有没有合理的方式来选择过滤阈值?
library(edgeR) # for aveLogCPM() keep <- aveLogCPM(assay(data)) >= -1 data <- data[keep,]
标准化(组成偏差)(Vignette第4章)CSAW在归一化中使用Binned Counts。箱相对于芯片峰值很大,假设箱主要代表非差分限制区域。使用该样本箱数量归一化edger.RNASeq差异表达实验室采用的TMM (M值的裁剪中值)方法。关于规范化的更多信息请参见第4章(在为其他协议开发规范化方法时,这是一个有用的资源!)
system.time({binned < - windowcounts(文件$ bam,bin = true,widey = 10000)})#139 realfacs < - normalize(binned)
实验设计和差动绑定(插图第5章)差异装订将评估使用edger.,我们需要详细说明实验设计
< -设计模型。矩阵(~治疗,colData(数据)
申请标准edger.工作流程以识别差异绑定的区域。创造性地探索结果。
y <- estimateDisp(y, design) fit <- glmQLFit(y, design, robust=TRUE) results <- glmQLFTest(fit, contrast=c(0,1)) head(results$table)
## logFC F PValue ## 1 -2.38 0.39466 0.52986 ## 2 1.052 -2.39 0.41573 0.51907 ## 3 0.118 -2.16 0.00698 0.93341 ## 4 -0.847 -1.79 0.50517 0.47724 ## 5 -5.885 -2.15 7.98493 0.00472 ## 6 -5.629 -2.31 6.58683 0.01027
多个测试(Vignette第6章)挑战是所有检测到的差分绑定的FDR地区是人们对此感兴趣的,但是立即可用的是跨越差异绑定的FDR视窗;区域通常由多个重叠的窗口组成。作为第一步,我们将采用一种“快速而肮脏”的方法,通过合并“高丰度”窗口来识别区域,例如,彼此之间有1kb
合并< - mergewindows(Rowranges(数据),tol = 1000L)
将测试结果与地区内的窗口相结合。在Vignette的6.5节中探讨了几项策略。
tabcom < - combinetss(合并$ ID,结果$表)头(TABCOM)
# # nWindows logFC。logFC。PValue罗斯福方向# # 1 2 2 0 0.5299 0.999 0.0106 - 0.999 # # 2 6 0 5到10 # # 3 1 5 0.7301 - 0.999 # # 4 7 5 2 0.0689 - 0.999 # # 5 3 1 0 0.9728 0.999混合# # 6 1 0 1 0.3816 - 0.999
Vignette第6.6节讨论了识别区域内“最佳”窗口的方法。
最后,创造一个农庄
总结合并的Windows和组合测试统计信息的对象。
最终< - 合并$ Region MCols(Final)< - AS(TabCom,“DataFrame”)
作为结果如何纳入的示例
库(org.mm.eg.db)库(txdb.mmusculus.ucsc.mm10.knowngene)Anno < - detailranges(final,txdb = txdb.mmusculus.cussc.mm10.knowngene,Orgdb = org.mm.eg.db,启动子= C(3000,1000),dist = 5000)mcols(最终)< - cbind(mcols(final),dataframe(anno))
最差分表达区域的“顶桌”可以通过订购获得最终的
由这件事PValue
列,也许首先过滤以删除不重叠已知启动子的区域。
注释的<- final[nzchar(final$overlap)]注释的[order(annotated$PValue)]
## GRanges对象有279384个范围和9个元数据列:# # seqnames范围链| nWindows # # < Rle > < IRanges > < Rle > | <整数> # # [1]chr4(70373201、70373201)* | 37 # # [2]chr19(23357351、23357351)* | 15 # # [3]chr6(103649001、103649001)* | 10 # # [4]chrUn_JH584304 [51 70160] * | 1245 # # [5] chr9(3034201、3034201)* | 49 ## ... ... ... ... . ...## [279380] * bb0 4 ## [279381] chr5 [118141051, 118144410] * | 16 ## [279382] chr6 [108497701, 10850260] * | 17 ## [279383] chr8 [76776951, 76777110] * | 4 ## [279384] chr5 [123945901, 123950210] * | 27 ## logFC。logFC。PValue罗斯福方向# # <整数> <整数> <数字> <数字> <人物> # # [1]12 12 1.07 9.95 e-52 e-48下来# # [2]4 8 1.91 e-31 6.90 e-27 # # [3] 0 8 4.14 e-26 9.96 e-22 # # [4] 5 1179 1.13 2.53 e-25 e-21 49 # # [5] 0 2.43 4.77 e-24 e-20下来 ## ... ... ... ... ... ...# #[279380] 1 0 1 1混合# #[279381]4 0 1 1 # #[279382]混合0 5 1 1 # #[279383]混合0 0 1 1混合# #[279384]9 7 1 1混合左右# # # #重叠<人物> <人物> <人物> # # [1]Cdk5rap2 | 5 | - Cdk5rap2 | 4 | - [981] # # [2] Mamdc2 | 7 | - Mamdc2 | 8 | - [3904] Mamdc2 | 6 | - [4550] # # [3] Chl1 | 7 | + Chl1 | 6 | + [1672] # # [4] Pisd-ps3 |划分| - # # [5]Mir101c|0|- Mir101c|1|-[209] ## ... ... ... ...## [279380] Dsp|I|+ Dsp|2|+[785] Dsp|3-4|+[1056] ## [279381] Fbxw8| 58|+ Itpr1|57|+[3808] Itpr1|59|+[3617] ## [279383] Gm10649|I|- ## [279384] Ccdc62|6|+ Ccdc62|5|+[1596] Ccdc62|7-9|+[989 ## ------- ## seqinfo: 66个序列来自一个未指定的基因组