第1章欢迎

1.1介绍

测序(CHIP-SEQ)的染色质免疫沉淀是一种广泛使用的技术,用于识别靶蛋白的基因组结合位点。CHIP-SEQ数据的常规分析旨在根据读取覆盖率中的峰值检测绝对结合(即存在或不存在结合位点)。另一种分析策略是检测条件之间的结合曲线的变化(Ross-Innes等。2012;Pal等。2013。这些差异结合(DB)分析涉及将读取为基因组间隔,并测试这些条件之间的显着差异。这定义了一组推定的DB区域以进行进一步检查。在统计上,DB分析比其常规对应物更容易执行,因为当在同一基因组区域比较不同文库的计数时,基因组偏差的效果会大大减轻。DB区域也可能更相关,因为结合的变化可能与条件之间的生物学差异有关。

这本书描述了使用CSAW在滑动窗口的ChIP-Seq实验中检测差异结合(DB)的生物导体包装(Lun和Smyth2016。在这些分析中,我们在A中检测并总结了条件之间的DB区域从头方式,即,没有对边界区域的位置或宽度做出任何事先假设。我们证明了来自各种实际研究的数据,重点是转录因子结合和组蛋白标记富集的变化。我们的目的是通过提供详细的代码和预期输出来促进基于窗口的DB分析的实际实施。此处的代码可以适用于具有多个实验条件的任何数据集,并在一个或多个条件下具有多个生物样品;同样,它可以简单地适应批处理效应,协变量和其他实验因素。确实,尽管本书的重点是芯片序列,但可以将相同的软件适应来自任何测序技术的数据,其中读取代表了富含基因组区域的覆盖范围。

1.2如何读这本书

本书中的描述探讨了每个步骤背后的理论和实用动机CSAW分析。虽然欢迎所有用户从头到尾阅读它,但新用户可能更喜欢检查以后部分中介绍的案例研究(Lun和Smyth2015,以更简洁的格式提供重要信息。经验丰富的用户(或那些正在寻找夜间阅读的用户!)更有可能从本文档中的深入讨论中受益。

此处描述的所有工作流程从分类和索引的BAM文件开始chipseqdbdata包裹。要应用于用户指定的数据,必须事先将原始读取序列与适当的参考基因组对齐。大多数对齐器都可以用于此目的,但是我们已经使用了rsubread(Liao,Smyth和Shi2013由于其R界面的便利性。还建议使用诸如皮卡德在开始工作流程之前。

此处描述的统计方法是基于EDGER包裹(鲁滨逊,麦卡锡和史密斯2010年。的知识EDGER是有用的,但不是阅读本指南的前准则。

1.3如何获得帮助

大多数问题CSAW应该通过文档回答。本指南中提到的每个功能都有自己的帮助页面。例如,对参数和输出的详细描述WindowCounts()可以通过键入获得功能?窗口或者帮助(WindowCounts)在R提示下。有关方法或基础理论的更多详细信息可以在每个帮助页面底部的参考文献中找到。

软件包的作者始终感谢您在软件包功能或文档中收到错误的报告。对改进的精心建议也是如此。有关如何使用的其他问题CSAW最好发送到生物导体支持地点。请向支持网站发送一般帮助和建议的请求,而不是向个人作者发送请求。第一次发布到支持网站的用户可能会发现阅读发布指南

1.4如何引用这本书

大多数用户CSAW应在任何出版物中引用以下内容:

A. T. Lun和G. K. Smyth。CSAW:使用滑动窗口对CHIP-SEQ数据进行微分绑定分析的生物处理程序包。核酸res。,44(5):E45,2016年3月

为了特别引用工作流,我们可以使用:

A. T. L. Lun和G. K. Smyth。从读取到区域:一个生物导体工作流程,以检测芯片序列数据中的差异结合。F1000 Research,4,2015

适用于对合并感兴趣的人\(p \)- 值,他们在DB分析中的使用是:

A. T. Lun和G. K. Smyth。使用峰值和窗口对芯片序列数据进行差异结合区域的从头检测:正确控制错误率。核酸res。,42(11):E95,2014年7月

此处显示的DB分析使用了来自EDGER包装,有自己的引文建议。请参阅适当的部分EDGER用户指南以获取更多详细信息。

会话信息

R版本4.2.0 RC(2022-04-19 R82224)平台:X86_64-PC-LINUX-GNU(64位)下运行:Ubuntu 20.04.4 LTS矩阵产品:默认BLAS:/home/biocbuild/biocbuild/bbs-3.15-bioc/r/lib/librblas.so lapack:/home/biocbuild/bbs-3.15-bioc/r/lib/lib/librlapack.so locale:[1] lc_ctype = en_us.utf-8 lc_numeric = c [3] lc_time = c [3] lc_time = c [3]en_GB LC_COLLATE=C [5] LC_MONETARY=en_US.UTF-8 LC_MESSAGES=en_US.UTF-8 [7] LC_PAPER=en_US.UTF-8 LC_NAME=C [9] LC_ADDRESS=C LC_TELEPHONE=C [11] LC_MEASUREMENT=en_US.UTF-8 LC_INDENTICAICH = C附件基本软件包:[1] Stats4 Stats 4 Stats Graphics Grdevices UTILS数据集方法[8]基础其他附件:[1] EDGER_3.38.0 LIMMA_3.52.0 [3] CSAW_1.1.30.30.30.0。56。0 MatrixGenerics_1.8.0 [7] matrixStats_0.62.0 GenomicRanges_1.48.0 [9] GenomeInfoDb_1.32.0 IRanges_2.30.0 [11] S4Vectors_0.34.0 BiocGenerics_0.42.0 [13] chipseqDBData_1.11.0 BiocStyle_2.24.0 loaded via a namespace (and not attached): [1] bitops_1.0-7 bit64_4.0.5 [3] filelock_1.0.2 httr_1.4.2 [5] tools_4.2.0 bslib_0.3.1 [7] utf8_1.2.2 R6_2.5.1 [9] DBI_1.1.2 withr_2.5.0 [11] tidyselect_1.1.2 bit_4.0.4 [13] curl_4.3.2 compiler_4.2.0 [15] rebook_1.6.0 graph_1.74.0 [17] cli_3.3.0 DelayedArray_0.22.0 [19] bookdown_0.26 sass_0.4.1 [21] rappdirs_0.3.3 stringr_1.4.0 [23] digest_0.6.29 Rsamtools_2.12.0 [25] rmarkdown_2.14 XVector_0.36.0 [27] pkgconfig_2.0.3 htmltools_0.5.2 [29] dbplyr_2.1.1 fastmap_1.1.0 [31] rlang_1.0.2 RSQLite_2.2.12 [33] shiny_1.7.1 jquerylib_0.1.4 [35] generics_0.1.2 jsonlite_1.8.0 [37] BiocParallel_1.30.0 dplyr_1.0.8 [39] RCurl_1.98-1.6 magrittr_2.0.3 [41] GenomeInfoDbData_1.2.8 Matrix_1.4-1 [43] Rcpp_1.0.8.3 fansi_1.0.3 [45] lifecycle_1.0.1 stringi_1.7.6 [47] yaml_2.3.5 zlibbioc_1.42.0 [49] BiocFileCache_2.4.0 AnnotationHub_3.4.0 [51] grid_4.2.0 blob_1.2.3 [53] parallel_4.2.0 promises_1.2.0.1 [55] ExperimentHub_2.4.0 crayon_1.5.1 [57] lattice_0.20-45 dir.expiry_1.4.0 [59] splines_4.2.0 Biostrings_2.64.0 [61] KEGGREST_1.36.0 locfit_1.5-9.5 [63] CodeDepends_0.6.5 metapod_1.4.0 [65] knitr_1.38 pillar_1.7.0 [67] codetools_0.2-18 XML_3.99-0.9 [69] glue_1.6.2 BiocVersion_3.15.2 [71] evaluate_0.15 BiocManager_1.30.17 [73] png_0.1-7 vctrs_0.4.1 [75] httpuv_1.6.5 purrr_0.3.4 [77] assertthat_0.2.1 cachem_1.0.6 [79] xfun_0.30 mime_0.12 [81] xtable_1.8-4 later_1.3.0 [83] tibble_3.1.6 AnnotationDbi_1.58.0 [85] memoise_2.0.1 statmod_1.4.36 [87] ellipsis_0.3.2 interactiveDisplayBase_1.34.0

参考书目

Liao,Y.,G。K. Smyth和W. Shi。2013年。“亚线路对准器:通过种子和投票的快速,准确和可扩展的读映射。”核酸res。41(10):E108。

Lun,A。T. L.和G. K. Smyth。2015年。“从读取到区域:一种生物导体工作流程,以检测芯片序列数据中的差异结合。”F1000 Research4。

Lun,A.2016。“ CSAW:使用滑动窗口对CHIP-SEQ数据进行差异结合分析的生物处理程序包。”核酸res。44(5):E45。

Pal,B.,T。Bouras,W。Shi,F。Vaillant,J。M。Sheridan,N。Fu,K。Breslin等。2013年。“乳腺表观基因组的全球变化是由荷尔蒙提示引起的,并由EZH2协调。”细胞代表。3(2):411–26。

Robinson,M。D.,D。J. McCarthy和G. K. Smyth。2010年。“ EDGER:用于数字基因表达数据差异表达分析的生物导体套件。”生物信息学26(1):139–40。

Ross-Innes,C。S.,R。Stark,A。E. Teschendorff,K。A. Holmes,H。R. Ali,M。J. Dunning,G。D. Brown等。2012年。“雌激素受体结合差异与乳腺癌的临床结局有关。”自然481(7381):389–93。