作者:马丁摩根(mtmorgan@fredhutch.org.)、索娜丽·阿罗拉(sarora@fredhutch.org
日期:2015年6月30日

特设练习

注释

使用包txdb.hsapiens.ucsc.hg19.knowngene.BSgenome.Hsapiens.UCSC.hg19和职能推动者()getSeq ()检索所有启动子的DNA序列。修改论点推动者()这意味着转录起始位点上游的5000个核苷酸。如果试图将其简化为每个基因的一个“启动子”,会带来什么挑战?

要求(BSgenome.Hsapiens.UCSC.hg19) p <- promoters(TxDb.Hsapiens.UCSC.hg19.knownGene) dna <- getSeq(BSgenome.Hsapiens.UCSC. hg19)hg19, p) dna
## nnstringset实例的长度为82960 ##宽度seq # [1] 2200ggcctgccagggtgcaagctgagcactggagtggagttt ## [2] 2200ggcctgccagggtgcaagctgagcactggagtggagttt ## [3] 2200ggcctgtgccagggtgcaagctgagcactggtggagtggagttt ## [4] 2200 ttaaggtctattctaaattgcacactttgattcaaaagaaaaac…TTCCTGCTAGCCAACCTCTCACTCATTGATCTGTCTCTGTC ## [5] 2200 ATTGTGAAGGATACATCTCAGAAACAGTCAATGAAAGAGACG…ctccaggctctgaactttcagtaagttcaggtagctggg# # ... ... ...## [82956] 2200 agagagggcaagagctcatggtttatggtgtaggggctggg…GGCTCTCCAGGTCCCCTGGAATGTTCAGCATGGGCCGAGGT ## [82957] 2200 GAGGGTAACTGGGTAAAGAGCTGCAGTGTGGGCAGAAGTGTA…ctgccccctggctgatgtactttcctgcaggaggacacggc# # [82958] 2200 cctgcctggttcaggaaagccctctctgtagccattatta…GAAGCACTACTGCTGGCCAGCAGGCTCATGCACCTTGGCCT ## [82959] 2200 ggactgccatgtcacctacggagtctggccctgacag…## [82960] 2200

标准文件格式的输入和表示

实验数据包rnaseqdata.hnrnpc.bam.chr14.包含涉及基因HNRNPC敲低的实验中的8个BAM文件。用org.hs.eg.db.mapIds ()用该基因符号映射到Entrez ID,以及TxDb.Hsapiens.UCSC.hg19.knownGene基因()功能和vals =检测该基因基因组坐标的争论。用基因管理readGAlignemntsList ()输入一个BAM文件的HNRNPC基因的配对端读取。编写一个简短的函数来输入并计算单个BAM文件中与HNRNPC重叠的读取次数。用酸式焦磷酸钠()总结每个BAM文件中的读取次数。你能猜出,根据每个区域的读取,哪4个样本是控制和哪些是击倒?

## HNRNPC——> EntrezID——> exonsBy gene require(org.Hs.eg.db) require(TxDb.Hsapiens.UCSC.hg19.knownGene) egid <- mapIds(org.Hs.eg.db, " EntrezID ", "SYMBOL") egid
## HNRNPC #“3183”
hnrnpc <- genes(TxDb.Hsapiens.UCSC.hg19.knownGene,vals=list(gene_id= egrid)) hnrnpc
## GRANGES对象具有1个范围和1个元数据列:## SEQNAMES范围股票|gene_id ##    | ## 3183 CH11 [21677296,21737638]  -  |3183 ## ------- ## SEQINFO:来自HG19基因组的93序列(1个圆形)
##读取感兴趣的重叠区域require(RNAseqData.HNRNPC.bam.chr14) require(genome alignments) fls <- RNAseqData.HNRNPC.bamparam <- ScanBamParam(which=hnrnpc) readGAlignmentsList(fls[1], param=param)
## GaliaNmentsList长度的对象长度2711:## [1]] ## Galignments对象具有2个对齐和0元数据列:## SEQNAMES Strand雪茄QWIDTH开始端宽NJunc ## [1] CHR14 + 72M 72 21702345 72 0## [2] CHR14  -  72M 72 21702313 21702384 72 0 ## ## [[2]] ## Galignments对象具有2对齐和0元数据列:## SEQNAMES Strand雪茄QWIDTH开始端宽NJUNC ## [1] CHR14+ 72M 72 21702261 21702332 72 0 ## [2] CHR14  -  33M29081N26M330N13M 72 21702350 21731838 29483 2 ## [3]] ## Galignments对象,具有2对齐和0元数据列:## SEQNAMES Strand STICH QWIDTH启动结束宽度Njunc ## [1] Chr14  -  72M 72 21737491 21737491 21737491 21737491 21737491 21737491 21737491 21737491 21737491 72 0 ## [2] CHR14 + 19M29081N26M596170 21737483 351142 2 21702370 21737483 35114 2 #### ... ## <2708更多元素> ## -------## SEQINFO:未指明基因组的93个序列
## count counter <- function(fl, param) length(readGAlignmentsList(fl, param=param)) counter(fls[1], param)
# # 2711年[1]
酸式焦磷酸钠(fls的计数器,参数)
## ERR127306 ERR127308 ERR127309 ERR127302 ERR127303 ERR127304 ERR127304 ERR127305 ## 2711 3160 2947 2779 86 98 158 141 141

差异表达的统计分析 -DESeq2

summarizeOverlaps ()功能是一个更复杂的(与上一级练习的简单功能相比)来计数读取重叠的感兴趣区域。使用它来计算重叠的读取感兴趣的HNRNPC区域。返回值是一个概括分析类,它使用计数来协调行和列信息。和我们的幼稚计数相比呢summarizeOverlaps ()吗?

se1 <- summarizeOverlaps(hnrnpc, fls, singleEnd=FALSE, ignore.strand=TRUE)分析(se1)
## ERR127306 ERR127307 ERR127308 ERR127309 ERR127302 ERR127303 ERR127304 ERR127305 ## 3183 2711 3160 2946 2779 86 98 158 141

summarizeOverlaps ()计数是在chr14上重叠每个基因

exByGn < - exonsBy (TxDb.Hsapiens.UCSC.hg19。se2 <- summarizeOverlaps(exByGn, fls, singleEnd=FALSE, ignore.strand=TRUE)

运行气道示例,生成一个“火山图”,总结- 10log (p)和log褶皱变化之间的关系

图书馆(DESEQ2)图书馆(“Airway”)数据(呼吸道)Airway < -  Airway [Rowsums(Assay(Airway))!= 0,] DDS < -  DeseqDataset(Airway,Design =〜Cell + DEX)DDS < -  DESQ(DDS)
##估计尺寸因子##估计离散度##基因离散度估计##均值-离散关系##最终离散度估计##拟合模型和检验
RES < - 结果(DDS)绘图(-10 * log10(pvalue)〜log2foldchange,res)

结论

致谢

BIOC 2015年度会议,西雅图,WA,7月20日至22日。

主要参考文献

sessionInfo ()
## R版本3.2.1修补(2015-06-19 R68553)##平台:X86_64-Unknown-Linux-GNU(64位)##正在运行:Ubuntu 14.04.2 LTS ## ## locale:##[1] lc_ctype = en_us.utf-8 lc_numeric = c lc_time = en_us.utf-8 ## [4] lc_collat​​e = en_us.utf-8 lc_monetary = en_us.utf-8 lc_messages = en_us.utf-8 ## [7] lc_paper = en_us.utf-8 lc_name = c lc_address = c ## [10] lc_telephone = c lc_measurement = en_us.utf-8 lc_identified = c ## ##附加基本包:## [1] stats4并行统计图形grdevicesUtils数据集方法基础## ##其他附加包:## [1] DESEQ2_1.8.1 RCPPARMADILLO_0.5.200.1.0 ## [3] RCPP_0.11.6 AIRWAY_0.102.0 ## [5] Genomicalign_1.4.1 RSAMTOOLS_1.20.4 ## [7] rnaseqdata.hnrnpc.bam.chr14_0.6.0 org.hs.eg.db_3.2 ## [9] rsqlite_1.0.0 dbi_0.3.1 ## [11] bsgenome.hsapiens.ucsc.hg19_1.4.0 bsgenome_1.36.1 ##[13] rtracklayer_1.28.5 biostrings_2.36.1 ## [15] xvector_0.8.0 txdb.hsapiens.ucsc.hg19.knowngene_3.2 ## [17] GenomicFeatures_1.20.1 AnnotationDBI_1.30.1 ## [19] BioBase_2.28.0GenomicRanges_1.20.5 ## [21] GenomeInfoDb_1.4.1 IRanges_2.2.4 ## [23] S4Vectors_0.6.0 BiocGenerics_0.14.0 ## [25] BiocStyle_1.6.0 BiocInstaller_1.18.3 ## ##经由一个命名空间加载(和未附):## [1] locfit_1.5-9.1 lattice_0.20-31 digest_0.6.8 plyr_1.8.3 ## [5] futile.options_1.0.0 Acepack_1.3-3.3 evaluate_0.7 ggplot2_1.0.1 ## [9] zlibbioc_1.14.0Annotate_1.46.0 Rpart_4.1-9 RmarkDown_0.7 ## [13] proto_0.3-10 vithings_3.2.1 biocparaller_1.2.5 geneplotter_1.46.0 ## [17] stringr_1.0.0 finess_0.8-63 rcurl_1.95-4.6 BioMart_2。24.0 ## [21] Munsell_0.4.2 htmltools_0.2.6 nnet_7.3-9 gridextra_0.9.1 ## [25] codeTools_0.2-11 hmisc_3.16-0 xml_3.98-1.2 mass_7.3-41 ## [29]Bitops_1.0-6 Grid_3.2.1 XTable_1.7-4 GTable_0.1.2 ## [33] Magrittr_1.5 FormatR_1.2 ScaleS_0.2.5 Stringi_0.5-2 ## [37] Reshape2_1.4.1 Genefilter_1.50.0 LatticeExtra_0.6-26 Fulile.logger_1.4.1 ## [41] formure_1.2-1 lambda.r_1.1.7 rcolorbrewer_1.1-2 tools_3.2.1 ## [45] Survival_2.38-2 Yaml_2.1.13 ColorePace_1.2-6 Cluster_2.0.2## [49] KNITR_1.10.5