特设练习

注释

使用包txdb.hsapiens.ucsc.hg19.knowngene.和BSgenome.Hsapiens.UCSC.hg19和职能推动者（）和getSeq ()检索所有启动子的DNA序列。修改论点推动者（）这意味着转录起始位点上游的5000个核苷酸。如果试图将其简化为每个基因的一个“启动子”，会带来什么挑战?

要求(BSgenome.Hsapiens.UCSC.hg19) p <- promoters(TxDb.Hsapiens.UCSC.hg19.knownGene) dna <- getSeq(BSgenome.Hsapiens.UCSC. hg19)hg19, p) dna

## nnstringset实例的长度为82960 ##宽度seq # [1] 2200ggcctgccagggtgcaagctgagcactggagtggagttt ## [2] 2200ggcctgccagggtgcaagctgagcactggagtggagttt ## [3] 2200ggcctgtgccagggtgcaagctgagcactggtggagtggagttt ## [4] 2200 ttaaggtctattctaaattgcacactttgattcaaaagaaaaac…TTCCTGCTAGCCAACCTCTCACTCATTGATCTGTCTCTGTC ## [5] 2200 ATTGTGAAGGATACATCTCAGAAACAGTCAATGAAAGAGACG…ctccaggctctgaactttcagtaagttcaggtagctggg# # ... ... ...## [82956] 2200 agagagggcaagagctcatggtttatggtgtaggggctggg…GGCTCTCCAGGTCCCCTGGAATGTTCAGCATGGGCCGAGGT ## [82957] 2200 GAGGGTAACTGGGTAAAGAGCTGCAGTGTGGGCAGAAGTGTA…ctgccccctggctgatgtactttcctgcaggaggacacggc# # [82958] 2200 cctgcctggttcaggaaagccctctctgtagccattatta…GAAGCACTACTGCTGGCCAGCAGGCTCATGCACCTTGGCCT ## [82959] 2200 ggactgccatgtcacctacggagtctggccctgacag…## [82960] 2200

标准文件格式的输入和表示

实验数据包rnaseqdata.hnrnpc.bam.chr14.包含涉及基因HNRNPC敲低的实验中的8个BAM文件。用org.hs.eg.db.和mapIds ()用该基因符号映射到Entrez ID，以及TxDb.Hsapiens.UCSC.hg19.knownGene基因()功能和vals =检测该基因基因组坐标的争论。用基因管理readGAlignemntsList ()输入一个BAM文件的HNRNPC基因的配对端读取。编写一个简短的函数来输入并计算单个BAM文件中与HNRNPC重叠的读取次数。用酸式焦磷酸钠()总结每个BAM文件中的读取次数。你能猜出，根据每个区域的读取，哪4个样本是控制和哪些是击倒?

## HNRNPC——> EntrezID——> exonsBy gene require(org.Hs.eg.db) require(TxDb.Hsapiens.UCSC.hg19.knownGene) egid <- mapIds(org.Hs.eg.db， " EntrezID "， "SYMBOL") egid

## HNRNPC #“3183”

hnrnpc <- genes(TxDb.Hsapiens.UCSC.hg19.knownGene,vals=list(gene_id= egrid)) hnrnpc

## GRANGES对象具有1个范围和1个元数据列：## SEQNAMES范围股票|gene_id ##    | ## 3183 CH11 [21677296,21737638]  -  |3183 ## ------- ## SEQINFO：来自HG19基因组的93序列（1个圆形）

##读取感兴趣的重叠区域require(RNAseqData.HNRNPC.bam.chr14) require(genome alignments) fls <- RNAseqData.HNRNPC.bamparam <- ScanBamParam(which=hnrnpc) readGAlignmentsList(fls[1]， param=param)

## GaliaNmentsList长度的对象长度2711：## [1]] ## Galignments对象具有2个对齐和0元数据列：## SEQNAMES Strand雪茄QWIDTH开始端宽NJunc ## [1] CHR14 + 72M 72 21702345 72 0## [2] CHR14  -  72M 72 21702313 21702384 72 0 ## ## [[2]] ## Galignments对象具有2对齐和0元数据列：## SEQNAMES Strand雪茄QWIDTH开始端宽NJUNC ## [1] CHR14+ 72M 72 21702261 21702332 72 0 ## [2] CHR14  -  33M29081N26M330N13M 72 21702350 21731838 29483 2 ## [3]] ## Galignments对象，具有2对齐和0元数据列：## SEQNAMES Strand STICH QWIDTH启动结束宽度Njunc ## [1] Chr14  -  72M 72 21737491 21737491 21737491 21737491 21737491 21737491 21737491 21737491 21737491 72 0 ## [2] CHR14 + 19M29081N26M596170 21737483 351142 2 21702370 21737483 35114 2 #### ... ## <2708更多元素> ## -------## SEQINFO：未指明基因组的93个序列

## count counter <- function(fl, param) length(readGAlignmentsList(fl, param=param)) counter(fls[1]， param)

# # 2711年[1]

酸式焦磷酸钠(fls的计数器,参数)

## ERR127306 ERR127308 ERR127309 ERR127302 ERR127303 ERR127304 ERR127304 ERR127305 ## 2711 3160 2947 2779 86 98 158 141 141

差异表达的统计分析 -`DESeq2`

的summarizeOverlaps ()功能是一个更复杂的（与上一级练习的简单功能相比）来计数读取重叠的感兴趣区域。使用它来计算重叠的读取感兴趣的HNRNPC区域。返回值是一个概括分析类，它使用计数来协调行和列信息。和我们的幼稚计数相比呢summarizeOverlaps ()吗?

se1 <- summarizeOverlaps(hnrnpc, fls, singleEnd=FALSE, ignore.strand=TRUE)分析(se1)

## ERR127306 ERR127307 ERR127308 ERR127309 ERR127302 ERR127303 ERR127304 ERR127305 ## 3183 2711 3160 2946 2779 86 98 158 141

用summarizeOverlaps ()计数是在chr14上重叠每个基因

exByGn < - exonsBy (TxDb.Hsapiens.UCSC.hg19。se2 <- summarizeOverlaps(exByGn, fls, singleEnd=FALSE, ignore.strand=TRUE)

运行气道示例，生成一个“火山图”，总结- 10log (p)和log褶皱变化之间的关系

图书馆（DESEQ2）图书馆（“Airway”）数据（呼吸道）Airway < -  Airway [Rowsums（Assay（Airway））！= 0，] DDS < -  DeseqDataset（Airway，Design =〜Cell + DEX）DDS < -  DESQ（DDS）

##估计尺寸因子##估计离散度##基因离散度估计##均值-离散关系##最终离散度估计##拟合模型和检验

RES < - 结果（DDS）绘图（-10 * log10（pvalue）〜log2foldchange，res）

结论

致谢

核心(西雅图):Sonali Arora、马克·卡尔森、内特·海登、吉姆·赫斯特、瓦莱丽·奥本森、Hervé Pagès、保罗·香农、丹·特南鲍姆。
本报告的研究得到了美国国家癌症研究所和美国国立卫生研究院国家人类基因组研究所的支持，奖励编号为U24CA180996和U41HG004059，以及美国国家科学基金会的支持，奖励编号为1247813。内容完全由作者负责，并不代表国家卫生研究院或国家科学基金会的官方观点。

BIOC 2015年度会议，西雅图，WA，7月20日至22日。

主要参考文献

Irizarry R等(2015)生物医学科学数据。课程笔记，EdX PH525.1x。
Huber W等(2015)配合高通量基因组分析生物体。自然方法12：115-121;doi: 10.1038 / nmeth.3252（注册免费的全文）。
Lawrence M，Huber W，Pag＆Egraves; S H，Aboyoun P，Carlson M等人。（2013）用于计算和注释基因组范围的软件。PLOS计算BIOL 9（8）：E1003118。DOI：10.1371 / journal.pcbi.1003118

sessionInfo ()

## R版本3.2.1修补（2015-06-19 R68553）##平台：X86_64-Unknown-Linux-GNU（64位）##正在运行：Ubuntu 14.04.2 LTS ## ## locale：##[1] lc_ctype = en_us.utf-8 lc_numeric = c lc_time = en_us.utf-8 ## [4] lc_collate = en_us.utf-8 lc_monetary = en_us.utf-8 lc_messages = en_us.utf-8 ## [7] lc_paper = en_us.utf-8 lc_name = c lc_address = c ## [10] lc_telephone = c lc_measurement = en_us.utf-8 lc_identified = c ## ##附加基本包：## [1] stats4并行统计图形grdevicesUtils数据集方法基础## ##其他附加包：## [1] DESEQ2_1.8.1 RCPPARMADILLO_0.5.200.1.0 ## [3] RCPP_0.11.6 AIRWAY_0.102.0 ## [5] Genomicalign_1.4.1 RSAMTOOLS_1.20.4 ## [7] rnaseqdata.hnrnpc.bam.chr14_0.6.0 org.hs.eg.db_3.2 ## [9] rsqlite_1.0.0 dbi_0.3.1 ## [11] bsgenome.hsapiens.ucsc.hg19_1.4.0 bsgenome_1.36.1 ##[13] rtracklayer_1.28.5 biostrings_2.36.1 ## [15] xvector_0.8.0 txdb.hsapiens.ucsc.hg19.knowngene_3.2 ## [17] GenomicFeatures_1.20.1 AnnotationDBI_1.30.1 ## [19] BioBase_2.28.0GenomicRanges_1.20.5 ## [21] GenomeInfoDb_1.4.1 IRanges_2.2.4 ## [23] S4Vectors_0.6.0 BiocGenerics_0.14.0 ## [25] BiocStyle_1.6.0 BiocInstaller_1.18.3 ## ##经由一个命名空间加载（和未附）：## [1] locfit_1.5-9.1 lattice_0.20-31 digest_0.6.8 plyr_1.8.3 ## [5] futile.options_1.0.0 Acepack_1.3-3.3 evaluate_0.7 ggplot2_1.0.1 ## [9] zlibbioc_1.14.0Annotate_1.46.0 Rpart_4.1-9 RmarkDown_0.7 ## [13] proto_0.3-10 vithings_3.2.1 biocparaller_1.2.5 geneplotter_1.46.0 ## [17] stringr_1.0.0 finess_0.8-63 rcurl_1.95-4.6 BioMart_2。24.0 ## [21] Munsell_0.4.2 htmltools_0.2.6 nnet_7.3-9 gridextra_0.9.1 ## [25] codeTools_0.2-11 hmisc_3.16-0 xml_3.98-1.2 mass_7.3-41 ## [29]Bitops_1.0-6 Grid_3.2.1 XTable_1.7-4 GTable_0.1.2 ## [33] Magrittr_1.5 FormatR_1.2 ScaleS_0.2.5 Stringi_0.5-2 ## [37] Reshape2_1.4.1 Genefilter_1.50.0 LatticeExtra_0.6-26 Fulile.logger_1.4.1 ## [41] formure_1.2-1 lambda.r_1.1.7 rcolorbrewer_1.1-2 tools_3.2.1 ## [45] Survival_2.38-2 Yaml_2.1.13 ColorePace_1.2-6 Cluster_2.0.2## [49] KNITR_1.10.5

生物体用于高通量序列分析

特设练习

注释

标准文件格式的输入和表示

差异表达的统计分析 -DESeq2

结论

差异表达的统计分析 -`DESeq2`