本课程中的材料需要R版本3.2和Biocumon V9.2
stopifnot(getRversion()> ='3.2'&& getRversion()<'3.3',biocinstaller :: biocversion()==“3.2”)
身体上
概念上
数据量
研究问题
技术术语
概括分析
底层数据是矩阵
测定()
- 例如,读数重叠基因的矩阵包括有关行的信息
rowranges()
- 基因标识符,或基因组范围描述每个基因的坐标包括有关列的信息
Coldata()
- 描述样品,实验设计,......图书馆(Airway)#“实验Data”包......数据(Airway)#...使用样品数据集... Airway#......这是一个概括的经验
##类:范围:Dim:64102 8 ##元数据(1):''##测定(1):计数## Rownames(64102):ENSG000000005 ... LRG_98 LRG_99 ## ROWRANGES元数据列名称(0):## Colnames(8):SRR1039508 SRR1039509 ... SRR1039520 SRR1039521 ## GOLDATA名称(9):SAMPLENAME CELL ...样品生物素
头(测定(气道))#包含矩阵
## SRR1039508 SRR1039509 SRR1039512 SRR1039513 SRR1039516 SRR1039517 SRR1039520 ## ENSG00000000003 679 448 873 408 1138 1047 770 ## ENSG00000000005 0 0 0 0 0 0 0 ## 467 ENSG00000000419 515 621 365 587 799 417 ## 260 ENSG00000000457 211 263 164 245 331 233##ENSG00000000460 60 55 40 35 78 63 76 ## ENSG00000000938 0 0 2 0 1 0 0 ## ## SRR1039521 572 ENSG00000000003 ## ENSG00000000005 0 ## ENSG00000000419 508 ## 229 ENSG00000000457 ## ENSG00000000460 60 ## ENSG00000000938 0
头(Rowranges(Airway))#关于基因的信息......
## GrangesList长度的对象6:## $ ensg00000000003 ## Granges对象具有17个范围和2个元数据列:## SEQNAMES范围股票|EXON_ID EXON_NAME ## |<整数> ## [1] x [99883667,99884983] - |667145 ENSE001459322 ## [2] X [99885756,99885863] - |667146 ENSE00000868868 ## [3] X [99887482,99887565] - |667147 ENSE00000401072 ## [4] X [99887538,99887565] - |667148 ENSE00001849132 ## [5] x [99888402,99888536] - |667149 ENSE00003554016 ## ... ... ... ... ## [13] x [99890555,99890743] - |667156 ENSE00003512331 ## [14] X [99891188,99891686] - |667158 ENSE00001886883 ## [15] x [99891605,99891803] - | 667159 ENSE00001855382 ## [16] X [99891790, 99892101] - | 667160 ENSE00001863395 ## [17] X [99894942, 99894988] - | 667161 ENSE00001828996 ## ## ... ## <5 more elements> ## ------- ## seqinfo: 722 sequences (1 circular) from an unspecified genome
冷酷(呼吸道)[,1:3]#...和样品
## DataFrame带8行和3列## Samplename Cell Dex ###SRR1039516 GSM1275870 N080611 UNTRT ## SRR1039517 GSM1275871 N080611 TRT ## SRR1039520 GSM1275874 N061011 UNTRT ## SRR1039521 GSM1275875 N061011 TRT
##协调子集UNTRT < - AIRWAY [,AIRWAY $ DEX =='UNTRT']头(测定(UNTTT))
## ESG00000000C460 60/4206/2020 6/2212/2212/20206/02206/02/78
Coldata(UNTTT)[,1:3]
## DataFrame带有4行和3列## Samplename Cell DEX ##
可视化
包之间的可互操作性
例子(详细信息稍后)
概括分析
dnastringset.
Genomicranges.
湿式实验室制备
高吞吐量排序
输出:READS的FASTQ文件及其质量分数
@ ERR127302.1703 HWI-EAS350_0441:1:1:1460:19184#0/1 + CCTGAGTGAAGCTGATCTTGATCTACGAAGAGAGATAGATCTTGATCGTCGAGGAGATGCTGACCTTGACCT HHGHHGHHHHHHHHDGG > CE = 896 =:?@ ERR127302.1704 HWI-EAS350_0441:1:1:1460:16861#0/1 GcggtatgtgGaaggtgctcgaatggagaggcgccgcgcccggcagcgccgcgccctcaggtccgccccagccctcaggtccgccc + de?dd> ed4> eee> de8eeede8b?eb <@ 3; ba79?,881b?@ 73; 1?#######################
输出:对齐读取的BAM文件
ERR127306.7941162 403 CHR14 19653689 3 72M = 19652348 -1413 ... ERR127306.22648137 145 CHR14 19653692 1 72M = 19650044 -3720 ... GAATTGATCAGTCTCATCTGAGAGTAACTTTGTACCCATCACTGATTCTTTCTGAGACTGCCTCCCC *'%%%%#&&%''#'&%%%)&& %% $ %%'%%'&***** $))$)'')'%)))%%%% $'%%%%%%%%%%%%%%%%%%)%)) ... TTGATCAGTCTCATCTGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCCCAG '**)****)*'*&*********('&)****&***(**')))())%)))&)))*')&***********)**** ... AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:72 YT:Z:UU NH:i:2 CC:Z:chr22 CP:i:16189276 HI:i:0 ... AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:72 YT:Z:UU NH:i:3 CC:Z:= CP:i:19921600 HI:i:0
统计分析
理解
稍后更多细节!
示例:'Airway'数据集在后来的实验室中使用
脚步
具有两个水平的一种实验因素:对照,并用地塞米松治疗
图书馆(Airway)#“实验Data”包......数据(Airway)#...使用样品数据集... CONGATA(AIRWAY)[,1:3]#...代表概要
## DataFrame带8行和3列## Samplename Cell Dex ###SRR1039516 GSM1275870 N080611 UNTRT ## SRR1039517 GSM1275871 N080611 TRT ## SRR1039520 GSM1275874 N061011 UNTRT ## SRR1039521 GSM1275875 N061011 TRT
湿式实验室制备
高吞吐量排序
Genomicranges :: SummarizeOverlaps()
输出:矩阵数数读取重叠的兴趣区域。每行都是基因。每列都是样本。
头(测定(气道))
## SRR1039508 SRR1039509 SRR1039512 SRR1039513 SRR1039516 SRR1039517 SRR1039520 ## ENSG00000000003 679 448 873 408 1138 1047 770 ## ENSG00000000005 0 0 0 0 0 0 0 ## 467 ENSG00000000419 515 621 365 587 799 417 ## 260 ENSG00000000457 211 263 164 245 331 233##ENSG00000000460 60 55 40 35 78 63 76 ## ENSG00000000938 0 0 2 0 1 0 0 ## ## SRR1039521 572 ENSG00000000003 ## ENSG00000000005 0 ## ENSG00000000419 508 ## 229 ENSG00000000457 ## ENSG00000000460 60 ## ENSG00000000938 0
输出:最佳桌子差异表达基因。对于每个基因:描述发生变化的变化有多大的“日志折叠变化”,以及总结变革统计证据的测试统计(例如,调整后的P值)
图书馆(DESQ2)#包装实施统计方法DDS < - #数据和实验设计DESEQDATASET(AIRWAY,DESIGN =〜CELL + DEX)DDS < - DESQ(DDS)#初始分析
##估计大小因素##估计分散估计##意味着分散关系##最终分散估计##拟合模型和测试
RES < - 结果(DDS)#摘要结果RIDX < - #订单从最大到最小的绝对日志折叠变更顺序(ABS(RES $ LOG2FOLDCHANGE),减少= TRUE)RES < - REA [RIDX,]头部(RES)#TOP-桌子
## log2折叠更改(地图):DEX UNTRT VS TRT ## WALD TEST P值:DEX UNTRT与TRT ##具有6行和6列的DataFrame ## BaseMean Log2foldchange LFCSE STAT PACJ ## <数字> <数字> <数字> <数值> ## ENSG00000179593 67.24305 -4.884729 0.3312024 -14.74847 3.147170e-49 1.031585e-46 ## ENSG00000109906 385.07103 -4.865899 0.3324555 -14.63624 1.649293e-48 5.126459e-46 ## ENSG00000152583 997.43977-4.316100 0.1724125 -25.03357 2.636198e-138 4.752538e-134 ## ENSG00000250978 56.31819 -4.093661 0.3291518 -12.43700 1.645709e-35 2.798948e-33 ## ENSG00000163884 561.10717 -4.079127 0.2103817 -19.38917 9.525449e-84 1.073280e-80 ## ENSG00000168309159.52692 -3.992793 0.2549089 -15.66361 2.682234E-55 1.239880E-52
可视化
库(GGPLOT2)GGPLOT(AS.DATA.FRAME(RES),AES(x = log2foldchange,y = -10 * log10(pvalue)))+ geom_point()
##警告:删除了包含缺失值(GeoM_Point)的30633行。
从Enembl基因标识符到基因符号,途径,...
库(org.hs.eg.db)Ensid < - head(rowname(res))select(org.hs.eg.db,ensid,c(“符号”,“genename”),“ensembl”)
##'select()'返回1:1键之间映射键和列之间
## ensembl符号Genename ## 1 ensg00000179593 Alox15b arachidonate 15-脂氧酶,型B ## 2 ENSG000009906 ZBTB16锌手指和BTB域包含16 ## 3 ensg00000152583 Sparcl1 Sparc样1(Hevin)## 4 ensg00000250978 ## 5 ensg0010163884 KLF15 KRUPEL样系数15 ## 6 ensg00000168309 FAM107A系列具有序列相似性107,会员A.
BAMSpector - 显示基因模型和跨BAM的底层支持(对齐读取)文件
app < - system.file(package =“biocuruguay2015”,“bamspector”)shiny :: runapp(app)
Maplotexplorer - 总结了两组差异表达,包括逆向个体基因的差异。基于CSAMA 2015.Lab by andrzej oles。
app < - system.file(package =“biocuruguay2015”,“maplotexplorer”)shiny :: runapp(app)
这些应用程序说明了一些用途
致谢
核心(西雅图):Sonali Arora,Marc Carlson,Nate Hayden,Jim Hester,Valerie Obenchain,HervéPagès,Paul Shannon,Dan Tenenbaum。
本演示文稿中报告的研究得到了国家癌症研究所和国家人类基因组研究所,国家人类基因组研究所在奖励号码U24CA180996和U41HG004059和U41HG004059下,并在奖项1247813下的国家科学基金会。内容完全是负责的作者并不一定代表国家卫生研究所或国家科学基金会的官方意见。
sessioninfo()
sessioninfo()
## R 3.2.2(2015-08-14)##平台:X86_64-PC-Linux-GNU(64位)##正在运行:debian gnu / linux stretting / sid ## ## locale:##[1] lc_ctype = en_us.utf-8 lc_numeric = c lc_time = en_us.utf-8 ## [4] lc_collate = en_us.utf-8 lc_monetary = en_us.utf-8 lc_messages = en_us.utf-8 ## [7] lc_paper = en_us.utf-8 lc_name = c lc_address = c ## [10] lc_telephone = c lc_measurement = en_us.utf-8 lc_identified = c ## ##附加基本包:## [1] stats4并行统计图形grdevicesUtils数据集方法基础## ##其他附加包:## [1] org.hs.eg.db_3.2.3 rsqlite_1.0.0 ## [3] dbi_0.3.1 ggplot2_1.0.1 ## [5] Airway_0.103.1 Limma_3。25.18 ## [7] DESeq2_1.9.51 RcppArmadillo_0.6.100.0.0 ## [9] Rcpp_0.12.1 BSgenome.Hsapiens.UCSC.hg19_1.4.0 ## [11] BSgenome_1.37.6 rtracklayer_1.29.28 ## [13] TxDb.Hsapiens.UCSC.hg19.knownGene_3.2.2 GenomicFeatures_1.21.33 ## [15] AnnotationDbi_1.31.19 SummarizedExperiment_0.3.11 ## [17] Biobase_2.29.1 GenomicRanges_1.21.32 ## [19] GenomeInfoDb_1.5.16 microbenchmark_1.4-2 ## [21] Biostrings_2.37.8 XVector_0.9.4 ## [23] IRanges_2.3.26 S4Vectors_0.7.23 ## [25] BiocGenerics_0.15.11 BiocStyle_1.7.9 ## ## loaded via a namespace (and not attached): ## [1] splines_3.2.2 Formula_1.2-1 latticeExtra_0.6-26 ## [4] Rsamtools_1.21.21 yaml_2.1.13 lattice_0.20-33 ## [7] digest_0.6.8 RColorBrewer_1.1-2 colorspace_1.2-6 ## [10] sandwich_2.3-4 htmltools_0.2.6 plyr_1.8.3 ## [13] XML_3.98-1.3 biomaRt_2.25.3 genefilter_1.51.1 ## [16] zlibbioc_1.15.0 xtable_1.7-4 mvtnorm_1.0-3 ## [19] scales_0.3.0 BiocParallel_1.3.54 annotate_1.47.4 ## [22] TH.data_1.0-6 nnet_7.3-11 proto_0.3-10 ## [25] survival_2.38-3 magrittr_1.5 evaluate_0.8 ## [28] MASS_7.3-44 foreign_0.8-66 BiocInstaller_1.19.14 ## [31] tools_3.2.2 formatR_1.2.1 multcomp_1.4-1 ## [34] stringr_1.0.0 munsell_0.4.2 locfit_1.5-9.1 ## [37] cluster_2.0.3 lambda.r_1.1.7 futile.logger_1.4.1 ## [40] grid_3.2.2 RCurl_1.95-4.7 labeling_0.3 ## [43] bitops_1.0-6 rmarkdown_0.8.1 gtable_0.1.2 ## [46] codetools_0.2-14 reshape2_1.4.1 GenomicAlignments_1.5.18 ## [49] gridExtra_2.0.0 zoo_1.7-12 knitr_1.11 ## [52] Hmisc_3.17-0 futile.options_1.0.0 stringi_0.5-5 ## [55] geneplotter_1.47.0 rpart_4.1-10 acepack_1.3-3.3