内容

本课程中的材料需要R版本3.2和Biocumon V9.2

stopifnot(getRversion()> ='3.2'&& getRversion()<'3.3',biocinstaller :: biocversion()==“3.2”)

1什么是生物体

身体上

概念上

2核心原则

2.1高吞吐量分析需求统计数据!

数据量

研究问题

技术术语

2.2科学研究需要可重复

2.2.1一个激励案例研究

  • 顺铂抗性非小细胞肺癌基因套装

  • Hsu等人。2007年J Clin Oncol 25:4350-4357缩回

课程

  • 记录分析的每个步骤
  • 协调操作特征,样本和测定数据
  • 可视化的信息标签

2.2.2如何可重复?

  • 使用软件“物体”,以照顾一些繁琐的书籍保存
  • 记录我们在脚本和“Markdown”文档中的分析

2.2.3例子:概括分析

底层数据是矩阵

  • 兴趣区域(例如,基因)X样品
  • 测定()- 例如,读数重叠基因的矩阵

包括有关行的信息

  • rowranges()- 基因标识符,或基因组范围描述每个基因的坐标

包括有关列的信息

  • Coldata()- 描述样品,实验设计,......
图书馆(Airway)#“实验Data”包......数据(Airway)#...使用样品数据集... Airway#......这是一个概括的经验
##类:范围:Dim:64102 8 ##元数据(1):''##测定(1):计数## Rownames(64102):ENSG000000005 ... LRG_98 LRG_99 ## ROWRANGES元数据列名称(0):## Colnames(8):SRR1039508 SRR1039509 ... SRR1039520 SRR1039521 ## GOLDATA名称(9):SAMPLENAME CELL ...样品生物素
头(测定(气道))#包含矩阵
## SRR1039508 SRR1039509 SRR1039512 SRR1039513 SRR1039516 SRR1039517 SRR1039520 ## ENSG00000000003 679 448 873 408 1138 1047 770 ## ENSG00000000005 0 0 0 0 0 0 0 ## 467 ENSG00000000419 515 621 365 587 799 417 ## 260 ENSG00000000457 211 263 164 245 331 233##ENSG00000000460 60 55 40 35 78 63 76 ## ENSG00000000938 0 0 2 0 1 0 0 ## ## SRR1039521 572 ENSG00000000003 ## ENSG00000000005 0 ## ENSG00000000419 508 ## 229 ENSG00000000457 ## ENSG00000000460 60 ## ENSG00000000938 0
头(Rowranges(Airway))#关于基因的信息......
## GrangesList长度的对象6:## $ ensg00000000003 ## Granges对象具有17个范围和2个元数据列:## SEQNAMES范围股票|EXON_ID EXON_NAME ##    |<整数>  ## [1] x [99883667,99884983]  -  |667145 ENSE001459322 ## [2] X [99885756,99885863]  -  |667146 ENSE00000868868 ## [3] X [99887482,99887565]  -  |667147 ENSE00000401072 ## [4] X [99887538,99887565]  -  |667148 ENSE00001849132 ## [5] x [99888402,99888536]  -  |667149 ENSE00003554016 ## ... ... ... ... ## [13] x [99890555,99890743]  -  |667156 ENSE00003512331 ## [14] X [99891188,99891686]  -  |667158 ENSE00001886883 ## [15] x [99891605,99891803]  -  | 667159 ENSE00001855382 ## [16] X [99891790, 99892101] - | 667160 ENSE00001863395 ## [17] X [99894942, 99894988] - | 667161 ENSE00001828996 ## ## ... ## <5 more elements> ## ------- ## seqinfo: 722 sequences (1 circular) from an unspecified genome
冷酷(呼吸道)[,1:3]#...和样品
## DataFrame带8行和3列## Samplename Cell Dex ###SRR1039516 GSM1275870 N080611 UNTRT ## SRR1039517 GSM1275871 N080611 TRT ## SRR1039520 GSM1275874 N061011 UNTRT ## SRR1039521 GSM1275875 N061011 TRT
##协调子集UNTRT < -  AIRWAY [,AIRWAY $ DEX =='UNTRT']头(测定(UNTTT))
## ESG00000000C460 60/4206/2020 6/2212/2212/20206/02206/02/78
Coldata(UNTTT)[,1:3]
## DataFrame带有4行和3列## Samplename Cell DEX ##

2.3我们可以“站在巨人的肩膀上”

包装!

2.4我们应该探索我们的数据

可视化

包之间的可互操作性

例子(详细信息稍后)

2.5理解不仅仅是统计分析

注解

实例探究

3.生物体在序列分析中的作用

3.1整体工作流程

3.1.1一般步骤

  1. 实验设计
  • 把事情简单化!
  • 复制!
  • 避免或跟踪批处理效果
  1. 湿式实验室制备

  2. 高吞吐量排序

  • 输出:READS的FASTQ文件及其质量分数

    @ ERR127302.1703 HWI-EAS350_0441:1:1:1460:19184#0/1 + CCTGAGTGAAGCTGATCTTGATCTACGAAGAGAGATAGATCTTGATCGTCGAGGAGATGCTGACCTTGACCT HHGHHGHHHHHHHHDGG > CE = 896 =:?@ ERR127302.1704 HWI-EAS350_0441:1:1:1460:16861#0/1 GcggtatgtgGaaggtgctcgaatggagaggcgccgcgcccggcagcgccgcgccctcaggtccgccccagccctcaggtccgccc + de?dd> ed4> eee> de8eeede8b?eb <@ 3; ba79?,881b?@ 73; 1?#######################
  1. 结盟
  • 许多不同的对齐器,一些专门用于不同的目的
  • 输出:对齐读取的BAM文件

    ERR127306.7941162 403 CHR14 19653689 3 72M = 19652348 -1413 ... ERR127306.22648137 145 CHR14 19653692 1 72M = 19650044 -3720 ... GAATTGATCAGTCTCATCTGAGAGTAACTTTGTACCCATCACTGATTCTTTCTGAGACTGCCTCCCC *'%%%%#&&%''#'&%%%)&& %% $ %%'%%'&***** $))$)'')'%)))%%%% $'%%%%%%%%%%%%%%%%%%)%)) ... TTGATCAGTCTCATCTGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCCCAG '**)****)*'*&*********('&)****&***(**')))())%)))&)))*')&***********)**** ... AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:72 YT:Z:UU NH:i:2 CC:Z:chr22 CP:i:16189276 HI:i:0 ... AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:72 YT:Z:UU NH:i:3 CC:Z:= CP:i:19921600 HI:i:0
  1. 概括
  • 例如,RNA-SEQ:数数读取重叠的兴趣区域(例如,基因)
  • 例如,芯片SEQ:范围监管元素绑定的地方
  • 输出:'.csv',bod或wig文件
  1. 统计分析

  2. 理解

3.1.2一个例子:RNA-SEQ差异表达已知基因

稍后更多细节!

示例:'Airway'数据集在后来的实验室中使用

  • 气道平滑肌细胞用地塞米松处理,一种具有抗炎作用的合成糖皮质激素类固醇。糖皮质激素用于哮喘患者,以防止或减少气道的炎症。
  • 四个主要人类气道平滑肌细胞系
  • 每种细胞系:对照样品和处理的样品。治疗:1微摩尔地塞米松18小时。
  • 他是,江X,瓦格纳P,胡河,王q,klanderman b,惠特克rm,duan q,lasky-su j,nikolos c,jester w,johnson m,panettieri r jr,tantisira kg,weiss st,lu q。“RNA-SEQ转录组分析将脆皮曲线导致响应基因识别为调节气道平滑肌细胞中细胞因子功能的糖皮质激素敏感基因。”Plos一个。2014年6月13日; 9(6):E99625。PMID:24926665.。地理:GSE52778.

脚步

  1. 实验设计
  • 一个协变量:细胞系
  • 具有两个水平的一种实验因素:对照,并用地塞米松治疗

    图书馆(Airway)#“实验Data”包......数据(Airway)#...使用样品数据集... CONGATA(AIRWAY)[,1:3]#...代表概要
    ## DataFrame带8行和3列## Samplename Cell Dex ###SRR1039516 GSM1275870 N080611 UNTRT ## SRR1039517 GSM1275871 N080611 TRT ## SRR1039520 GSM1275874 N061011 UNTRT ## SRR1039521 GSM1275875 N061011 TRT
  1. 湿式实验室制备

  2. 高吞吐量排序

  • 配对结束读取
  • 输出:FASTQ文件
  1. 结盟
  • 星星对齐器
  • 与人参考基因组的Ensembl发布75对齐
  • 输出:BAM文件
  1. 摘要
  • Genomicranges :: SummarizeOverlaps()
  • 输出:矩阵数数读取重叠的兴趣区域。每行都是基因。每列都是样本。

    头(测定(气道))
    ## SRR1039508 SRR1039509 SRR1039512 SRR1039513 SRR1039516 SRR1039517 SRR1039520 ## ENSG00000000003 679 448 873 408 1138 1047 770 ## ENSG00000000005 0 0 0 0 0 0 0 ## 467 ENSG00000000419 515 621 365 587 799 417 ## 260 ENSG00000000457 211 263 164 245 331 233##ENSG00000000460 60 55 40 35 78 63 76 ## ENSG00000000938 0 0 2 0 1 0 0 ## ## SRR1039521 572 ENSG00000000003 ## ENSG00000000005 0 ## ENSG00000000419 508 ## 229 ENSG00000000457 ## ENSG00000000460 60 ## ENSG00000000938 0
  1. 统计分析
  • 测试每个基因进行对照和治疗组之间的统计差异
  • 输出:最佳桌子差异表达基因。对于每个基因:描述发生变化的变化有多大的“日志折叠变化”,以及总结变革统计证据的测试统计(例如,调整后的P值)

    图书馆(DESQ2)#包装实施统计方法DDS < - #数据和实验设计DESEQDATASET(AIRWAY,DESIGN =〜CELL + DEX)DDS < -  DESQ(DDS)#初始分析
    ##估计大小因素##估计分散估计##意味着分散关系##最终分散估计##拟合模型和测试
    RES < - 结果(DDS)#摘要结果RIDX < - #订单从最大到最小的绝对日志折叠变更顺序(ABS(RES $ LOG2FOLDCHANGE),减少= TRUE)RES < -  REA [RIDX,]头部(RES)#TOP-桌子
    ## log2折叠更改(地图):DEX UNTRT VS TRT ## WALD TEST P值:DEX UNTRT与TRT ##具有6行和6列的DataFrame ## BaseMean Log2foldchange LFCSE STAT PACJ ##  <数字> <数字> <数字> <数值> ## ENSG00000179593 67.24305 -4.884729 0.3312024 -14.74847 3.147170e-49 1.031585e-46 ## ENSG00000109906 385.07103 -4.865899 0.3324555 -14.63624 1.649293e-48 5.126459e-46 ## ENSG00000152583 997.43977-4.316100 0.1724125 -25.03357 2.636198e-138 4.752538e-134 ## ENSG00000250978 56.31819 -4.093661 0.3291518 -12.43700 1.645709e-35 2.798948e-33 ## ENSG00000163884 561.10717 -4.079127 0.2103817 -19.38917 9.525449e-84 1.073280e-80 ## ENSG00000168309159.52692 -3.992793 0.2549089 -15.66361 2.682234E-55 1.239880E-52
  1. 理解
  • 可视化

    库(GGPLOT2)GGPLOT(AS.DATA.FRAME(RES),AES(x = log2foldchange,y = -10 * log10(pvalue)))+ geom_point()
    ##警告:删除了包含缺失值(GeoM_Point)的30633行。

  • 从Enembl基因标识符到基因符号,途径,...

    库(org.hs.eg.db)Ensid < -  head(rowname(res))select(org.hs.eg.db,ensid,c(“符号”,“genename”),“ensembl”)
    ##'select()'返回1:1键之间映射键和列之间
    ## ensembl符号Genename ## 1 ensg00000179593 Alox15b arachidonate 15-脂氧酶,型B ## 2 ENSG000009906 ZBTB16锌手指和BTB域包含16 ## 3 ensg00000152583 Sparcl1 Sparc样1(Hevin)## 4 ensg00000250978   ## 5 ensg0010163884 KLF15 KRUPEL样系数15 ## 6 ensg00000168309 FAM107A系列具有序列相似性107,会员A.

3.2生物信息步骤生物体

ALT测序生态系统

3.3闪亮的例子

BAMSpector - 显示基因模型和跨BAM的底层支持(对齐读取)文件

app < -  system.file(package =“biocuruguay2015”,“bamspector”)shiny :: runapp(app)

Maplotexplorer - 总结了两组差异表达,包括逆向个体基因的差异。基于CSAMA 2015.Lab by andrzej oles。

app < -  system.file(package =“biocuruguay2015”,“maplotexplorer”)shiny :: runapp(app)

这些应用程序说明了一些用途

4.资源

致谢

4.1关键参考文献

4.2sessioninfo()

sessioninfo()
## R 3.2.2(2015-08-14)##平台:X86_64-PC-Linux-GNU(64位)##正在运行:debian gnu / linux stretting / sid ## ## locale:##[1] lc_ctype = en_us.utf-8 lc_numeric = c lc_time = en_us.utf-8 ## [4] lc_collat​​e = en_us.utf-8 lc_monetary = en_us.utf-8 lc_messages = en_us.utf-8 ## [7] lc_paper = en_us.utf-8 lc_name = c lc_address = c ## [10] lc_telephone = c lc_measurement = en_us.utf-8 lc_identified = c ## ##附加基本包:## [1] stats4并行统计图形grdevicesUtils数据集方法基础## ##其他附加包:## [1] org.hs.eg.db_3.2.3 rsqlite_1.0.0 ## [3] dbi_0.3.1 ggplot2_1.0.1 ## [5] Airway_0.103.1 Limma_3。25.18 ## [7] DESeq2_1.9.51 RcppArmadillo_0.6.100.0.0 ## [9] Rcpp_0.12.1 BSgenome.Hsapiens.UCSC.hg19_1.4.0 ## [11] BSgenome_1.37.6 rtracklayer_1.29.28 ## [13] TxDb.Hsapiens.UCSC.hg19.knownGene_3.2.2 GenomicFeatures_1.21.33 ## [15] AnnotationDbi_1.31.19 SummarizedExperiment_0.3.11 ## [17] Biobase_2.29.1 GenomicRanges_1.21.32 ## [19] GenomeInfoDb_1.5.16 microbenchmark_1.4-2 ## [21] Biostrings_2.37.8 XVector_0.9.4 ## [23] IRanges_2.3.26 S4Vectors_0.7.23 ## [25] BiocGenerics_0.15.11 BiocStyle_1.7.9 ## ## loaded via a namespace (and not attached): ## [1] splines_3.2.2 Formula_1.2-1 latticeExtra_0.6-26 ## [4] Rsamtools_1.21.21 yaml_2.1.13 lattice_0.20-33 ## [7] digest_0.6.8 RColorBrewer_1.1-2 colorspace_1.2-6 ## [10] sandwich_2.3-4 htmltools_0.2.6 plyr_1.8.3 ## [13] XML_3.98-1.3 biomaRt_2.25.3 genefilter_1.51.1 ## [16] zlibbioc_1.15.0 xtable_1.7-4 mvtnorm_1.0-3 ## [19] scales_0.3.0 BiocParallel_1.3.54 annotate_1.47.4 ## [22] TH.data_1.0-6 nnet_7.3-11 proto_0.3-10 ## [25] survival_2.38-3 magrittr_1.5 evaluate_0.8 ## [28] MASS_7.3-44 foreign_0.8-66 BiocInstaller_1.19.14 ## [31] tools_3.2.2 formatR_1.2.1 multcomp_1.4-1 ## [34] stringr_1.0.0 munsell_0.4.2 locfit_1.5-9.1 ## [37] cluster_2.0.3 lambda.r_1.1.7 futile.logger_1.4.1 ## [40] grid_3.2.2 RCurl_1.95-4.7 labeling_0.3 ## [43] bitops_1.0-6 rmarkdown_0.8.1 gtable_0.1.2 ## [46] codetools_0.2-14 reshape2_1.4.1 GenomicAlignments_1.5.18 ## [49] gridExtra_2.0.0 zoo_1.7-12 knitr_1.11 ## [52] Hmisc_3.17-0 futile.options_1.0.0 stringi_0.5-5 ## [55] geneplotter_1.47.0 rpart_4.1-10 acepack_1.3-3.3