动机

是否在与实验条件相关的基因组中的基因表达?

最近审查的许多方法是Kharti等,2012年。

什么是基因集?

任何先验将“基因”分类为生物相关群体

套件不需要...

基因集的集合

基因本体()注释(GOA)

途径

例如。,MsigdB.

统计方法

最初基于Simon Anders的演示文稿,CSAMA 2010.

方法1:超高度测试

脚步

  1. 将每个基因分类为“差异化表达”DE,例如,基于P.<0.05
  2. 在该组中的de基因比de基因更常见吗?
在基因集中?
是的
差异化 是的 K. K.
表达? n - K. n - K.
  1. Fisher HyperGeometric测试,通过fiser.test()或者古司裤

笔记

方法2:浓缩得分

脚步

方法3:类别\(t \)-测试

例如,江乡,2007年;

在“核髓甲瘤的Kegg途径中”在Neg VS BCR / Abl样品中的表达;类别小插图。

竞争与独立的空假设

Goemann&Bühlmann,2007年

方法4:线性模型

例如,Hummel等,2008年,

林马

方法5:途径拓扑

例如,Tarca等人,2009年,

证据情节,结直肠癌。要点:途径基因集。Bonferroni(红色)或FDR(蓝色)校正后显着。

序列数据的问题?

例如,Young et al。,2010年,Goseq.

de基因与转录长度。点:300个基因的垃圾箱。线路:拟合概率加权功能。

方法6:德诺维发现

示例:langfelder&hovarth,WGCNA

代表r中的基因集

结论

基因集浓缩分类

选定的包

方法
超距离 古司裤顶点
丰富 林马:: romer()
类别\(t \)-测试 类别
线性模型 GlobalancovaGSEALM林马::烤()
途径拓扑 斯维亚
序列特定 Goseq.
德诺维 WGCNA

实际的

这种实用是基于第6节Goseq.小插图

1-6实验设计,......,基因差异表达分析

这(相对较老的)实验检测了雄激素刺激对人前列腺癌细胞系LNCAP的影响(Li等人,2008年)。实验使用短(35bp)单端读取4控制和3个未处理的线路。读取与HG19对齐,使用Bowtie,并使用Ensembl 54基因模型进行计数。

输入数据edger.sDgelist.数据结构。

库(edger)path < -  system.file(package =“goseq”,“extdata”,“li_sum.txt”)表。umarary < -  read.table(path,sep ='\ t',header = true,stringsasfactors= false)counts < -  table.summary [, -  1] rownames(counts)< -  table.summary [,1] Grp < -  factor(rep(c(c(control),“处理”),times = c(4,3))总结< -  dgelist(counts,lib.size = colsums(counts),group = grp)

使用“常见”色散估计,并使用精确测试比较两组

DISP < -  EVARTATECOMMONDISP(汇总)测试< -  AIFICTTEST(DISP)TOPTAG(测试)
的比较:处理控制## LOGFC LOGCPM PVALUE FDR ## ENSG00000127954 11.57498-80 1.278963 8.490376/6030 4.449530-65 4.449530-65 4.419763 8.499530-61 4.4197600 1.44976326060499530-65 4.449763 8.449763969060496019606,6039969606,60498938>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 601.317479e-55 ## ENSG00000091879 5.737627 6.282646 1.207655e-54 1.494654e-50 ## ENSG00000132437 -5.880436 7.951910 2.950042e-52 2.920896e-48 ## ENSG00000166451 4.564246 8.458467 7.126763e-52 5.880292e-48 ## ENSG00000131016 5.254737 6.607957 1.066807E-51 7.544766492 7.08514-45 1.685053/407203980-40-4.422468C-44 4.198522-40-40-4.6,600950

7.理解

首先提取所有P值,然后纠正使用多个比较p.adjust()。将基因分类为差异化表达。

Padj < -  with(测试$表,{保持< -  logfc!= 0值< -  p.adjust(pvalue [Keep],方法=“BH”)成像(值,Rownames(测试)[保留])}基因< -  padj <0.05表(基因)
##基因## FALSE ## 19535 3208

对途径的基因符号

在引擎盖下,Goseq.使用Biocuctor注释包(在这种情况下org.hs.eg.db.R Biocannopkg(“go.db”)从基因符号映射到途径。

通过这些包列()选择()职能。你能在Ensembl基因标识符之间映射(行名称toptable())去途径?关于“钻井”特定地标识符的“钻井”如何发现这个词的定义?

概率加权功能

计算每个基因的加权。这将在预定义的表中查找基因长度(如何使用TXDB包计算这些类型?根据基于基因通常由几个转录物组成的知识,计算这些“权重”是什么挑战,每个知识都不同地表达出来?)

PWF < -  nullp(基因,“HG19”,“Ensgene”)
##加载HG19长度数据......
## PCLS中的警告(g):初始点非常接近一些不等式##约束

头(PWF)
## DEgenes bias.data公益金## ENSG00000230758 FALSE 247 0.03757470 ## ENSG00000182463 FALSE 3133 0.20436865 ## ENSG00000124208 FALSE 1978年0.16881769 ## ENSG00000230753 FALSE 466 0.06927243 ## ENSG00000224628 FALSE 1510 0.15903532 ## ENSG00000125835 FALSE 954 0.12711992

过度和欠欠

执行主要分析。这包括基因与途径的关联

Go.Wall < -  Goseq(PWF,“HG19”,“Ensgene”)
##获取Go Annotations ... ##对于9751基因,我们找不到任何类别。这些基因将被排除在外。要强制使用它们,请使用duemer_genes_without_cat = true运行(请参阅文档)。##这是版本1.15.1及更早版本的默认行为。##计算p值......
头(go.wall)
##类别over_represented_pvalue下_represented_pvalue ## 10729 Go:0044763 8.237627E-15 1 ## 10708 Go:0044699 2.079753E-14 1 ## 2453 Go:0005737 2.956026E-10 1 ## 3004 Go:0006614 6.131543E-09 1##7499 GO:0031982 1.101818E-08 1 ## 2372 GO:0005576 1.339207E-08 1 ## NUMDEINCAT NUMINCAT ## 10729 1893 8355 ## 2453 1790 808080808080808080808080## 2372 669 2836 ##术语本体## 10729单生体细胞过程BP ## 10708单生体过程BP ## 2453细胞质CC ## 3004依赖于膜BP的SRP依赖性分毒蛋白## 7499囊泡CC ##2372细胞外区域CC

如果我们忽略了基因长度怎么办?

在这里,我们做了相同的操作,但忽略了基因长度

Go.Nobias < -  Goseq(PWF,“HG19”,“Ensgene”,方法=“超高距离”)
##获取Go Annotations ... ##对于9751基因,我们找不到任何类别。这些基因将被排除在外。要强制使用它们,请使用duemer_genes_without_cat = true运行(请参阅文档)。##这是版本1.15.1及更早版本的默认行为。##计算p值......

将每个集合的超代表的p值与不同的方法进行比较

Idx < - 匹配(go.nobias $类别,go.wall $类别)plot(log10(go.nobias [,“over_represented_pvalue”)〜log10(go.wall [idx,“over_represented_pvalue”wallenius“,ylab =”hypergeometric“,xlim = c(-5,0),ylim = c(-5,0))abline(0,1,col =”红色“,lwd = 2)

参考