是否在与实验条件相关的基因组中的基因表达?
最近审查的许多方法是Kharti等,2012年。
任何先验将“基因”分类为生物相关群体
套件不需要...
最初基于Simon Anders的演示文稿,CSAMA 2010.
脚步
在基因集中? | |||
是的 | 不 | ||
---|---|---|---|
差异化 | 是的 | K. | K. |
表达? | 不 | n - K. | n - K. |
fiser.test()
或者古司裤笔记
脚步
例如,江乡,2007年;
在“核髓甲瘤的Kegg途径中”在Neg VS BCR / Abl样品中的表达;类别小插图。
Goemann&Bühlmann,2007年
例如,Hummel等,2008年,
romer()
和吴和斯梅斯2012年相机()
用于浓缩(竞争无效)线性模型烤()
那mroast()
用于自包含的空线性模型例如,Tarca等人,2009年,
将途径拓扑(例如,基因产物之间的相互作用)加入到标志测试中
信号通路影响分析
结合证据:途径过度代表\(p_ {nde} \);不寻常的信令\(p_ {pert} \)(Tarca等人的等式1。)
证据情节,结直肠癌。要点:途径基因集。Bonferroni(红色)或FDR(蓝色)校正后显着。
例如,Young et al。,2010年,Goseq.
de基因与转录长度。点:300个基因的垃圾箱。线路:拟合概率加权功能。
示例:langfelder&hovarth,WGCNA
列表()
,列表的名称是集的,列表的每个元素是集合中基因的向量。data.frame()
设置名称/基因名称对这(相对较老的)实验检测了雄激素刺激对人前列腺癌细胞系LNCAP的影响(Li等人,2008年)。实验使用短(35bp)单端读取4控制和3个未处理的线路。读取与HG19对齐,使用Bowtie,并使用Ensembl 54基因模型进行计数。
输入数据edger.sDgelist.
数据结构。
库(edger)path < - system.file(package =“goseq”,“extdata”,“li_sum.txt”)表。umarary < - read.table(path,sep ='\ t',header = true,stringsasfactors= false)counts < - table.summary [, - 1] rownames(counts)< - table.summary [,1] Grp < - factor(rep(c(c(control),“处理”),times = c(4,3))总结< - dgelist(counts,lib.size = colsums(counts),group = grp)
使用“常见”色散估计,并使用精确测试比较两组
DISP < - EVARTATECOMMONDISP(汇总)测试< - AIFICTTEST(DISP)TOPTAG(测试)
的比较:处理控制## LOGFC LOGCPM PVALUE FDR ## ENSG00000127954 11.57498-80 1.278963 8.490376/6030 4.449530-65 4.449530-65 4.419763 8.499530-61 4.4197600 1.44976326060499530-65 4.449763 8.449763969060496019606,6039969606,60498938>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 601.317479e-55 ## ENSG00000091879 5.737627 6.282646 1.207655e-54 1.494654e-50 ## ENSG00000132437 -5.880436 7.951910 2.950042e-52 2.920896e-48 ## ENSG00000166451 4.564246 8.458467 7.126763e-52 5.880292e-48 ## ENSG00000131016 5.254737 6.607957 1.066807E-51 7.544766492 7.08514-45 1.685053/407203980-40-4.422468C-44 4.198522-40-40-4.6,600950
首先提取所有P值,然后纠正使用多个比较p.adjust()
。将基因分类为差异化表达。
Padj < - with(测试$表,{保持< - logfc!= 0值< - p.adjust(pvalue [Keep],方法=“BH”)成像(值,Rownames(测试)[保留])}基因< - padj <0.05表(基因)
##基因## FALSE ## 19535 3208
在引擎盖下,Goseq.使用Biocuctor注释包(在这种情况下org.hs.eg.db.和R Biocannopkg(“go.db”)
从基因符号映射到途径。
通过这些包列()
和选择()
职能。你能在Ensembl基因标识符之间映射(行名称toptable()
)去途径?关于“钻井”特定地标识符的“钻井”如何发现这个词的定义?
计算每个基因的加权。这将在预定义的表中查找基因长度(如何使用TXDB包计算这些类型?根据基于基因通常由几个转录物组成的知识,计算这些“权重”是什么挑战,每个知识都不同地表达出来?)
PWF < - nullp(基因,“HG19”,“Ensgene”)
##加载HG19长度数据......
## PCLS中的警告(g):初始点非常接近一些不等式##约束
头(PWF)
## DEgenes bias.data公益金## ENSG00000230758 FALSE 247 0.03757470 ## ENSG00000182463 FALSE 3133 0.20436865 ## ENSG00000124208 FALSE 1978年0.16881769 ## ENSG00000230753 FALSE 466 0.06927243 ## ENSG00000224628 FALSE 1510 0.15903532 ## ENSG00000125835 FALSE 954 0.12711992
执行主要分析。这包括基因与途径的关联
Go.Wall < - Goseq(PWF,“HG19”,“Ensgene”)
##获取Go Annotations ... ##对于9751基因,我们找不到任何类别。这些基因将被排除在外。要强制使用它们,请使用duemer_genes_without_cat = true运行(请参阅文档)。##这是版本1.15.1及更早版本的默认行为。##计算p值......
头(go.wall)
##类别over_represented_pvalue下_represented_pvalue ## 10729 Go:0044763 8.237627E-15 1 ## 10708 Go:0044699 2.079753E-14 1 ## 2453 Go:0005737 2.956026E-10 1 ## 3004 Go:0006614 6.131543E-09 1##7499 GO:0031982 1.101818E-08 1 ## 2372 GO:0005576 1.339207E-08 1 ## NUMDEINCAT NUMINCAT ## 10729 1893 8355 ## 2453 1790 808080808080808080808080## 2372 669 2836 ##术语本体## 10729单生体细胞过程BP ## 10708单生体过程BP ## 2453细胞质CC ## 3004依赖于膜BP的SRP依赖性分毒蛋白## 7499囊泡CC ##2372细胞外区域CC
在这里,我们做了相同的操作,但忽略了基因长度
Go.Nobias < - Goseq(PWF,“HG19”,“Ensgene”,方法=“超高距离”)
##获取Go Annotations ... ##对于9751基因,我们找不到任何类别。这些基因将被排除在外。要强制使用它们,请使用duemer_genes_without_cat = true运行(请参阅文档)。##这是版本1.15.1及更早版本的默认行为。##计算p值......
将每个集合的超代表的p值与不同的方法进行比较
Idx < - 匹配(go.nobias $类别,go.wall $类别)plot(log10(go.nobias [,“over_represented_pvalue”)〜log10(go.wall [idx,“over_represented_pvalue”wallenius“,ylab =”hypergeometric“,xlim = c(-5,0),ylim = c(-5,0))abline(0,1,col =”红色“,lwd = 2)