统计方法

最初基于Simon Anders的演示文稿，CSAMA 2010.

方法1：超高度测试

脚步

将每个基因分类为“差异化表达”DE，例如，基于P.<0.05
在该组中的de基因比de基因更常见吗？

		是的	不
		在基因集中？
差异化	是的	K.	K.
表达？	不	n - K.	n - K.

Fisher HyperGeometric测试，通过fiser.test（）或者古司裤

笔记

条件超距离以适应DAG，古司裤
但是：人工部门分为两组

方法2：浓缩得分

Mootha等，2003;改进的Subramanian等人。，2005年。

脚步

通过日志折叠更改对基因进行排序
计算运行和：在组中的基因时递增，递减。
运行总和的最大值是浓缩得分。大es表示集合中的基因是列表之外。
置换SIGNFICATCH的主题标签

方法3：类别\（t \）-测试

例如，江乡，2007年;

总结\（t \）（或其他）每个集合中的统计
通过置换主题标签来测试意义
更直接实施

在“核髓甲瘤的Kegg途径中”在Neg VS BCR / Abl样品中的表达;类别小插图。

竞争与独立的空假设

Goemann＆Bühlmann，2007年

竞争性无效：基因组中的基因与对象条件不具有比其他基因更强的关联。（接近1,2）
自含有空缺：基因组中的基因与主题条件没有任何关联。（方法3）
可能，独立的null更接近实际的兴趣问题
置换受试者（而不是基因）是合适的

方法4：线性模型

例如，Hummel等，2008年，

结肠直肠肿瘤具有良好的（'阶段II'）或坏（'III阶段'）预后。在P53途径中进行基因（只是一个基因套装！）在两个阶段显示不同的活动？
线性模型包含协变量 - 患者性别，肿瘤的位置

林马

Majewski等。，2010年romer（）和吴和斯梅斯2012年相机（）用于浓缩（竞争无效）线性模型
Wu等，2010年：烤（）那mroast（）用于自包含的空线性模型

方法5：途径拓扑

例如，Tarca等人，2009年，

将途径拓扑（例如，基因产物之间的相互作用）加入到标志测试中
信号通路影响分析
结合证据：途径过度代表\（p_ {nde} \）;不寻常的信令\（p_ {pert} \）（Tarca等人的等式1。）

证据情节，结直肠癌。要点：途径基因集。Bonferroni（红色）或FDR（蓝色）校正后显着。

序列数据的问题？

所有其他相同的，长基因会收到比短基因更多的读数
每基因\（p \）与基因大小成比例的值

例如，Young et al。，2010年，Goseq.

超距离，受基因大小加权
差异很大
更好：读取深度？

de基因与转录长度。点：300个基因的垃圾箱。线路：拟合概率加权功能。

方法6：德诺维发现

到目前为止：类似于监督机器学习，其中途径提前已知
无监督的发现怎么样？

示例：langfelder＆hovarth，WGCNA

加权相关网络分析
在Langfelder＆Horvath描述，2008年

代表r中的基因集

命名为列表（），列表的名称是集的，列表的每个元素是集合中基因的向量。
data.frame（）设置名称/基因名称对
GSEABASE.

结论

基因集浓缩分类

Kharti等：过度代表性分析;功能阶级评分;途径拓扑
Goemann＆Bühlmann：竞争力与自给式无效

选定的包

方法	包
超距离	古司裤那顶点
丰富	林马`:: romer（）`
类别\（t \）-测试	类别
线性模型	Globalancova那GSEALM那林马`：：烤（）`
途径拓扑	斯维亚
序列特定	Goseq.
德诺维	WGCNA

实际的

这种实用是基于第6节Goseq.小插图。

1-6实验设计，......，基因差异表达分析

这（相对较老的）实验检测了雄激素刺激对人前列腺癌细胞系LNCAP的影响（Li等人，2008年）。实验使用短（35bp）单端读取4控制和3个未处理的线路。读取与HG19对齐，使用Bowtie，并使用Ensembl 54基因模型进行计数。

输入数据edger.sDgelist.数据结构。

库（edger）path < -  system.file（package =“goseq”，“extdata”，“li_sum.txt”）表。umarary < -  read.table（path，sep ='\ t'，header = true，stringsasfactors= false）counts < -  table.summary [， -  1] rownames（counts）< -  table.summary [，1] Grp < -  factor（rep（c（c（control），“处理”），times = c（4，3））总结< -  dgelist（counts，lib.size = colsums（counts），group = grp）

使用“常见”色散估计，并使用精确测试比较两组

DISP < -  EVARTATECOMMONDISP（汇总）测试< -  AIFICTTEST（DISP）TOPTAG（测试）

的比较：处理控制## LOGFC LOGCPM PVALUE FDR ## ENSG00000127954 11.57498-80 1.278963 8.490376/6030 4.449530-65 4.449530-65 4.419763 8.499530-61 4.4197600 1.44976326060499530-65 4.449763 8.449763969060496019606,6039969606,60498938>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 601.317479e-55 ## ENSG00000091879 5.737627 6.282646 1.207655e-54 1.494654e-50 ## ENSG00000132437 -5.880436 7.951910 2.950042e-52 2.920896e-48 ## ENSG00000166451 4.564246 8.458467 7.126763e-52 5.880292e-48 ## ENSG00000131016 5.254737 6.607957 1.066807E-51 7.544766492 7.08514-45 1.685053/407203980-40-4.422468C-44 4.198522-40-40-4.6,600950

7.理解

首先提取所有P值，然后纠正使用多个比较p.adjust（）。将基因分类为差异化表达。

Padj < -  with（测试$表，{保持< -  logfc！= 0值< -  p.adjust（pvalue [Keep]，方法=“BH”）成像（值，Rownames（测试）[保留]）}基因< -  padj <0.05表（基因）

##基因## FALSE ## 19535 3208

对途径的基因符号

在引擎盖下，Goseq.使用Biocuctor注释包（在这种情况下org.hs.eg.db.和R Biocannopkg（“go.db”）从基因符号映射到途径。

通过这些包列（）和选择（）职能。你能在Ensembl基因标识符之间映射（行名称toptable（））去途径？关于“钻井”特定地标识符的“钻井”如何发现这个词的定义？

概率加权功能

计算每个基因的加权。这将在预定义的表中查找基因长度（如何使用TXDB包计算这些类型？根据基于基因通常由几个转录物组成的知识，计算这些“权重”是什么挑战，每个知识都不同地表达出来？）

PWF < -  nullp（基因，“HG19”，“Ensgene”）

##加载HG19长度数据......

## PCLS中的警告（g）：初始点非常接近一些不等式##约束

头（PWF）

## DEgenes bias.data公益金## ENSG00000230758 FALSE 247 0.03757470 ## ENSG00000182463 FALSE 3133 0.20436865 ## ENSG00000124208 FALSE 1978年0.16881769 ## ENSG00000230753 FALSE 466 0.06927243 ## ENSG00000224628 FALSE 1510 0.15903532 ## ENSG00000125835 FALSE 954 0.12711992

过度和欠欠

执行主要分析。这包括基因与途径的关联

Go.Wall < -  Goseq（PWF，“HG19”，“Ensgene”）

##获取Go Annotations ... ##对于9751基因，我们找不到任何类别。这些基因将被排除在外。要强制使用它们，请使用duemer_genes_without_cat = true运行（请参阅文档）。##这是版本1.15.1及更早版本的默认行为。##计算p值......

头（go.wall）

##类别over_represented_pvalue下_represented_pvalue ## 10729 Go：0044763 8.237627E-15 1 ## 10708 Go：0044699 2.079753E-14 1 ## 2453 Go：0005737 2.956026E-10 1 ## 3004 Go：0006614 6.131543E-09 1＃＃7499 GO：0031982 1.101818E-08 1 ## 2372 GO：0005576 1.339207E-08 1 ## NUMDEINCAT NUMINCAT ## 10729 1893 8355 ## 2453 1790 808080808080808080808080## 2372 669 2836 ##术语本体## 10729单生体细胞过程BP ## 10708单生体过程BP ## 2453细胞质CC ## 3004依赖于膜BP的SRP依赖性分毒蛋白## 7499囊泡CC ##2372细胞外区域CC

如果我们忽略了基因长度怎么办？

在这里，我们做了相同的操作，但忽略了基因长度

Go.Nobias < -  Goseq（PWF，“HG19”，“Ensgene”，方法=“超高距离”）

##获取Go Annotations ... ##对于9751基因，我们找不到任何类别。这些基因将被排除在外。要强制使用它们，请使用duemer_genes_without_cat = true运行（请参阅文档）。##这是版本1.15.1及更早版本的默认行为。##计算p值......

将每个集合的超代表的p值与不同的方法进行比较

Idx < - 匹配（go.nobias $类别，go.wall $类别）plot（log10（go.nobias [，“over_represented_pvalue”）〜log10（go.wall [idx，“over_represented_pvalue”wallenius“，ylab =”hypergeometric“，xlim = c（-5,0），ylim = c（-5,0））abline（0,1，col =”红色“，lwd = 2）

E.基因设定富集

马丁摩根（mtmorgan@fredhutch.org.）

2015-04-07

动机

什么是基因集？

基因集的集合