你好,
我一直在搜索它的废气,如果我错过了一个解决方案,请道歉。
我正在尝试在Deseq2进行配对分析,意思是具有配对样本设计。
我有两个组的数据集(这是我的批),每个组有不均匀的受试者数量,每个受试者只能在一个组中有一个或两个样本(所以一个或两个条件)。注意,我的计数是用kallisto估计的。我的colData看起来像一个玩具样的例子:
样品批量调节主题1样品1 1 A S1 2样品2 1 B S1 3样品3 1 A S2 4样品4 1 B S2 5样品5 1 A S3 6样品6 1 B S3 7样品7 1 A S4 8 SAMPT8 1 B S4 9 SAMPRE9 1 A S5 10样品10 1b S5 11样品11 2 A S6 12样品12 2 B S6 13 13 Sample13 2 A S7 14 Sample14 2 B S7 15 Sample15 2 A S8
在该示例中,批量== 1具有每个受试者的5个受试者,而Batch == 2具有3个受试者,其中一个受试者只有一个条件。我简化了保持相对于条件的平衡配对样本,因此我过滤了样品15。
我的目标是在控制受试者效果的同时测试条件效果。
所以最初我认为我的模型应该是~批处理+主题+条件。为了查看条件效果(同时控制了批处理和主题效果),我将查看的resultName是'condition_B_vs_A'。这种模型设计导致了“模型矩阵不满秩”误差。
dds = DESeqDataSetFromMatrix(countData =计数。mat, colData = sample.summary。checkFullRank(modelMatrix)错误:模型矩阵不是满秩的,因此模型不能按规定拟合。设计公式中的一个或多个变量或交互项是其他变量的线性组合,必须去掉。
问题是批量和主题的线性。Vignette中线性的例子与我的理解没有完全匹配。
虽然我尝试了一些思想的思想,这里有一些谈话(如我的最后一个手段首先应用批量校正,转换为正整数,然后使用〜主题+条件运行Deseq2,这给了零点),我没有尝试过工作。
顺便说一句,如果我不做配对的设计并且只有〜批处理+条件,模型很好地工作。但我想利用每个受试者的条件的事实。
任何洞察力都会非常感谢!
谢谢michael为您的回复。
虽然我已经看到推荐利马具有重复性的讨论,但我想知道我是否可以用DESEQ2进行。
我的混乱正好在小插图的一部分“群体特定条件效应,个人嵌套在群体中”,因为我认为主题是有点分组两个不同的科目 - 但我现在已经意识到它究竟是什么所做的那么好。但我不是在寻找特定于群体的(或批量特定于我的案例)条件效果,而只是条件效应,同时调整组/批处理和对象差异。所以我在添加主题时尝试了以下模型:
但是,请让我走一步,在那里我在简单模型中获得了一个融合问题,我尝试了两件事没有解决问题的事情。首先将DESEQ函数分成步骤并增加MAXIT,第二个以过滤更低的表达基因。
如何解决收敛问题?我甚至重复了这些单独的步骤,并添加了useOptim选项:
另外,为了让条件效应纠正批量和科目的差异,是res1或res2?
跳到最上面,如果你不想组特定条件的效果,只需使用~sample + condition。你不能(也不能)控制比样品更高的分辨率。
如果通过组特定于组,我们的意思是特定于批量(在这种情况下),那么我肯定不会。我只需要纠正批次。
当你说“你没有(并且不能)控制比样本更高的分辨率”,你的意思是在Deseq2或一般?如果我的模型是〜sample +条件,那么我如何考虑样本1和样本2来自同一主题?或者该样本1和样本14来自不同的批次?
对不起,上面你有
主题
。用〜主题+条件
。您不需要另外控制任何嵌套主题的任何内容。嗯,我也有这个想法,但不是科目之间的想法?所以对于部分之间,我不需要批量批量吗?当你说“在其中嵌套在哪个主题内”时,你的意思是什么?它现在嵌套了
批处理:主题
不是这个模型?也是,仍然存在
〜主题+条件
(这是我以上开始的模型)有没有收敛的基因。主题在批处理范围内 - 也许与统计学家讨论这种情况。
RE:收敛,我建议如下:
对于选择的X来避免你有很多零的基因,也许是7。
谢谢Michael,一切都很清楚。
实际上,通过提升来解决汇编
x =我样本的2/3
。非常感谢!如果我可能会问一件事,为什么虽然我达到了融合,但我发现没有参数?
我唯一的方法是我是我通过单独通过p值过滤。甚至没有fc。以下是log2fc,padj和p值的范围,以及带有p值和log2fc发行版的火山。
您的数据集没有大的更改。您无法拒绝这些基因的空。
您可能希望与统计学家讨论有关推动未来数据集的统计学家。
我完全同意。但是当我不进行配对分析时,我使用简单〜批量+条件模型,电源非常好。我通过FDR和4FC过滤并获得数百只DEG。我想知道为什么配对是如此贫穷。
对不起,我错过了初始帖子中的那部分。
好吧,我猜你可以与100岁的重要意义,并通过增加对象条款的所有额外协变量,减少自由度。
我会注意到,随着患者基线的会计,这些LFC很小。所以我不会在告诉你变化时难以推动数据。
我理解你的观点并同意你的看法。
但是当我使用我的1/10个样本进行配对分析时,我会像P0.01和4FC阈值一样如1000°。虽然仍然没有足够的FDR。但我确实期望有更多的样本会增加力量,而不是相反的样本。对我来说感觉很奇怪。但也许你是对的,也许添加所有这些主题术语最小化任何效果。
你认为蕾丝会更合适吗?
我当然不想推动它的数据太难,只是想确保我这样做是正确的..
在软件问题方面,我没有更多的建议。
您的评论非常感谢,谢谢