Question

集合bldb的智人有机体包含多余的符号基因?

0

进入编辑模式

bastien_chassagnol•0

@5de73a99

最后一次出现是三个月前

我想用EnsDb.Hsapiens。v86 org.Hs.eg.db结合,两个数据库不完全显示相同类型的信息(例如,只有EnsDb.Hsapiens。V86提供生物学功能，或外显子列表)。

然而，正如你在下面的代码中看到的，我很失望地注意到org.Hs.eg.db中的大量SYMBOL基因并没有出现在ensdb . hasiens中。v86,分别。

> symbol_humans_ensembl <- unique(AnnotationDbi::keys(ensdb . haspens .)v86, keytype = "SYMBOL")) >长度(symbol_humans_ensemble bl)[1] 56643 >长度(grep(pattern = "^RP11-"， symbol_humans_ensemble))[1] 12045 >头部(symbol_humans_ensemble [grep(pattern = "^RP11-"， symbol_humans_ensemble))symbol_humans_ensembl)]) [1] "RP11-1000B6.2" "RP11-1000B6.3" "RP11-1000B6.5" "RP11-1000B6.7" "RP11-1000B6.8" "RP11-1003J3.1" length(setdiff(symbol_humans_ensembl, AnnotationDbi::keys(org.Hs.eg.db, keytype="SYMBOL"))) [1]22155

为了调查为什么这两个数据库之间会有这样的不匹配，我注意到ensdb . haspens有相当多的SYMBOL基因。例如，在ensdb . haspens的22155个基因中，v86似乎没有被筛选。在org.Hs.eg.db中缺失了v86，总共12045个基因仅是RP11的前缀，其本身仅被认为是更正式的SYMBOL PRPF31的别名。相反，在NCBI数据库和org.Hs.eg.db中列出的许多基因在ensdb . hapiens .v86中并不存在。

我有两个问题:

为什么在ensdb . haspens .v86中保留这么多看起来是多余的基因符号，或者只是完全相同基因的合成、组装版本?
相反，为什么没有描述那么多的基因，包括在ensdb . haspens中编码蛋白质的基因。v86，比如ACLS或AAVS1基因?

sessionInfo() R version 4.0.2 (2020-06-22) Platform: x86_64-pc-linux-gnu (64-bit) Running under: CentOS Linux 7 (Core) Matrix products: default BLAS: /softhpc/R/4.0.2/lib64/R/lib/libRblas。所以LAPACK: / softhpc / R / 4.0.2 / lib64 / R / lib / libRlapack。所以locale: [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC=C [3] LC_TIME=en_US。utf - 8 LC_COLLATE = en_US。utf - 8 [5] LC_MONETARY = en_US。utf - 8 LC_MESSAGES = en_US。utf - 8 [7] LC_PAPER = en_US。UTF-8 LC_NAME=C [9] LC_ADDRESS=C LC_TELEPHONE=C [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C附加的基础包:[1]stats4并行统计图形grDevices utils数据集[8]方法基础

AnnotationDbi EnsDb。Hsapiens org.Hs.eg.db•156年的观点

添加评论•链接 3个月前更新约翰内斯Rainer★1.9k•写4个月前bastien_chassagnol•0

score 3. · Accepted Answer · 2021-01-08

你从EBI-EMBL获取基因定位数据，从NCBI获取基因注释数据，想知道为什么他们不同意。这是因为它们基于两种不同的方式来推断什么是基因，什么不是基因，以及它可能在哪里。基因符号来自HUGO，所以你在混合中加入了第三个参与者，结果是可以预测的。

我想说三点。

您所询问的任何注释包中提供的数据都没有被Bioconductor核心以任何方式修改，或者在EnsDb约翰内斯·雷尼尔(Johannes Rainier)做了大量的工作来提供它们。这些只是对现有数据进行方便的重新打包，关于数据为什么是这样的任何问题都与本站点的主题无关。
的EnsDb包基于ensemble bl数据(因此得名)和OrgDb包基于NCBI数据(因此名称中有“eg”)。这两种注释服务在基因是什么、可能在哪里、已知由基因产生的转录本等方面存在许多分歧。如果您试图比较这些数据集之间的东西，您将不可避免地遇到分歧，这是完全可预测的，与软件包无关(见第1项)，并不能在这个论坛上回答。
有些人似乎认为，人类基因组是一种静态的东西，我们对它了如指掌，在这种情况下，就不应该有这些差异。没有什么比这更远离事实了。我们正处于探索基因组的最初阶段，我们探索得越多，一切就变得越混乱。