集合bldb的智人有机体包含多余的符号基因?
1
0
进入编辑模式
@5de73a99
最后一次出现是三个月前

我想用EnsDb.Hsapiens。v86 org.Hs.eg.db结合,两个数据库不完全显示相同类型的信息(例如,只有EnsDb.Hsapiens。V86提供生物学功能,或外显子列表)。

然而,正如你在下面的代码中看到的,我很失望地注意到org.Hs.eg.db中的大量SYMBOL基因并没有出现在ensdb . hasiens中。v86,分别。

> symbol_humans_ensembl <- unique(AnnotationDbi::keys(ensdb . haspens .)v86, keytype = "SYMBOL")) >长度(symbol_humans_ensemble bl)[1] 56643 >长度(grep(pattern = "^RP11-", symbol_humans_ensemble))[1] 12045 >头部(symbol_humans_ensemble [grep(pattern = "^RP11-", symbol_humans_ensemble))symbol_humans_ensembl)]) [1] "RP11-1000B6.2" "RP11-1000B6.3" "RP11-1000B6.5" "RP11-1000B6.7" "RP11-1000B6.8" "RP11-1003J3.1" length(setdiff(symbol_humans_ensembl, AnnotationDbi::keys(org.Hs.eg.db, keytype="SYMBOL"))) [1]22155

为了调查为什么这两个数据库之间会有这样的不匹配,我注意到ensdb . haspens有相当多的SYMBOL基因。例如,在ensdb . haspens的22155个基因中,v86似乎没有被筛选。在org.Hs.eg.db中缺失了v86,总共12045个基因仅是RP11的前缀,其本身仅被认为是更正式的SYMBOL PRPF31的别名。相反,在NCBI数据库和org.Hs.eg.db中列出的许多基因在ensdb . hapiens .v86中并不存在。

我有两个问题:

  • 为什么在ensdb . haspens .v86中保留这么多看起来是多余的基因符号,或者只是完全相同基因的合成、组装版本?
  • 相反,为什么没有描述那么多的基因,包括在ensdb . haspens中编码蛋白质的基因。v86,比如ACLS或AAVS1基因?
sessionInfo() R version 4.0.2 (2020-06-22) Platform: x86_64-pc-linux-gnu (64-bit) Running under: CentOS Linux 7 (Core) Matrix products: default BLAS: /softhpc/R/4.0.2/lib64/R/lib/libRblas。所以LAPACK: / softhpc / R / 4.0.2 / lib64 / R / lib / libRlapack。所以locale: [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC=C [3] LC_TIME=en_US。utf - 8 LC_COLLATE = en_US。utf - 8 [5] LC_MONETARY = en_US。utf - 8 LC_MESSAGES = en_US。utf - 8 [7] LC_PAPER = en_US。UTF-8 LC_NAME=C [9] LC_ADDRESS=C LC_TELEPHONE=C [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C附加的基础包:[1]stats4并行统计图形grDevices utils数据集[8]方法基础
AnnotationDbiEnsDb。Hsapiensorg.Hs.eg.db•156年的观点
添加评论
3.
进入编辑模式
@james - w -麦克唐纳- 5106
最后一次见到是1天前
美国

你从EBI-EMBL获取基因定位数据,从NCBI获取基因注释数据,想知道为什么他们不同意。这是因为它们基于两种不同的方式来推断什么是基因,什么不是基因,以及它可能在哪里。基因符号来自HUGO,所以你在混合中加入了第三个参与者,结果是可以预测的。

我想说三点。

  1. 您所询问的任何注释包中提供的数据都没有被Bioconductor核心以任何方式修改,或者在EnsDb约翰内斯·雷尼尔(Johannes Rainier)做了大量的工作来提供它们。这些只是对现有数据进行方便的重新打包,关于数据为什么是这样的任何问题都与本站点的主题无关。
  2. EnsDb包基于ensemble bl数据(因此得名)和OrgDb包基于NCBI数据(因此名称中有“eg”)。这两种注释服务在基因是什么、可能在哪里、已知由基因产生的转录本等方面存在许多分歧。如果您试图比较这些数据集之间的东西,您将不可避免地遇到分歧,这是完全可预测的,与软件包无关(见第1项),并不能在这个论坛上回答。
  3. 有些人似乎认为,人类基因组是一种静态的东西,我们对它了如指掌,在这种情况下,就不应该有这些差异。没有什么比这更远离事实了。我们正处于探索基因组的最初阶段,我们探索得越多,一切就变得越混乱。
1
进入编辑模式

除了詹姆斯的回答,

的RP11符号基因名字用于长时间的非编码转录本。正如James指出的,这些信息是直接从Ensembl核心数据库中检索出来的,也是在Ensembl基因组浏览器中显示的这些基因的信息。此外,您正在使用EnsDb这确实是一个非常老的版本。最近的ensemble发布是102,许多符号/基因的名称将会改变。

注意,您可以获得最新的信息EnsDb数据库AnnotationHub:

> library(AnnotationHub) > ah <- AnnotationHub() snapshotDate(): 2020-10-27 > query(ah, "EnsDb. hsapiens ") AnnotationHub with 17 records # snapshotDate(): 2020-10-27 # $dataprovider: ensemble # $species: Homo sapiens # $rdataclass: EnsDb # additional mcols():标题AH53211 | Ensembl 87 EnsDb for Homo Sapiens AH53715 | Ensembl 88 EnsDb for Homo Sapiens ... ...AH89180 | Ensembl 102 endb for Homo sapiens . AH83216 | Ensembl 101 endb for Homo sapiens . AH89180 | Ensembl 102 endb for Homo sapiens . AH89180 | Ensembl 102 endb for智人

正如你所看到的,从87到最近的每个版本我们都有数据库,我建议如果你使用来自不同提供商的注释资源(NCBI, ensemble,…),你至少应该尝试使用来自~同一时间/同一版本的版本。

添加回复

登录然后再加上你的答案。

流量:过去一小时内访问了266个用户

使用本网站即表示接受我们的用户协议和隐私政策

由的2.3.6版本