进入编辑模式
@5de73a99
最后一次出现是三个月前
我想用EnsDb.Hsapiens。v86 org.Hs.eg.db结合,两个数据库不完全显示相同类型的信息(例如,只有EnsDb.Hsapiens。V86提供生物学功能,或外显子列表)。
然而,正如你在下面的代码中看到的,我很失望地注意到org.Hs.eg.db中的大量SYMBOL基因并没有出现在ensdb . hasiens中。v86,分别。
> symbol_humans_ensembl <- unique(AnnotationDbi::keys(ensdb . haspens .)v86, keytype = "SYMBOL")) >长度(symbol_humans_ensemble bl)[1] 56643 >长度(grep(pattern = "^RP11-", symbol_humans_ensemble))[1] 12045 >头部(symbol_humans_ensemble [grep(pattern = "^RP11-", symbol_humans_ensemble))symbol_humans_ensembl)]) [1] "RP11-1000B6.2" "RP11-1000B6.3" "RP11-1000B6.5" "RP11-1000B6.7" "RP11-1000B6.8" "RP11-1003J3.1" length(setdiff(symbol_humans_ensembl, AnnotationDbi::keys(org.Hs.eg.db, keytype="SYMBOL"))) [1]22155
为了调查为什么这两个数据库之间会有这样的不匹配,我注意到ensdb . haspens有相当多的SYMBOL基因。例如,在ensdb . haspens的22155个基因中,v86似乎没有被筛选。在org.Hs.eg.db中缺失了v86,总共12045个基因仅是RP11的前缀,其本身仅被认为是更正式的SYMBOL PRPF31的别名。相反,在NCBI数据库和org.Hs.eg.db中列出的许多基因在ensdb . hapiens .v86中并不存在。
我有两个问题:
- 为什么在ensdb . haspens .v86中保留这么多看起来是多余的基因符号,或者只是完全相同基因的合成、组装版本?
- 相反,为什么没有描述那么多的基因,包括在ensdb . haspens中编码蛋白质的基因。v86,比如ACLS或AAVS1基因?
sessionInfo() R version 4.0.2 (2020-06-22) Platform: x86_64-pc-linux-gnu (64-bit) Running under: CentOS Linux 7 (Core) Matrix products: default BLAS: /softhpc/R/4.0.2/lib64/R/lib/libRblas。所以LAPACK: / softhpc / R / 4.0.2 / lib64 / R / lib / libRlapack。所以locale: [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC=C [3] LC_TIME=en_US。utf - 8 LC_COLLATE = en_US。utf - 8 [5] LC_MONETARY = en_US。utf - 8 LC_MESSAGES = en_US。utf - 8 [7] LC_PAPER = en_US。UTF-8 LC_NAME=C [9] LC_ADDRESS=C LC_TELEPHONE=C [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C附加的基础包:[1]stats4并行统计图形grDevices utils数据集[8]方法基础
除了詹姆斯的回答,
的RP11符号更基因名字用于长时间的非编码转录本。正如James指出的,这些信息是直接从Ensembl核心数据库中检索出来的,也是在Ensembl基因组浏览器中显示的这些基因的信息。此外,您正在使用
EnsDb
这确实是一个非常老的版本。最近的ensemble发布是102,许多符号/基因的名称将会改变。注意,您可以获得最新的信息
EnsDb
数据库AnnotationHub
:正如你所看到的,从87到最近的每个版本我们都有数据库,我建议如果你使用来自不同提供商的注释资源(NCBI, ensemble,…),你至少应该尝试使用来自~同一时间/同一版本的版本。