1简介

TENxPBMCData包提供R/Bioconductor用于表示和操作9种不同的外周血单个核细胞(PBMC)上的单细胞RNA-seq (scRNA-seq)和CITE-seq数据集的资源10倍基因组学

  1. pbmc68k
  2. frozen_pbmc_donor_a
  3. frozen_pbmc_donor_b
  4. frozen_pbmc_donor_c
  5. pbmc33k
  6. pbmc3k
  7. pbmc6k
  8. pbmc4k
  9. pbmc8k
  10. pbmc5k-CITEseq

这个数字在数据集标题大概是实验中的细胞数量。

这个包充分利用了HDF5Array包以避免将整个数据集加载到内存中,而是将计数作为HDF5文件存储在磁盘上,并根据请求将数据的子集加载到内存中。

注意:这个包的目的是提供测试和示例数据Bioconductor包。我们没有对“过滤”的10X scRNA-RNA或CITE-seq数据进行处理;它是按原样交付的。

2工作流程

2.1加载数据

我们使用TENxPBMCData函数来下载相关文件Bioconductor的ExperimentHub网络资源。这包括包含计数的HDF5文件,以及行(基因)和列(单元格)上的元数据。输出为单个SingleCellExperiment对象的SingleCellExperiment包中。它等价于aSummarizedExperiment类,但具有许多特定于单单元数据的特性。

library(TENxPBMCData) tenx_pbmc4k <- TENxPBMCData(dataset = "pbmc4k"
##类:singlecel实验## dim: 33694 4340 ##元数据(0):## assays(1):计数## rownames(33694): ENSG00000243485 ENSG00000237613…ENSG00000277475 ## ENSG00000268674 ## rowData names(3): ENSEMBL_ID Symbol_TENx Symbol ## colnames: NULL ## colData names(11): Sample Barcode…## mainExpName: NULL ## altExpNames(0):

注意:某些用户可能特别感兴趣的是pbmc68k数据集的大小。

第一次调用TENxPBMCData ()由于需要下载一些中等大小的文件,可能需要一些时间。然后将这些文件存储在本地,以便相同或新会话中的后续调用能够快速进行。使用数据集参数选择要下载的数据集;值通过函数定义可见:

args (TENxPBMCData)
##函数(dataset = c("pbmc4k", "pbmc68k", "frozen_pbmc_donor_a", ## "frozen_pbmc_donor_b", "frozen_pbmc_donor_c", "pbmc33k", ## "pbmc3k", "pbmc6k", "pbmc8k", "pbmc5k-CITEseq"),作为。稀疏= TRUE) ## NULL

计数矩阵本身表示为aDelayedMatrixDelayedArray包中。这将底层HDF5文件包装在一个可以用r进行操作的容器中,每个计数表示分配给特定细胞中特定基因的唯一分子标识符(UMIs)的数量。

计数(tenx_pbmc4k)
## <33694 x 4340>稀疏矩阵类DelayedMatrix和类型“integer”:##[,1][,2][,3][,4]…[,4337] [,4338] [,4339] ## ensg00000243485 0000 .]000 ## ensg00000237613 0000。000 ## ensg00000186092 0000。000 ## ensg00000238009 0000。000 ## ensg00000239945 0000。0 0 0 ## ... ... ... ..## ensg00000277856 0000。000 ## ensg00000275063 0000。000 ## ensg00000271254 00000。 0 0 0 ## ENSG00000277475 0 0 0 0 . 0 0 0 ## ENSG00000268674 0 0 0 0 . 0 0 0 ## [,4340] ## ENSG00000243485 0 ## ENSG00000237613 0 ## ENSG00000186092 0 ## ENSG00000238009 0 ## ENSG00000239945 0 ## ... . ## ENSG00000277856 0 ## ENSG00000275063 0 ## ENSG00000271254 0 ## ENSG00000277475 0 ## ENSG00000268674 0

2.2探索数据

为了快速浏览数据集,我们在计数矩阵上计算一些汇总统计信息。我们告诉DelayedArray块大小,表明我们可以使用最多1gb的内存从磁盘加载数据到内存。

选项(DelayedArray.block.size = 1 e9)

我们对图书馆的大小感兴趣colSums(计数(tenx_pbmc4k)),每个细胞表达的基因数量colsum (counts(tenx_pbmc4k) != 0),以及细胞间的平均表达rowMeans(计数(tenx_pbmc4k)).天真的实现可能是

自由。n.exprs <- colsum (counts(tenx_pbmc4k) != 0L) ave.exprs <- rowMeans(counts(tenx_pbmc4k))

更先进的分析程序在各种Bioconductor软件包-请参阅SingleCellbiocViews获取更多详细信息。

2.3节约计算

保存tenx_pbmc4k对象以标准的方式,例如,

destination <- tempfile() saveRDS(tenx_pbmc4k, file = destination)

保存行数据、列数据和元数据为R对象,并记住从该对象派生的HDF5文件的位置和子集。对象可以读入newR会话readRDS(目的地),只要HDF5文件保留在原始位置。

2.4CITE-seq数据集

对于CITE-seq数据集,转录组数据和抗体捕获数据均可从单个数据集获得SingleCellExperiment对象。虽然转录组数据可以直接访问如上所述,抗体捕获数据应访问altExp函数。同样,结果计数矩阵表示为aDelayedMatrix

tenx_pbmc5k_CITEseq <- TENxPBMCData(dataset = "pbmc5k-CITEseq") counts(altExp(tenx_pbmc5k_CITEseq))
## <32 x 5247>稀疏矩阵类DelayedMatrix和类型“integer”:##[,1][,2][,3][,4]…[,5244] [,5245] [,5246] [,5247] ## cd3 25 959 942 802。402 401 6 1773 ## cd4 164 720 1647 1666。1417 1 46 1903 ## CD8a 16 8 21 5。8 222 3 9 ## CD11b 3011 12 11 11。15 7 1027 9 ## cd14 696 12 13 9。9 17 382 8 ## ... ... ... ...## hla-dr 573 15 11 19。6 40 184 32 ## tigit 10 3 3 3。2 15 1 12 ## IgG1 4 4 2 4。 1 0 2 4 ## IgG2a 1 3 0 6 . 4 0 4 2 ## IgG2b 6 2 4 8 . 0 0 2 5

3.会话信息

sessionInfo ()
## R正在开发中(不稳定)(2022-10-25 r83175) ##平台:x86_64-pc-linux-gnu(64位)##运行在Ubuntu 22.04.1 LTS ## ##矩阵产品:默认## BLAS: /home/biocbuild/bbs-3.17-bioc/R/lib/libRblas。so ## LAPACK: /usr/lib/x86_64-linux-gnu/ LAPACK /liblapack.so.3.10.0 ## ## locale: ## [1] LC_CTYPE=en_US。UTF-8 LC_NUMERIC= c# # [3] LC_TIME=en_GB LC_COLLATE= c# # [5] LC_MONETARY=en_US。utf - 8 LC_MESSAGES = en_US。UTF-8 ## [7] LC_PAPER=en_US。UTF-8 LC_NAME= c# # [9] LC_ADDRESS=C lc_phone = c# # [11] LC_MEASUREMENT=en_US。UTF-8 LC_IDENTIFICATION=C ## ##附加的基本包:## [1]stats4 stats graphics grDevices utils datasets methods ##[8]基础## ##其他附加包:[1] TENxPBMCData_1.17.0 HDF5Array_1.27.0 ## [3] rhdf5_2.43.0 DelayedArray_0.25.0 ## [5] Matrix_1.5-1 SingleCellExperiment_1.21.0 Biobase_2.59.0 ## [9] genomicranges_1.5.1 GenomeInfoDb_1.35.0 ## [11] IRanges_2.33.0 S4Vectors_0.37.0 ## [13] BiocGenerics_0.45.0 MatrixGenerics_1.11.0 ## [17] BiocStyle_2.27.0 ## ##通过命名空间加载(并且没有附加):# # # # [1] tidyselect_1.2.0 dplyr_1.0.10 [3] blob_1.2.3 Biostrings_2.67.0 # # [5] filelock_1.0.2 bitops_1.0-7 # # [7] fastmap_1.1.0 rcurl_1.98 - 1.9 # # [9] BiocFileCache_2.7.0 promises_1.2.0.1 # # [11] digest_0.6.30 mime_0.12 # # [13] lifecycle_1.0.3 ellipsis_0.3.2 # # [15] KEGGREST_1.39.0 interactiveDisplayBase_1.37.0 # # [17] RSQLite_2.2.18 magrittr_2.0.3 # # [19] compiler_4.3.0 rlang_1.0.6 # # [21] sass_0.4.2 tools_4.3.0 # # [23] utf8_1.2.2 yaml_2.3.6 # # [25] bit_4.0.4 curl_4.3.3 # # [27] withr_2.5.0[43] assertthat_0.2.1 AnnotationDbi_1.61.0 ## [45] BiocManager_1.30.19 XVector_0.39.0 ## [47] vctrs_0.5.0 jsonlite_1.8.3 ## [49] bookdown_0.29 bit64_4.0.5 ## [51] jquerylib_0.1.4 glue_1.6.2 ## [55] ## [35] crayon_1.5.2 rmarkdown_1 .17 ## [37] generics_0.1.3 httr_1.4.4 ## [39] DBI_1.1.3 cachem_1.0.6 ## [41] string_1 .4.1 zlibbioc_1.45.0 ## [43] assertthat_0.2.1 AnnotationDbi_1.61.0 ## [45] BiocManager_1.30.19 XVector_0.39.0 ## [47] vctrs_0.5.0 jsonlite_1.8.3 ## [51] jquerylib_0.1.4 glue_1.6.2 ## [53] stringi_1. 17.0 ## [55]later_1.3.0 tibble_1 .1.8 ## [57] pillar_1.8.1 rappdirs_0.3.3 ## [59] htmltools_0.5.3 rhdf5filters_1.11.0 ## [61] GenomeInfoDbData_1.2.9 R6_2.5.1 ## [63] dbplyr_2.2.1 evaluate_0.17 ## [65] shiny_1.7.3 lattice_0.20-45 ## [67] AnnotationHub_3.7.0 png_0.1-7 ## [69] memoise_2.0.1 httpuv_1.6.6 ## [71] bslib_0.4.0 Rcpp_1.0.9 ## [73] xfun_0.34 pkgconfig_2.0.3