7/27/2017

SummarizedExperiment类

SingleCellExperiment类

库(SingleCellExperiment)

扩展了轻量级容器单细胞基因组数据RangedSummarizedExperiment类用以下额外的插槽和方法针对单细胞基因组数据集。

  • int_elementMetadata
  • int_colData
  • int_metadata
  • reducedDims

SingleCellExperiment类

所显示int_前缀,前三个槽并不意味着直接操作。

  • isSpike < -将设置一个适当的列int_elementMetadata
  • sizeFactors < -将一个列的int_colData槽。

创建实例

主要有两种方法创建的实例SingleCellExperiment。首先通过构造函数。

南加州爱迪生公司< - SingleCellExperiment(化验=列表(数量=矩阵(rpois(100年,λ= 10),ncol = 10, nrow = 10)))预计
# # # #类:SingleCellExperiment暗淡:10 10 # #元数据(0):# #化验(1):计数# # rownames:零构成了rowData名称(0):# # # # colnames:零# # colData名称(0):# #减少(0):# #峰值(0):

创建实例

第二个是通过强迫SummarizedExperiment对象。

se < - SummarizedExperiment(化验=列表(数量=矩阵(rpois(100年,λ= 10),ncol = 10, nrow = 10))), (se,“SingleCellExperiment”)
# # # #类:SingleCellExperiment暗淡:10 10 # #元数据(0):# #化验(1):计数# # rownames:零构成了rowData名称(0):# # # # colnames:零# # colData名称(0):# #减少(0):# #峰值(0):

一个简单的例子

艾伦库(scRNAseq)数据(allen)
# #类:SummarizedExperiment # #暗淡:20908 379 # #元数据(2):SuppInfo which_qc # #化验(4):tophat_counts cufflinks_fpkm rsem_counts rsem_tpm # # rownames (20908): 0610007 p14rik 0610009 b22rik……Zzef1 Zzz3构成了rowData名称(0):# # # # colnames (379): SRR2140028 SRR2140022……SRR2139341 SRR2139336 # # colData名称(22):NREADS NALIGNED……的动物。ID # # passes_qc_checks_s

一个简单的例子

南加州爱迪生公司< -南加州爱迪生公司(艾伦,“SingleCellExperiment”)
# #类:SingleCellExperiment # #暗淡:20908 379 # #元数据(2):SuppInfo which_qc # #化验(4):tophat_counts cufflinks_fpkm rsem_counts rsem_tpm # # rownames (20908): 0610007 p14rik 0610009 b22rik……Zzef1 Zzz3构成了rowData名称(0):# # # # colnames (379): SRR2140028 SRR2140022……SRR2139341 SRR2139336 # # colData名称(22):NREADS NALIGNED……的动物。ID # # passes_qc_checks_s # #减少(0):# #峰值(0):

添加激增信息

“ERCC isSpike (sce) < - grepl (“^ ERCC -“, rownames (sce)预计
# #类:SingleCellExperiment # #暗淡:20908 379 # #元数据(2):SuppInfo which_qc # #化验(4):tophat_counts cufflinks_fpkm rsem_counts rsem_tpm # # rownames (20908): 0610007 p14rik 0610009 b22rik……Zzef1 Zzz3构成了rowData名称(0):# # # # colnames (379): SRR2140028 SRR2140022……SRR2139341 SRR2139336 # # colData名称(22):NREADS NALIGNED……的动物。ID # # passes_qc_checks_s # #减少(0):# #(1):峰值ERCC

添加激增信息

表(isSpike (sce))
# # # # 92 # 20816 #假如此
spikeNames (sce)
# # [1]“ERCC”

添加激增信息

让我们假装亚当基因家族的成员列车停在外部基因在这些数据。

“亚当”isSpike (sce) < - grepl(“亚当^ [0 - 9]”,rownames (sce)预计
# #类:SingleCellExperiment # #暗淡:20908 379 # #元数据(2):SuppInfo which_qc # #化验(4):tophat_counts cufflinks_fpkm rsem_counts rsem_tpm # # rownames (20908): 0610007 p14rik 0610009 b22rik……Zzef1 Zzz3构成了rowData名称(0):# # # # colnames (379): SRR2140028 SRR2140022……SRR2139341 SRR2139336 # # colData名称(22):NREADS NALIGNED……的动物。ID # # passes_qc_checks_s # #减少(0):# #钉(2):ERCC亚当

添加激增信息

表(isSpike (sce))
# # # # 125 # 20783 #假如此
“ERCC”表(isSpike (sce))
# # # # 92 # 20816 #假如此
“亚当”表(isSpike (sce))
# # # #假真正的33 # # 20875

增加大小的因素

说明,我们只是计算读取大小因素的总数,但更好的方法来计算规模因素(见,例如,食物包)。

sizeFactors (sce) < - colSums(化验(sce)头(sizeFactors (sce))
# # SRR2140028 SRR2140022 SRR2140055 SRR2140083 SRR2139991 SRR2140067 # # 5173863 6445002 2343379 6445002 5173863 2364851

增加大小的因素

我们可以计算多个大小因素并将它们存储在对象,通过提供一个名称。

ERCC“sizeFactors (sce) < - colSums(化验(sce) [isSpike (,“ERCC”)])头(sizeFactors (,“ERCC”))
# # SRR2140028 SRR2140022 SRR2140055 SRR2140083 SRR2139991 SRR2140067 # # 224648 186208 162370 512991 278034 64975

检索colDatarowData

默认情况下,spike-ins和规模因素不是由这些方法返回,因为它们在概念上不同于其他元数据。

colnames (colData (sce))
# # [1]“NREADS”# #“NALIGNED”[3]“RALIGN”“TOTAL_DUP”# #[5]“入门”“PCT_RIBOSOMAL_BASES”# # [7]“PCT_CODING_BASES”“PCT_UTR_BASES”# # [9]“PCT_INTRONIC_BASES”“PCT_INTERGENIC_BASES”# # [11]“PCT_MRNA_BASES”“MEDIAN_CV_COVERAGE”# # [13]“MEDIAN_5PRIME_BIAS”“MEDIAN_3PRIME_BIAS”# # [15]“MEDIAN_5PRIME_TO_3PRIME_BIAS”“driver_1_s”# # [17]“dissection_s”“核心。输入“# #[19]”初选。类型”“次要的。输入“# #[21]”的动物。ID passes_qc_checks_s”

检索colDatarowData

rowData (sce)
0 # # DataFrame 20908行和列

检索colDatarowData

但它们是通过指定访问内部= TRUE

内部= TRUE colnames (colData (sce))
# # [1]“NREADS”# #“NALIGNED”[3]“RALIGN”“TOTAL_DUP”# #[5]“入门”“PCT_RIBOSOMAL_BASES”# # [7]“PCT_CODING_BASES”“PCT_UTR_BASES”# # [9]“PCT_INTRONIC_BASES”“PCT_INTERGENIC_BASES”# # [11]“PCT_MRNA_BASES”“MEDIAN_CV_COVERAGE”# # [13]“MEDIAN_5PRIME_BIAS”“MEDIAN_3PRIME_BIAS”# # [15]“MEDIAN_5PRIME_TO_3PRIME_BIAS”“driver_1_s”# # [17]“dissection_s”“核心。输入“# #[19]”初选。类型”“次要的。输入“# #[21]”的动物。ID”“passes_qc_checks_s”# # [23]“size_factor size_factor_ERCC”

检索colDatarowData

内部= TRUE rowData (sce)
# # DataFrame 20908行3列# # is_spike_ERCC is_spike is_spike_Adam # # <逻辑> <逻辑> <逻辑> # # 1假假假# # 2假假假# # 3假假假# # 4假假假# # 5假假假# #……20904假假假# # 20905 # #假假假# # 20906假假假# # 20907假假假假假假# # 20908

添加low-dimentional表示

库(Rtsne) set.seed (5252) pca_data < - prcomp (t (log1p(化验(sce_sub)))) tsne_data < - Rtsne (pca_data $ x, 1:50, pca = FALSE) reducedDims (sce_sub) < - SimpleList (pca = pca_data $ x, TSNE = tsne_data $ Y)

添加low-dimentional表示

sce_sub
# #类:SingleCellExperiment # #暗淡:100 379 # #元数据(2):SuppInfo which_qc # #化验(4):tophat_counts cufflinks_fpkm rsem_counts rsem_tpm # # rownames (100): Lamp5 Fam19a1……Rnf2 Zfp35构成了rowData名称(0):# # # # colnames (379): SRR2140028 SRR2140022……SRR2139341 SRR2139336 # # colData名称(22):NREADS NALIGNED……的动物。ID # # passes_qc_checks_s # #减少(2):PCA TSNE # #钉(2):ERCC亚当

添加low-dimentional表示

reducedDims (sce_sub)
长度2 # # # #名单(2):PCA TSNE

添加low-dimentional表示

头(reducedDim (sce_sub PCA) [1:2])
# # # # PC1 PC2 SRR2140028 17.557295 - -7.717162 # # SRR2140022 21.468975 - -1.198212 # # SRR2140055 4.303756 - -11.360330 # # SRR2140083 21.440479 - -9.435868 # # SRR2139991 15.592089 - -11.043989 # # SRR2140067 16.539336 - -9.831779

设计决策

  • 南加州爱迪生公司延伸RangedSummarizedExperiment而不是SummarizedExperiment(rowRanges ()可用)。
  • 让开发人员提供更多的方法2021欧洲杯体育投注开户SingleCellExperiment类专业包。

HDF5

库(DelayedArray) saveHDF5SummarizedExperiment (sce dir =“。/南加州爱迪生公司”)
sce_h5 < - loadHDF5SummarizedExperiment sce_h5(南加州爱迪生公司”。/ /”)
# #类:SingleCellExperiment # #暗淡:20908 379 # #元数据(2):SuppInfo which_qc # #化验(4):tophat_counts cufflinks_fpkm rsem_counts rsem_tpm # # rownames (20908): 0610007 p14rik 0610009 b22rik……Zzef1 Zzz3构成了rowData名称(0):# # # # colnames (379): SRR2140028 SRR2140022……SRR2139341 SRR2139336 # # colData名称(22):NREADS NALIGNED……的动物。ID # # passes_qc_checks_s # #减少(0):# #钉(2):ERCC亚当

HDF5

分析(sce_h5)
# # 20908 x 379双打DelayedMatrix对象:# # SRR2140028 SRR2140022……SRR2139341 SRR2139336 # # 234 p14rik 0610007 486。1530 299 # # 0610009 b22rik 170 0。1182 719 # # 0610009 l18rik 0 0。0 0 # # 0610009 o20rik 0 1574。787 429 # # 0610010 f05rik 0 0。1125 254 # #……# # Zyg11a 0 0。0 0 # # Zyg11b 377 715。Zyx股票830 106 # # 0 11。 803 0 ## Zzef1 37 698 . 0 678 ## Zzz3 1 85 . 4 0

HDF5

库(pryr) object_size (sce)
# # 256 MB
object_size (sce_h5)
# # 2.53 MB