你的老板多年来一直在研究急性淋巴细胞性白血病(ALL)。一个数据集包含128个不同样本中12625个基因的微阵列基因表达值。您的老板想要分析数据的不同子集，并给了您一些以制表符分隔的文件。一个文件(allphenodata.tsv.)描述样本，另一个(ALLassay.tsv）含有预处理的基因表达数据。你应该想出一种方法来创造你的老板询问的子集。您意识到您可以阅读Excel并在那里读取数据，但您担心能够做可重复的研究，并且您对纪念错误似乎总是似乎似乎的簿记错误。所以你认为你会给生物体一试……

1阅读数据R

下载allphenodata.tsv.和ALLassay.tsv文件到当前工作目录，getwd（）。

1.1用`read.table ()`阅读allphenodata.tsv.

fname =“allphenodata.tsv”##使用file.choose（）来查找文件pdata = read.table（fname）

查看帮助页面？read.delim对于输入选项，并探索您创建的对象的基本属性，例如...

类(pdata)

# #[1]“data.frame”

Colnames（PData）

## [1]“COD”“诊断”“性别”“年龄”“BT”## [6]“缓解”“CR”“DATE.CR”“T.4.11”。“t.9.22。”## [11] "cyto.normal" "citog" "mol.biol" "fusion.protein" "mdr" ## [16] "kinet" "ccr" "relapse" "transplant" "f.u" ## [21] "date.last.seen"

昏暗（pdata）

## [1] 128 21

头(pdata)

## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。CYTO.NORMAL CITOG ## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6 / 1997 FALSE TRUE FALSE T（9; 22）## 01010 1010 3/29/2000 M 19 B2 CR CR 6/27 /2000错误假误报简单。## 03002 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA  ## 04006 4006 7 / 17/1997 M 38 B1 CR CR 9/8/1997真假假T（4; 11）## 04007 4007 7/22/1997 M 57 B2 CR CR 9/17/1997假假语假DEL（6Q）## 04008 4008 7/30/1997 M 17 B1 CR CR 9/27/1997错误假假复合ALT。## mol.biol fusion.protein mdr kinet ccr relapse transplant f.u date.last.seen ## 01005 BCR/ABL p210 NEG dyploid FALSE FALSE TRUE BMT / DEATH IN CR  ## 01010 NEG  POS dyploid FALSE TRUE FALSE REL 8/28/2000 ## 03002 BCR/ABL p190 NEG dyploid FALSE TRUE FALSE REL 10/15/1999 ## 04006 ALL1/AF4  NEG dyploid FALSE TRUE FALSE REL 1/23/1998 ## 04007 NEG  NEG dyploid FALSE TRUE FALSE REL 11/4/1997 ## 04008 NEG  NEG hyperd. FALSE TRUE FALSE REL 12/15/1997

摘要（PDATA $性）

F M NA的## 42 83 3

总结(pdata cyto.normal美元)

##模式False True Na's ##逻辑69 24 35

提醒自己关于各种方式到数据和访问数据的列.Frame

pdata [1：5,3：4]

## f52 ## 04006 # m38 ## 04007 # m57 ## 04006 ## 04007 # m57 ## 04006 ## 04007 # m57 ## 04006 ## 04007 # m52 # 04006 # 04007 # m57

pdata [1：5，]

## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。CYTO.NORMAL CITOG ## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6 / 1997 FALSE TRUE FALSE T（9; 22）## 01010 1010 3/29/2000 M 19 B2 CR CR 6/27 /2000错误假误报简单。## 03002 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA  ## 04006 4006 7 / 17/1997 M 38 B1 CR CR 9/8/1997真假假T（4;11) ## 04007 4007 7/22/1997 M 57 B2 CR CR 9/17/1997 FALSE FALSE FALSE del(6q) ## mol.biol fusion.protein mdr kinet ccr relapse transplant f.u date.last.seen ## 01005 BCR/ABL p210 NEG dyploid FALSE FALSE TRUE BMT / DEATH IN CR  ## 01010 NEG  POS dyploid FALSE TRUE FALSE REL 8/28/2000 ## 03002 BCR/ABL p190 NEG dyploid FALSE TRUE FALSE REL 10/15/1999 ## 04006 ALL1/AF4  NEG dyploid FALSE TRUE FALSE REL 1/23/1998 ## 04007 NEG  NEG dyploid FALSE TRUE FALSE REL 11/4/1997

头(pdata [3:5])

1 . b . 1 . b . 1 . b . 2 . b . 3 . c . 4 . c . 4 . c . 5 . c . 5 . c . 5 . c . 5 . c . 5 . c . 5 . c . 5 . c . 5

尾部（PDATA [，3：5]，3）

##性别时代BT ## 65003 M 30 T3 ## 83001 M 29 T2 ## LAL4  NA T.

头(pdata时代美元)

## [1] 53 19 52 38 57 17

头（pdata $性）

## [1] M M F M M M M ##级别:F M

头(pdata [pdata $ > 21岁])

## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。CYTO.NORMAL CITOG ## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6 / 1997 FALSE TRUE FALSE T（9; 22）## 03002 3002 6/24/1998 F 52 B4 CR CR 8/17 /1998年NA NA  ## 04006 4006 7 / 17/1997 M 38 B1 CR CR 9/8/1997真假假T（4; 11）## 04007 4007 7/22/1997 M 57 B2 CR CR 9/ 17/197 False False False（6Q）## 08001 8001 1/15/1997 M 40 B2 CR CR 3/26 / 26/1997 FESH FERESS FEREST DEL（P15）## 08011 8011 8/21/1998 M 33 B3 CRCR 10/8/1998 FALSE FALSE FALSE del(p15/p16) ## mol.biol fusion.protein mdr kinet ccr relapse transplant f.u date.last.seen ## 01005 BCR/ABL p210 NEG dyploid FALSE FALSE TRUE BMT / DEATH IN CR  ## 03002 BCR/ABL p190 NEG dyploid FALSE TRUE FALSE REL 10/15/1999 ## 04006 ALL1/AF4  NEG dyploid FALSE TRUE FALSE REL 1/23/1998 ## 04007 NEG  NEG dyploid FALSE TRUE FALSE REL 11/4/1997 ## 08001 BCR/ABL p190 NEG  FALSE TRUE FALSE REL 7/11/1997 ## 08011 BCR/ABL p190/p210 NEG dyploid FALSE FALSE TRUE BMT / DEATH IN CR

1.2用`read.table ()`读取表达式值

<——“ALLassay帧。Tsv " exprs <- as.matrix(读。表(帧,check.names = FALSE))

用昏暗的()计算表达式数据中的行数和列数。使用下标查看前几行和列exprs [1：5,1：5]。行名是什么?的列名与行名一致吗pdata目的？是什么范围（）表达数据？你能创建直方图吗（提示：stay（）)的数据?是什么绘图（密度（exprs））吗?你可以使用阴谋（）和线条（）把每个样本的密度画在一个图上?

2做一个概括分析对象

您可以直接使用矩阵和数据帧，但最好将这些相关部分放入单个对象，a概括分析。

加载适当的生物体包裹

if (BiocInstaller::biocVersion() >= "3.2") {library(summarizedexperexperiment)} else {library(genome ranges)}

并创造一个单一的概括分析来自数据的两个部分的对象。一些生物体对象增强了基础的行为R对象;一个例子是dataframe（）

SE < - 概括过分（exprs，coldata = dataframe（pdata））

研究对象，注意您可以检索原始元素，并且可以以协调的方式进行子集。

头(colData (se))

## DataFrame具有6行和21列## COD诊断性别时代BT REFISCE CR DATE.CR T.4.11。##    <整数>     <逻辑> ## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6 / 6/1997 false＃＃01010 1010 3/29/2000 M 19 B2 CR CR 6/27/2000 FALSE ## 03002 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA ## 04006 4006 7/17/17/17/197 M 38B1 CR CR 9/8/1997 True ## 04007 4007 7/22/1997 M 57 B2 CR CR 9/17/1997 False ## 04008 4008 7/30/1997 M 17 B1 CR 9/1997 False＃＃t.9.22。Cyto.Normal Citog Mol.Biol Fusion.Protein MDR Kinet CCR ## <逻辑> <逻辑> <因子> <因子> <因子> <因子> <因子> <逻辑> ## 01005真假T（9; 22）BCR / ABL P210 Neg Dypoid False ## 01010假误简单Alt。neg na pos dimproid false ## 03002 na na na bcr / abl p190 neg dypoid false ## 04006假假t（4; 11）ALL1 / AF4 NA NOG Dypoid False ## 04007 False False Del（6Q）Neg Neg Dypoid False## 04008假误复杂Alt。neg na neg hyperd。FALSE ## relapse transplant f.u date.last.seen ##     ## 01005 FALSE TRUE BMT / DEATH IN CR NA ## 01010 TRUE FALSE REL 8/28/2000 ## 03002 TRUE FALSE REL 10/15/1999 ## 04006 TRUE FALSE REL 1/23/1998 ## 04007 TRUE FALSE REL 11/4/1997 ## 04008 TRUE FALSE REL 12/15/1997

分析(se) [1:5, 1:5)

## 01005 01010 03002 04006 04007 ## 1000_at 5.046194 4.932537 4.799294 4.92264.844565 ## 1002_f_at 3.900466 4.208155 3.886169 4.206798 3.416923 ## 1003_at 5.903856 6.169024 5.860459 6.116890 5.687997 ## 1004_at 5.925260 5.912780 5.893209 6.170245 5.615210

se性% %美元“M”

# #[1]真的真的假的真的真的真的假的真的真的真的真的真的真的真的真的# #[16]假的真的真的真的假的真的真的真的真的真的真的假的假的假的假的# #[31]假假真的真的假假假假假真的假的真的假的真的假的# #[46]真的假的真的假假假真的真的真的真的假的真的假的真的错误# #[61]真的真的假的真的真的真的真的真的真的真的假的真的真的假假# #[76]真的真的真的假的真的真的真的假假假的真的真的真的真的假的# #[91]真的真的假的真的假的真的假的假的真的假的真的真的真的真的真的# #[106]真的假假真的假真的真的真的假的真的真的假的真真真真真真真真真真真真真真真真真真真真真真假

男性< -  SE [，SE $性别％“M”]男性

##元数据(0):## assays(1): " ## rownames(12625): 1000_at 1001_at…##元数据列名称(0):## colnames(83): 01005 01010…65003 83001 ## colData names(21): cod diagnosis…f.u date.last.seen

测定（男性）[1：5,1：5]

## 01005 01010 04006 04007 04008 ## 1004_at 5.046194 4.932537 4.922627 4.844565 5.147762 # 1002 _at 3.900466 4.208155 4.206798 3.416923 3.945869 ## 1003 _at 5.903856 6.169024 6.116890 5.687997 6.208061 ## 1004_at 5.925260 5.912780 6.170245 5.615210 5.923487

用小插图（“摘要化医师”）阅读其他操作概括分析。

3.展示你的技能

快速为你的老板创建以下数据子集:

研究中的所有妇女。
所有女性超过40岁
一个东西bcrabl.包含个人Mol.biol.属于“BCR/ABL”或“NEG”。

你可以吗…？

创建一个新列，以简化英国电信列（列出不同的B-和T细胞亚型）以包含仅限B或者T，例如，重新编码B，B1，B2，B3和B4简单B，也同样适用于T吗?
用总()计算BCR/ABL和NEG治疗组男女平均年龄?
用t.test（）比较BCR / ABL与Neg群体中个体的年龄;使用效果可视化结果箱线图()。在这两种情况下，使用公式接口。参考帮助页面？T.Test.再做一次测试，假设两组的年龄差异是相同的。测试输出的哪些部分发生了变化?

4记录你的工作

在一个简单的脚本中总结上面的练习。你能弄清楚如何编写一个'Markdown'文档，其中包括R代码块，以及描述您所做的文本以及显示结果的数字和表格？

5资源

致谢

核心（西雅图）：Sonali Arora，Marc Carlson，Nate Hayden，Jim Hester，Valerie Obenchain，HervéPagès，Paul Shannon，Dan Tenenbaum。
本演示文稿中报告的研究得到了国家癌症研究所和国家人类基因组研究所，国家人类基因组研究所在奖励号码U24CA180996和U41HG004059和U41HG004059下，并在奖项1247813下的国家科学基金会。内容完全是负责的作者并不一定代表国家卫生研究所或国家科学基金会的官方意见。

5.1`sessioninfo（）`

sessioninfo（）

## R 3.2.2（2015-08-14）##平台：X86_64-PC-Linux-GNU（64位）##正在运行：debian gnu / linux stretting / sid ## ## locale：##[1] lc_ctype = en_us.utf-8 lc_numeric = c lc_time = en_us.utf-8 ## [4] lc_collate = en_us.utf-8 lc_monetary = en_us.utf-8 lc_messages = en_us.utf-8 ## [7] lc_paper = en_us.utf-8 lc_name = c lc_address = c ## [10] lc_telephone = c lc_measurement = en_us.utf-8 lc_identified = c ## ##附加基本包：## [1] stats4并行统计图形grdevicesUtils数据集方法Base ## ##其他附加包：## [1] all_1.11.0 org.hs.eg.db_3.2.3 ## [3] rsqlite_1.0.0 dbi_0.3.1 ## [5] ggplot2_1.0.1 Airway_0。103.1 ## [7] limma_3.25.18 DESeq2_1.9.51 ## [9] RcppArmadillo_0.6.100.0.0 Rcpp_0.12.1 ## [11] BSgenome.Hsapiens.UCSC.hg19_1.4.0 BSgenome_1.37.6 ## [13] rtracklayer_1.29.28 TxDb.Hsapiens.UCSC.hg19.knownGene_3.2.2 ## [15] GenomicFeatures_1.21.33 AnnotationDbi_1.31.19 ## [17] SummarizedExperiment_0.3.11 Biobase_2.29.1 ## [19] GenomicRanges_1.21.32 GenomeInfoDb_1.5.16 ## [21] microbenchmark_1.4-2 Biostrings_2.37.8 ## [23] XVector_0.9.4 IRanges_2.3.26 ## [25] S4Vectors_0.7.23 BiocGenerics_0.15.11 ## [27] BiocStyle_1.7.9 ## ## loaded via a namespace (and not attached): ## [1] splines_3.2.2 Formula_1.2-1 latticeExtra_0.6-26 ## [4] Rsamtools_1.21.21 yaml_2.1.13 lattice_0.20-33 ## [7] digest_0.6.8 RColorBrewer_1.1-2 colorspace_1.2-6 ## [10] sandwich_2.3-4 htmltools_0.2.6 plyr_1.8.3 ## [13] XML_3.98-1.3 biomaRt_2.25.3 genefilter_1.51.1 ## [16] zlibbioc_1.15.0 xtable_1.7-4 mvtnorm_1.0-3 ## [19] scales_0.3.0 BiocParallel_1.3.54 annotate_1.47.4 ## [22] TH.data_1.0-6 nnet_7.3-11 proto_0.3-10 ## [25] survival_2.38-3 magrittr_1.5 evaluate_0.8 ## [28] MASS_7.3-44 foreign_0.8-66 BiocInstaller_1.19.14 ## [31] tools_3.2.2 formatR_1.2.1 multcomp_1.4-1 ## [34] stringr_1.0.0 munsell_0.4.2 locfit_1.5-9.1 ## [37] cluster_2.0.3 lambda.r_1.1.7 futile.logger_1.4.1 ## [40] grid_3.2.2 RCurl_1.95-4.7 labeling_0.3 ## [43] bitops_1.0-6 rmarkdown_0.8.1 gtable_0.1.2 ## [46] codetools_0.2-14 reshape2_1.4.1 GenomicAlignments_1.5.18 ## [49] gridExtra_2.0.0 zoo_1.7-12 knitr_1.11 ## [52] Hmisc_3.17-0 futile.options_1.0.0 stringi_0.5-5 ## [55] geneplotter_1.47.0 rpart_4.1-10 acepack_1.3-3.3

处理数据:`概括分析`

马丁摩根（martin.morgan@roswellpark.org.)
罗斯威尔帕克癌症研究所，布法罗，纽约
2015年10月5 - 9日

内容

1阅读数据R

1.1用`read.table ()`阅读allphenodata.tsv.

1.2用`read.table ()`读取表达式值

2做一个概括分析对象

3.展示你的技能

4记录你的工作

5资源

5.1`sessioninfo（）`

处理数据:概括分析

马丁摩根（martin.morgan@roswellpark.org.)罗斯威尔帕克癌症研究所，布法罗，纽约2015年10月5 - 9日

内容

1阅读数据R

1.1用read.table ()阅读allphenodata.tsv.

1.2用read.table ()读取表达式值

2做一个概括分析对象

3.展示你的技能

4记录你的工作

5资源

5.1sessioninfo（）

处理数据:`概括分析`

马丁摩根（martin.morgan@roswellpark.org.)
罗斯威尔帕克癌症研究所，布法罗，纽约
2015年10月5 - 9日

1.1用`read.table ()`阅读allphenodata.tsv.

1.2用`read.table ()`读取表达式值

5.1`sessioninfo（）`