1练习1：BRFSS调查数据

我们将探索CDC通过其广泛的行为风险因素监测系统（BRFSS.）电话调查。查看链接以获取更多信息。我们将查看数据的子集。

（简单）使用rstudio.“导入数据集”功能要查找已下载到本地磁盘的“BRFSS-Subset.csv”文件。跳过接下来的两个步骤。
（替代）使用file.choose（）找到文件'brfss-subset.csv'的路径
```
路径< -  file.choose（）
```

（替代，续）使用的数据输入数据read.csv（），分配给变量BRFSS.
```
BRFSS < -  read.csv（路径）
```
使用命令班级（）那头（）那暗淡（）那概括（）探索数据。
- 已经测量了哪些变量？
- 你可以猜测用于使用的单位，例如重量和身高吗？
```
类（BRFSS）头（BRFSS）DIM（BRFSS）摘要（BRFSS）
```

使用$操作员提取“性别”列，并总结了使用调查中的男性和女性的数量桌子（）。为'年'和两者都这样做性别和年

表（BRFSS $性）

####女性男性## 12039 7961

表（BRFSS $年）

## ## 1990 2010 ## 10000 10000

表（BRFSS $性，BRFSS $年）

## ## 1990 2010 2010 ##女5718 6321 ##男4282 3679

与（brfss，表（性，年））＃相同，但更容易

##一年##性别1990 2010 2010 ##女5718 6321 ##男4282 3679

用总计的（）总结每组的平均重量。每个群体的中位数如何？关于数字每组的观察？

（BRFSS，骨料（重量，清单（年，性别），意思，NA.rm = TRUE））

## Group.1 Group.2 x ## 1990女性64.81838 ## 2 2010女性72.95424 ## 390男性81.17999 ## 4 2010男性88.84657

与（BRFSS，汇总（重量，列表（年=年，性别=性），意思，NA.rm = TRUE））

##一年性x ## 1990女性64.81838 ## 2 2010女72.95424 ## 3990男性81.17999 ## 4 2010男性88.84657

（高级）使用公式和总计的（）描述一年，性别和体重之间的关系
```
汇总（体重〜年+性，brfss，意思）＃相同，但更多的信息
```

仅创建由1990年观察组成的数据的子集。对比较男性和女性的重量（“重量”的函数进行比较的t检验，重量〜性别）

BRFSS_1990 = BRFSS [BRFSS $年== 1990，] T.Test（重量〜性，BRFSS_1990）

## ## Welch两个样本T-Test ## ##数据：重量性别## T = -58.734，DF = 9214，P值<2.2E-16 ##替代假设：真正的差异在于手段不等于0 ## 95％的置信区间：## -16.90767 -15.81554 ##样本估计：##在群体中的均值均匀，团体男性均值## 64.81838 81.17999

关于1990年的男性（或女性）的重量与2010年差异呢？查看帮助页面？t.test.formula.。有没有办法进行T-TERBRFSS.没有明确创建对象BRFSS_1990.？

用箱形图（）绘制男性个人的重量。你可以改变体重，例如，SQRT（重量）〜年？解释结果。为上一个问题的T-Tests进行类似的Boxpots。
```
Boxplot（重量〜年，BRFS，子集=（SEX ==“男性”），Main =“Males”）
```

用stay（）绘制1990年女性个人的重量直方图。

hist（brfss_1990 [brfss_1990 $ sex ==“女性”，“重量”，Main =“女性，1990”，Xlab =“重量”）

2练习2：所有表型数据

该数据来自（旧的）急性淋巴式白血病微阵列数据集。

使用rstudio.“导入数据集”（使用标题，使用行名称，逗号分隔的第一列）或选择包含所有（急性淋巴细胞白血病）患者信息的文件并使用使用read.csv（）;为了read.csv（），使用Row.names = 1将第一列用作行名称。

path < -  file.choose（）＃查找All-Penodata.csv

stopifnot（file.exists（path））pdata < -  read.csv（path，tow.names = 1）

查看帮助页面？read.delim输入选项。运动使用？read.csv.;你能猜到为什么吗？探索您创建的对象的基本属性，例如...

类（PDATA）

## [1]“data.frame”

Colnames（pdata）

## [1]“COD”“诊断”“性别”“年龄”“BT”## [6]“缓解”“CR”“DATE.CR”“T.4.11”。“t.9.22。”## [11] "cyto.normal" "citog" "mol.biol" "fusion.protein" "mdr" ## [16] "kinet" "ccr" "relapse" "transplant" "f.u" ## [21] "date.last.seen"

昏暗（pdata）

## [1] 128 21

头（PDATA）

## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。CYTO.NORMAL CITOG ## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6 / 1997 FALSE TRUE FALSE T（9; 22）## 01010 1010 3/29/2000 M 19 B2 CR CR 6/27 /2000错误假误报简单。## 03002 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA  ## 04006 4006 7 / 17/1997 M 38 B1 CR CR 9/8/1997真假假T（4;11）## 04007 4007 7/22/1997 M 57 B2 CR CR 9/17/1997 FALSE FALSE FALSE del(6q) ## 04008 4008 7/30/1997 M 17 B1 CR CR 9/27/1997 FALSE FALSE FALSE complex alt. ## mol.biol fusion.protein mdr kinet ccr relapse transplant f.u date.last.seen ## 01005 BCR/ABL p210 NEG dyploid FALSE FALSE TRUE BMT / DEATH IN CR  ## 01010 NEG  POS dyploid FALSE TRUE FALSE REL 8/28/2000 ## 03002 BCR/ABL p190 NEG dyploid FALSE TRUE FALSE REL 10/15/1999 ## 04006 ALL1/AF4  NEG dyploid FALSE TRUE FALSE REL 1/23/1998 ## 04007 NEG  NEG dyploid FALSE TRUE FALSE REL 11/4/1997 ## 04008 NEG  NEG hyperd. FALSE TRUE FALSE REL 12/15/1997

摘要（PDATA $性）

## f m na's ## 42 83 3

摘要（pdata $ cy.normal）

##模式False True Na's ##逻辑69 24 35

提醒自己关于各种方式到数据和访问数据的列.Frame

pdata [1：5,3：4]

##性爱时代## 01005 M 53 ## 01010 M 19 ## 03002 F 52 ## 04006 M 38 ## 04007 M 57

pdata [1：5，]

## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。CYTO.NORMAL CITOG ## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6 / 1997 FALSE TRUE FALSE T（9; 22）## 01010 1010 3/29/2000 M 19 B2 CR CR 6/27 /2000错误假误报简单。## 03002 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA  ## 04006 4006 7 / 17/1997 M 38 B1 CR CR 9/8/1997真假假T（4;11）## 04007 4007 7/22/1997 M 57 B2 CR CR 9/17/1997 FALSE FALSE FALSE del(6q) ## mol.biol fusion.protein mdr kinet ccr relapse transplant f.u date.last.seen ## 01005 BCR/ABL p210 NEG dyploid FALSE FALSE TRUE BMT / DEATH IN CR  ## 01010 NEG  POS dyploid FALSE TRUE FALSE REL 8/28/2000 ## 03002 BCR/ABL p190 NEG dyploid FALSE TRUE FALSE REL 10/15/1999 ## 04006 ALL1/AF4  NEG dyploid FALSE TRUE FALSE REL 1/23/1998 ## 04007 NEG  NEG dyploid FALSE TRUE FALSE REL 11/4/1997

头部（PDATA [，3：5]）

##性别时代BT ## 01005 M 53 B2 ## 01010 M 19 B2 ## 04002 F 52 B2 ## 04007 M 3 3 B2 ## 04008 M 17 B1

尾部（PDATA [，3：5]，3）

##性爱时代BT ## 65003 M 30 T3 ## 83001 M 29 T2 ## LAL4  NA T.

头（PDATA $ AGE）

## [1] 53 19 52 38 57 17

头（pdata $性）

## [1] m m m m m m ##级别：f m

头（PDATA [PDATA $ AGE> 21，]）

## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。CYTO.NORMAL CITOG ## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6 / 1997 FALSE TRUE FALSE T（9; 22）## 03002 3002 6/24/1998 F 52 B4 CR CR 8/17 /1998年NA NA  ## 04006 4006 7 / 17/1997 M 38 B1 CR CR 9/8/1997真假假T（4; 11）## 04007 4007 7/22/1997 M 57 B2 CR CR 9/ 17/197 False False False（6Q）## 08001 8001 1/15/1997 M 40 B2 CR CR 3/26 / 26/1997 FESH FERESS FEREST DEL（P15）## 08011 8011 8/21/1998 M 33 B3 CRCR 10/8/1998 FALSE FALSE FALSE del(p15/p16) ## mol.biol fusion.protein mdr kinet ccr relapse transplant f.u date.last.seen ## 01005 BCR/ABL p210 NEG dyploid FALSE FALSE TRUE BMT / DEATH IN CR  ## 03002 BCR/ABL p190 NEG dyploid FALSE TRUE FALSE REL 10/15/1999 ## 04006 ALL1/AF4  NEG dyploid FALSE TRUE FALSE REL 1/23/1998 ## 04007 NEG  NEG dyploid FALSE TRUE FALSE REL 11/4/1997 ## 08001 BCR/ABL p190 NEG  FALSE TRUE FALSE REL 7/11/1997 ## 08011 BCR/ABL p190/p210 NEG dyploid FALSE FALSE TRUE BMT / DEATH IN CR

从下面似乎有17名女性在数据集中有17名女性。但是，有些人有NA.对于年龄和/或性别，和这些NA.值通过一些计算传播。用桌子（）总结40多个雌性的数量，并且不能确定该分类的样本数量。什么时候R.遇到An.NA.下标索引中的值，它介绍了一个NA.结果。遵守这一点（行NA.在使用时引入结果的值[与使用它子集（）功能。

IDX < -  PDATA $ SEX ==“F”＆PDATA $ AGE> 40表（IDX，USENA =“ifany”）

## idx ## false  ## 108 17 3

Dim（pdata [idx，]）＃警告：'na'行介绍

## [1] 20 21

尾巴（PDATA [IDX，]）

## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。## 49006 49006 8/12/1998 F 43 B2 CR CR 11/19/1998 NA NA ## 57001 57001 1/29/1997 F 53 B3 在感应中的死亡虚假假## 62001 62001 11 /11/1997 F 50 b4 ref ref  false ## na.1    na     na na ## 02020 2020 3/23 /2000 F 48 T2  DEATH IN INDUCTION  FALSE FALSE ## NA.2    NA     NA NA ## cyto.normal citog mol.biol fusion.protein mdr kinet ccr relapse transplant f.u ## 49006 NA  BCR/ABL p210 NEG dyploid FALSE TRUE FALSE REL ## 57001 TRUE normal NEG  NEG hyperd. NA NA NA  ## 62001 FALSE t(9;22)+other BCR/ABL  NEG hyperd. NA NA NA  ## NA.1 NA      NA NA NA  ## 02020 FALSE complex alt. NEG  NEG dyploid NA NA NA  ## NA.2 NA      NA NA NA  ## date.last.seen ## 49006 4/26/1999 ## 57001  ## 62001  ## NA.1  ## 02020  ## NA.2

Dim（子集（PDATA，IDX））＃更好：没有na行

## [1] 17 21

尾部（子集（PDATA，IDX））

## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。## 28032 28032 9/26/1998 F 52 B1 CR CR 10/30/1998 True False ## 30001 30001 1/16/1997 F 54 B3 在感应中的死亡 FALSE ## 49006 49006 8 /12/1998 F 43 B2 CR CR 11 / 19/1998 NA NA ## 57001 57001 1/29/1997 F 53 B3 在感应中死亡假假## 62001 62001 11/11/1997 F 50 B4R.EF REF  FALSE TRUE ## 02020 2020 3/23/2000 F 48 T2  DEATH IN INDUCTION  FALSE FALSE ## cyto.normal citog mol.biol fusion.protein mdr kinet ccr relapse transplant f.u ## 28032 FALSE t(4;11) ALL1/AF4  NEG dyploid TRUE FALSE FALSE CCR ## 30001 FALSE t(9;22)+other BCR/ABL p190 NEG hyperd. NA NA NA  ## 49006 NA  BCR/ABL p210 NEG dyploid FALSE TRUE FALSE REL ## 57001 TRUE normal NEG  NEG hyperd. NA NA NA  ## 62001 FALSE t(9;22)+other BCR/ABL  NEG hyperd. NA NA NA  ## 02020 FALSE complex alt. NEG  NEG dyploid NA NA NA  ## date.last.seen ## 28032 5/16/2002 ## 30001  ## 49006 4/26/1999 ## 57001  ## 62001  ## 02020

##为`[`：将Na值设置为false idx [is.na（idx）] < -  false dim（pdata [idx]）

## [1] 17 21

使用Mol.biol.列将数据子集中用于包含“BCR / ABL”或“NEG”的个人，例如，

BCRABL < -  PDATA [PDATA $ MOL.BIOL％IN％C（“BCR / ABL”，“NEG”），]

这Mol.biol.列是一个因素，即使在子集之后也保留所有级别。有时候保持因子水平有时便于，但在我们使用的情况下Droplevels（）删除未使用的级别

bcrable $ mol.biol < -  droplevels（bcrable $ mol.biol）

这BT.柱是描述B-和T细胞亚型的因素

水平（BCRABL $ BT）

## [1]“B”“B1”“B2”“B3”“B4”“T”“T”“T1”“T2”“T2”“T3”“T3”“T4”

如何折叠B1，B2，......单个B型B，同样对于T1，T2，......，所以只有两个亚型，B和T？一种策略是取代两个字母的级别（例如，B1.）单字母级别（例如，B.）。使用substring（）选择第一个级别字母，并使用新值使用新值更新以前的级别水平< -。

表（BCRABL $ BT）

## ## B B1 B2 B3 B4 T T1 T2 T3 T4 ## 4 9 35 22 9 5 1 15 9 2

级别（bcrabl $ bt）< -  substring（级别（bcrabl $ bt），1,1）表（bcrabl $ bt）

## ## B T ## 79 32

用总计的（）在每个BCR / ABL和NEG组中计算具有B和T细胞类型的样本数量

聚合（rowname（bcrabl）〜bt + mol.biol，bcrabl，长度）

## bt mol.biol rownames（bcrabl）## 1 b bcr / abl 37 ## 2 b neg 42 ## 3 t neg 32

用总计的（）计算BCR / ABL和Neg治疗组中的男性和女性的平均年龄。

汇总（年龄〜mol.biol +性别，bcrabl，平均值）

## mol.biol性爱时代## 1 BCR / ABL F 39.93750 ## 2 Neg F 30.42105 ## 3 BCR / ABL M 40.50000 ## 4 Neg M 27.21154

用t.test（）比较BCR / ABL与Neg群体中个体的年龄;使用效果可视化结果箱形图（）。在这两种情况下，使用公式界面。咨询帮助页面？T.Test.假设两组中的年龄的变化是相同的，并且重新进行测试。测试输出的哪些部分变化？

T.Test（年龄〜mol.biol，bcrabl）

## ## welch两个样本t-test ## ##数据：通过Mol.biol ## t = 4.8172，df = 68.529，p值= 8.401e-06 ##替代假设：意味着的真实差异不是等于0 ## 95％的置信区间：## 7.13507 17.22408 ##样本估计：##在BCR / ABL中的均值在Group Neg ## 40.25000 28.07042

Boxplot（年龄〜mol.biol，bcrabl）

A.3 - 数据输入和操作

马丁摩根martin.morgan@roswellpark.org.

2017年1月11日

内容

1练习1：BRFSS调查数据

2练习2：所有表型数据