1扩展练习1:BRFSS调查数据

我们将探索疾病控制与预防中心通过其广泛的行为风险因素监测系统(BRFSS电话调查。查看链接获取更多信息。我们将查看数据的一个子集。

使用file.choose ()找到文件“BRFSS-subset.csv”的路径
```
路径< - file.choose ()
```
使用read.csv ()，赋值给变量brfss
```
brfss < - read.csv(路径)
```
使用命令,如类(),头(),昏暗的(),colnames (),总结()探索数据。
- 测量了哪些变量?
- 你能猜出体重和身高的单位吗?
使用美元操作员提取“性别”栏，并总结在调查中使用的男性和女性人数表()。对Year也做同样的处理。
```
表(美元brfss性)
```
```
## ##女男## 12039 7961
```
的xtabs ()函数使用类似公式的接口执行交叉表;总结每年参与研究的男性和女性人数。
```
xtab(~年份+性别，brfss)
```
```
## ## ##性别## #年女## # 1990 5718 4282 ## # 2010 6321 3679
```

使用总()总结每组的平均权重。那么每一组的中位数权重呢?

(体重~年+性别，brfss，平均)

性别体重1 1990女64.81838 # 2 2010女72.95424 # 3 1990男81.17999 # 4 2010男88.84657

建立一个只包括1990年观察结果的数据子集。对男性和女性的体重进行t检验(“‘体重’作为‘性别’的函数”，体重~性)

brfss_1990 = brfss[brfss$Year == 1990，] t.test(Weight ~ Sex, brfss_1990)

# # # #韦尔奇两样本t检验# # # #数据:重量按性别# # t = -58.734, df = 9214, p值< 2.2 e-16 # #备择假设:真正的均数差不等于0 # # 95%置信区间:-16.90767 - -15.81554 # # # #样本估计:# #意味着女性意味着组男性组# # 64.81838 - 81.17999

1990年和2010年男性(或女性)的体重有什么不同?查看帮助页面t.test.formula ?。有什么方法可以进行t检验吗brfss没有显式地创建对象brfss_1990吗?

使用箱线图()绘制出男性个体的权重。你能转换重量吗，例如，sqrt(重量)~吗?解释结果。对前一个问题的t检验做类似的箱线图。
```
boxplot(Weight ~ Year, brfss，子集= (Sex == "Male")， main="Male ")
```

使用嘘()绘制1990年女性个体的权重直方图。

hist(brfss_1990[brfss_1990$Sex == "Female"， "Weight"]， main="Female, 1990"， xlab="Weight")

2扩展练习2:所有表型数据

该数据来自一个(旧的)急性淋巴细胞白血病微阵列数据集。

选择包含ALL(急性淋巴细胞白血病)患者信息的文件

path <- file.choose() #查找ALL-phenoData.csv

pdata <- read.csv(path)

查看帮助页面read.delim ?输入选项。练习使用read.csv ?;你能猜到原因吗?探索你创建的对象的基本属性，例如…

类(pdata)

# #[1]“data.frame”

colnames (pdata)

# #[1]“X”“鳕鱼”“诊断”“性”“年龄”# #[6]“缓解”“CR”“BT日期。cr”“t.4.11。”# #[11]“t.9.22。””阶段。正常的"citog" "mol。biol"融合。蛋白质" ## [16]"mdr" "kinet" "ccr" "relapse" "transplant" ## [21] "f.u" "date.last.seen"

暗(pdata)

22 . a)【句意

头(pdata)

鳕鱼诊断性别年龄BT缓解CR日期。cr t.4.11。t.9.22。阶段。正常citog # # 1 01005 1005 5/21/1997 53 B2 CR CR 8/6/1997假真的假t (9; 22) # # 2 01010 1010 3/29/2000 19 B2 CR CR 6/27/2000假假假简单的alt。# # 3 03002 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA NA < NA > # # 4 04006 4006 7/17/1997 38 B1 CR CR 9/8/1997真的假假的t (4; 11) # # 5 04007 4007 7/22/1997 57 B2 CR CRm17 B1 CR CR 9/27/1997假假假复合物alt. ## mol.biol融合。mdr蛋白其ccr复发移植f.u date.last.seen # # 1 BCR / ABL p210 NEG dyploid假假真BMT死亡/ CR < NA > # # 2 NEG < NA > POS dyploid假真的假REL 8/28/2000 # # 3 BCR / ABL p190 NEG dyploid假真的假REL 10/15/1999 # # 4 ALL1 / AF4 < NA > NEG dyploid假真的假REL 1/23/1998 # # 5 NEG < NA > NEG dyploid虚假的真实错误REL 11/4/1997 ## 6 NEG  NEG hyperd。1997年12月15日，假，真，假

总结(pdata性美元)

F M NA的## 42 83 3

总结(pdata cyto.normal美元)

## Mode FALSE TRUE NA的## logical 69 24 35

提醒自己关于子集和访问data.frame列的各种方法

pdata [1:5, 3:4)

# #诊断性# # 1 # # 5/21/1997米2 3/29/2000 M # # 3 6/24/1998 f# # 4 7/17/1997 M # # 5 7/22/1997 M

pdata [1:5]

鳕鱼诊断性别年龄BT缓解CR日期。cr t.4.11。t.9.22。阶段。正常citog # # 1 01005 1005 5/21/1997 53 B2 CR CR 8/6/1997假真的假t (9; 22) # # 2 01010 1010 3/29/2000 19 B2 CR CR 6/27/2000假假假简单的alt。# # 3 03002 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA NA < NA > # # 4 04006 4006 7/17/1997 38 B1 CR CR 9/8/1997真的假假的t (4; 11) # # 5 04007 4007 7/22/1997 57 B2 CR CR9/17/1997假假假del(6q) ## mol.biol融合。mdr蛋白其ccr复发移植f.u date.last.seen # # 1 BCR / ABL p210 NEG dyploid假假真BMT死亡/ CR < NA > # # 2 NEG < NA > POS dyploid假真的假REL 8/28/2000 # # 3 BCR / ABL p190 NEG dyploid假真的假REL 10/15/1999 # # 4 ALL1 / AF4 < NA > NEG dyploid假真的假REL 1/23/1998 # # 5 NEG < NA > NEG dyploid虚假的真实假REL 11/4/1997

头(pdata [3:5])

2 .诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称:诊断名称

尾(pdata [3:5] 3)

##诊断##诊断##诊断##诊断##诊断##诊断##诊断##诊断##诊断##诊断##诊断##诊断##诊断##

头(pdata时代美元)

## 53 19 52 38 57 17

头(pdata性美元)

## [1] M M F M M M M ##级别:F M

头(pdata [pdata $ > 21岁])

鳕鱼诊断性别年龄BT缓解CR日期。cr t.4.11。t.9.22。阶段。正常citog # # 1 01005 1005 5/21/1997 53 B2 CR CR 8/6/1997假真的假t (9; 22) # # 3 03002 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA NA < NA > # # 4 04006 4006 7/17/1997 38 B1 CR CR 9/8/1997真的假假的t (4, 11) # # 5 04007 4007 7/22/1997 57 B2 CR CR 9/17/1997假假假del q (6) # # 10 08001 8001 1/15/1997 40 B2 CR CR3/26/1997假假假del(p15) ## 11 08011 8011 8/21/1998 M 33 B3 CR CR 10/8/1998假假假del(p15/p16) ## mol.biol融合。mdr蛋白其ccr复发移植f.u date.last.seen # # 1 BCR / ABL p210 NEG dyploid假假真BMT死亡/ CR < NA > # # 3 BCR / ABL p190 NEG dyploid假真的假REL 10/15/1999 # # 4 ALL1 / AF4 < NA > NEG dyploid假真的假REL 1/23/1998 # # 5 NEG < NA > NEG dyploid假真的假REL 11/4/1997 # # 10 BCR / ABL p190 NEG < NA >虚假的真实BCR/ABL p190/p210 NEG二倍体假假真BMT /死亡在CR

从下面看，数据集中有17位40岁以上的女性。然而，有些人有NA年龄和/或性别，还有这些NA值通过一些计算传播。使用表()总结40岁以上的女性的数量，以及无法确定该分类的样本数量。当R遇到一个NA值，则引入NA到的结果。观察这个(行NA值引入到结果中)(与使用子集()函数。

idx <- pdata$sex == "F" & pdata$age > 40 table(idx, useNA="ifany")

## idx ## FALSE TRUE  ## 108 17

dim(pdata[idx，]) #警告:'NA'行被引入

## [1] 20 22

尾(pdata [idx])

鳕鱼诊断性别年龄BT缓解CR日期。cr t.4.11。t.9.22。# # 83 49006 49006 43 8/12/1998 F B2 CR CR 11/19/1998 NA NA # # 84 57001 57001 1/29/1997 F 53 B3 < NA >死亡感应< NA >假假# # 85 62001 62001 11/11/1997 F 50 B4 REF REF < NA >假真# # NA.1 < NA > < NA > < NA > < NA > NA < NA > < NA > < NA > < NA > NA NA # # 98 02020 2020 3/23/2000 F 48 T2 < NA >死亡感应< NA >假假# # NA.2 < NA > < NA >  NA     NA NA ## cyto正常的citog mol.biol融合。蛋白mdr kinet ccr复发移植f.u ## 83 NA  BCR/ABL p210 NEG二倍体FALSE TRUE FALSE REL ## 84 TRUE正常NEG  NEG hyperd。NA NA NA  ## 85 FALSE t(9;22)+other BCR/ABL  NEG hyperd。< NA NA NA NA > # # NA.1 NA < NA > < NA > < NA > < NA > < NA > NA NA NA < NA > # # 98错误的复杂alt。底片< NA > NEG dyploid NA NA NA < NA > # # NA.2 NA < NA > < NA > < NA > < NA > < NA > NA NA NA < NA > # # date.last.seen 4/26/1999 83 # # # # # 85 # 84 < NA > < NA > # # NA.1 < NA > # # 98 < NA > # # NA.2 < NA >

#更好:没有NA行

## [1] 17 22

尾(子集(pdata, idx))

鳕鱼诊断性别年龄BT缓解CR日期。cr t.4.11。t.9.22。# # 63 28032 28032 9/26/1998 F 52 B1 CR CR 10/30/1998真假# # 71 30001 30001 1/16/1997 F 54 B3 < NA >死亡感应< NA >假真的43 # # 83 49006 49006 F 8/12/1998 B2 CR CR 11/19/1998 NA NA # # 84 57001 57001 1/29/1997 F 53 B3 < NA >死亡感应< NA >假假# # 85 62001 62001 11/11/1997 F 50 B4 REF REF < NA >假真正的# # 98 020202020年3月23日/2000 F 48 T2  DEATH IN INDUCTION  FALSE FALSE ## cyto。正常的citog mol.biol融合。fu ## 63 FALSE t(4;11) ALL1/AF4  NEG二倍体TRUE FALSE FALSE ccr ## 71 FALSE t(9;22)+other BCR/ABL p190 NEG hyperd。NA NA NA  ## 83 NA  BCR/ABL p210 NEG二倍体FALSE TRUE FALSE REL ## 84 TRUE正常NEG  NEG hyperd。NA NA NA  ## 85 FALSE t(9;22)+other BCR/ABL  NEG hyperd。NA NA NA  ## 98 FALSE complex alt. NEG  NEG dyploid NA NA NA  ## date.last.seen ## 63 5/16/2002 ## 71  ## 83 4/26/1999 ## 84  ## 85  ## 98

##设置NA值为FALSE idx[is.na(idx)] <- FALSE dim(pdata[idx，])

## [1] 17 22

使用mol.biol列将数据子集化，只包含具有“BCR/ABL”或“NEG”的个体，例如:

bcrabl < - pdata [pdata $摩尔。% c("BCR/ABL"， "NEG")，]

的mol.biol列是一个因素，即使细分后也保留所有级别。保留因素级别有时是方便的，但在我们的情况下，我们使用droplevels ()删除未使用的级别

bcrabl美元摩尔。杂志< - droplevels (bcrabl mol.biol美元)

的英国电信列是描述B-和t细胞亚型的因子

水平(bcrabl BT美元)

# #[1]“B”“B1”“B2”“B3”“B4”“T”“T1”“T2”“T3”“T4”

如何将B1 B2。。分解为单一的B类型，同理，T1 T2。。所以只有两个子类型，B和T?一种策略是替换两个字母的水平(例如，B1)，以单字母级别(例如，B)。使用substring ()选择level的第一个字母，并使用新的值更新以前的级别水平< -。

表(bcrabl BT美元)

## ## b b1 b2 b3 b4 t t1 t2 t3 t4 ## 4 9 35 22 9 5 1 15 9 2

<- substring(level (bcrabl$BT)， 1, 1) table(bcrabl$BT)

## ## b t ## 79 32

使用xtabs ()(交叉表法)计数BCR/ABL和NEG各组中B-和t细胞类型的样本数量

xtabs(~ BT + mol.biol, bcrabl)

## m# biol # BT BCR/ABL NEG # b37 42 # T 0 32

使用总()计算BCR/ABL和NEG治疗组男女平均年龄。

总数(年龄~ mol.biol +性别，bcrabl，平均)

## # 1 BCR/ABL F 39.93750 ## 2 NEG F 30.42105 ## 3 BCR/ABL M 40.50000 ## 4 NEG M 27.21154

使用t.test ()比较BCR/ABL组和NEG组的年龄;使用以下方法将结果可视化箱线图()。在这两种情况下，使用公式接口。参考帮助页面t.test ?再做一次测试，假设两组的年龄差异是相同的。测试输出的哪些部分发生了变化?

t检验(年龄~ mol.biol, bcrabl)

# # # #韦尔奇两样本t检验# # # #数据:年龄mol.biol # # t = 4.8172, df = 68.529, p = 8.401 e-06 # #备择假设:真正的均数差不等于0 # # 95%置信区间:7.13507 - 17.22408 # # # #样本估计:# #是BCR / ABL组是在否定组# # 40.25000 - 28.07042

Boxplot(年龄~ mol.biol, bcrabl)

数据输入和操作

马丁•摩根martin.morgan@roswellpark.org

2016年5月16 - 17日

内容

1扩展练习1:BRFSS调查数据

2扩展练习2:所有表型数据