我们将探索CDC通过其广泛的行为风险因素监测系统(BRFSS.)电话调查。查看链接以获取更多信息。我们将查看数据的子集。
(简单)使用rstudio.“导入数据集”功能要查找已下载到本地磁盘的“BRFSS-Subset.csv”文件。跳过接下来的两个步骤。
(替代)使用file.choose()
找到文件'brfss-subset.csv'的路径
路径< - file.choose()
(替代,续)使用的数据输入数据read.csv()
,分配给变量BRFSS.
BRFSS < - read.csv(路径)
使用命令班级()
那头()
那暗淡()
那概括()
探索数据。
已经测量了哪些变量?
你可以猜测用于使用的单位,例如重量和身高吗?
类(BRFSS)头(BRFSS)DIM(BRFSS)摘要(BRFSS)
使用$
操作员提取“性别”列,并总结了使用调查中的男性和女性的数量桌子()
。为'年'和两者都这样做性别
和年
表(BRFSS $性)
####女性男性## 12039 7961
表(BRFSS $年)
## ## 1990 2010 ## 10000 10000
表(BRFSS $性,BRFSS $年)
## ## 1990 2010 2010 ##女5718 6321 ##男4282 3679
与(brfss,表(性,年))#相同,但更容易
##一年##性别1990 2010 2010 ##女5718 6321 ##男4282 3679
用总计的()
总结每组的平均重量。每个群体的中位数如何?关于数字每组的观察?
(BRFSS,骨料(重量,清单(年,性别),意思,NA.rm = TRUE))
## Group.1 Group.2 x ## 1990女性64.81838 ## 2 2010女性72.95424 ## 390男性81.17999 ## 4 2010男性88.84657
与(BRFSS,汇总(重量,列表(年=年,性别=性),意思,NA.rm = TRUE))
##一年性x ## 1990女性64.81838 ## 2 2010女72.95424 ## 3990男性81.17999 ## 4 2010男性88.84657
(高级)使用公式
和总计的()
描述一年,性别和体重之间的关系
汇总(体重〜年+性,brfss,意思)#相同,但更多的信息
仅创建由1990年观察组成的数据的子集。对比较男性和女性的重量(“重量”的函数进行比较的t检验,重量〜性别
)
BRFSS_1990 = BRFSS [BRFSS $年== 1990,] T.Test(重量〜性,BRFSS_1990)
## ## Welch两个样本T-Test ## ##数据:重量性别## T = -58.734,DF = 9214,P值<2.2E-16 ##替代假设:真正的差异在于手段不等于0 ## 95%的置信区间:## -16.90767 -15.81554 ##样本估计:##在群体中的均值均匀,团体男性均值## 64.81838 81.17999
关于1990年的男性(或女性)的重量与2010年差异呢?查看帮助页面?t.test.formula.
。有没有办法进行T-TERBRFSS.
没有明确创建对象BRFSS_1990.
?
用箱形图()
绘制男性个人的重量。你可以改变体重,例如,SQRT(重量)〜年
?解释结果。为上一个问题的T-Tests进行类似的Boxpots。
Boxplot(重量〜年,BRFS,子集=(SEX ==“男性”),Main =“Males”)
用stay()
绘制1990年女性个人的重量直方图。
hist(brfss_1990 [brfss_1990 $ sex ==“女性”,“重量”,Main =“女性,1990”,Xlab =“重量”)
该数据来自(旧的)急性淋巴式白血病微阵列数据集。
使用rstudio.“导入数据集”(使用标题,使用行名称,逗号分隔的第一列)或选择包含所有(急性淋巴细胞白血病)患者信息的文件并使用使用read.csv()
;为了read.csv()
, 使用Row.names = 1
将第一列用作行名称。
path < - file.choose()#查找All-Penodata.csv
stopifnot(file.exists(path))pdata < - read.csv(path,tow.names = 1)
查看帮助页面?read.delim
输入选项。运动使用?read.csv.
;你能猜到为什么吗?探索您创建的对象的基本属性,例如...
类(PDATA)
## [1]“data.frame”
Colnames(pdata)
## [1]“COD”“诊断”“性别”“年龄”“BT”## [6]“缓解”“CR”“DATE.CR”“T.4.11”。“t.9.22。”## [11] "cyto.normal" "citog" "mol.biol" "fusion.protein" "mdr" ## [16] "kinet" "ccr" "relapse" "transplant" "f.u" ## [21] "date.last.seen"
昏暗(pdata)
## [1] 128 21
头(PDATA)
## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。CYTO.NORMAL CITOG ## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6 / 1997 FALSE TRUE FALSE T(9; 22)## 01010 1010 3/29/2000 M 19 B2 CR CR 6/27 /2000错误假误报简单。## 03002 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA ## 04006 4006 7 / 17/1997 M 38 B1 CR CR 9/8/1997真假假T(4;11)## 04007 4007 7/22/1997 M 57 B2 CR CR 9/17/1997 FALSE FALSE FALSE del(6q) ## 04008 4008 7/30/1997 M 17 B1 CR CR 9/27/1997 FALSE FALSE FALSE complex alt. ## mol.biol fusion.protein mdr kinet ccr relapse transplant f.u date.last.seen ## 01005 BCR/ABL p210 NEG dyploid FALSE FALSE TRUE BMT / DEATH IN CR ## 01010 NEG POS dyploid FALSE TRUE FALSE REL 8/28/2000 ## 03002 BCR/ABL p190 NEG dyploid FALSE TRUE FALSE REL 10/15/1999 ## 04006 ALL1/AF4 NEG dyploid FALSE TRUE FALSE REL 1/23/1998 ## 04007 NEG NEG dyploid FALSE TRUE FALSE REL 11/4/1997 ## 04008 NEG NEG hyperd. FALSE TRUE FALSE REL 12/15/1997
摘要(PDATA $性)
## f m na's ## 42 83 3
摘要(pdata $ cy.normal)
##模式False True Na's ##逻辑69 24 35
提醒自己关于各种方式到数据和访问数据的列.Frame
pdata [1:5,3:4]
##性爱时代## 01005 M 53 ## 01010 M 19 ## 03002 F 52 ## 04006 M 38 ## 04007 M 57
pdata [1:5,]
## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。CYTO.NORMAL CITOG ## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6 / 1997 FALSE TRUE FALSE T(9; 22)## 01010 1010 3/29/2000 M 19 B2 CR CR 6/27 /2000错误假误报简单。## 03002 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA ## 04006 4006 7 / 17/1997 M 38 B1 CR CR 9/8/1997真假假T(4;11)## 04007 4007 7/22/1997 M 57 B2 CR CR 9/17/1997 FALSE FALSE FALSE del(6q) ## mol.biol fusion.protein mdr kinet ccr relapse transplant f.u date.last.seen ## 01005 BCR/ABL p210 NEG dyploid FALSE FALSE TRUE BMT / DEATH IN CR ## 01010 NEG POS dyploid FALSE TRUE FALSE REL 8/28/2000 ## 03002 BCR/ABL p190 NEG dyploid FALSE TRUE FALSE REL 10/15/1999 ## 04006 ALL1/AF4 NEG dyploid FALSE TRUE FALSE REL 1/23/1998 ## 04007 NEG NEG dyploid FALSE TRUE FALSE REL 11/4/1997
头部(PDATA [,3:5])
##性别时代BT ## 01005 M 53 B2 ## 01010 M 19 B2 ## 04002 F 52 B2 ## 04007 M 3 3 B2 ## 04008 M 17 B1
尾部(PDATA [,3:5],3)
##性爱时代BT ## 65003 M 30 T3 ## 83001 M 29 T2 ## LAL4 NA T.
头(PDATA $ AGE)
## [1] 53 19 52 38 57 17
头(pdata $性)
## [1] m m m m m m ##级别:f m
头(PDATA [PDATA $ AGE> 21,])
## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。CYTO.NORMAL CITOG ## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6 / 1997 FALSE TRUE FALSE T(9; 22)## 03002 3002 6/24/1998 F 52 B4 CR CR 8/17 /1998年NA NA ## 04006 4006 7 / 17/1997 M 38 B1 CR CR 9/8/1997真假假T(4; 11)## 04007 4007 7/22/1997 M 57 B2 CR CR 9/ 17/197 False False False(6Q)## 08001 8001 1/15/1997 M 40 B2 CR CR 3/26 / 26/1997 FESH FERESS FEREST DEL(P15)## 08011 8011 8/21/1998 M 33 B3 CRCR 10/8/1998 FALSE FALSE FALSE del(p15/p16) ## mol.biol fusion.protein mdr kinet ccr relapse transplant f.u date.last.seen ## 01005 BCR/ABL p210 NEG dyploid FALSE FALSE TRUE BMT / DEATH IN CR ## 03002 BCR/ABL p190 NEG dyploid FALSE TRUE FALSE REL 10/15/1999 ## 04006 ALL1/AF4 NEG dyploid FALSE TRUE FALSE REL 1/23/1998 ## 04007 NEG NEG dyploid FALSE TRUE FALSE REL 11/4/1997 ## 08001 BCR/ABL p190 NEG FALSE TRUE FALSE REL 7/11/1997 ## 08011 BCR/ABL p190/p210 NEG dyploid FALSE FALSE TRUE BMT / DEATH IN CR
从下面似乎有17名女性在数据集中有17名女性。但是,有些人有NA.
对于年龄和/或性别,和这些NA.
值通过一些计算传播。用桌子()
总结40多个雌性的数量,并且不能确定该分类的样本数量。什么时候R.遇到An.NA.
下标索引中的值,它介绍了一个NA.
结果。遵守这一点(行NA.
在使用时引入结果的值[
与使用它子集()
功能。
IDX < - PDATA $ SEX ==“F”&PDATA $ AGE> 40表(IDX,USENA =“ifany”)
## idx ## false ## 108 17 3
Dim(pdata [idx,])#警告:'na'行介绍
## [1] 20 21
尾巴(PDATA [IDX,])
## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。## 49006 49006 8/12/1998 F 43 B2 CR CR 11/19/1998 NA NA ## 57001 57001 1/29/1997 F 53 B3 在感应中的死亡虚假假## 62001 62001 11 /11/1997 F 50 b4 ref ref false ## na.1 na na na ## 02020 2020 3/23 /2000 F 48 T2 DEATH IN INDUCTION FALSE FALSE ## NA.2 NA NA NA ## cyto.normal citog mol.biol fusion.protein mdr kinet ccr relapse transplant f.u ## 49006 NA BCR/ABL p210 NEG dyploid FALSE TRUE FALSE REL ## 57001 TRUE normal NEG NEG hyperd. NA NA NA ## 62001 FALSE t(9;22)+other BCR/ABL NEG hyperd. NA NA NA ## NA.1 NA NA NA NA ## 02020 FALSE complex alt. NEG NEG dyploid NA NA NA ## NA.2 NA NA NA NA ## date.last.seen ## 49006 4/26/1999 ## 57001 ## 62001 ## NA.1 ## 02020 ## NA.2
Dim(子集(PDATA,IDX))#更好:没有na行
## [1] 17 21
尾部(子集(PDATA,IDX))
## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。## 28032 28032 9/26/1998 F 52 B1 CR CR 10/30/1998 True False ## 30001 30001 1/16/1997 F 54 B3 在感应中的死亡 FALSE ## 49006 49006 8 /12/1998 F 43 B2 CR CR 11 / 19/1998 NA NA ## 57001 57001 1/29/1997 F 53 B3 在感应中死亡假假## 62001 62001 11/11/1997 F 50 B4R.EF REF FALSE TRUE ## 02020 2020 3/23/2000 F 48 T2 DEATH IN INDUCTION FALSE FALSE ## cyto.normal citog mol.biol fusion.protein mdr kinet ccr relapse transplant f.u ## 28032 FALSE t(4;11) ALL1/AF4 NEG dyploid TRUE FALSE FALSE CCR ## 30001 FALSE t(9;22)+other BCR/ABL p190 NEG hyperd. NA NA NA ## 49006 NA BCR/ABL p210 NEG dyploid FALSE TRUE FALSE REL ## 57001 TRUE normal NEG NEG hyperd. NA NA NA ## 62001 FALSE t(9;22)+other BCR/ABL NEG hyperd. NA NA NA ## 02020 FALSE complex alt. NEG NEG dyploid NA NA NA ## date.last.seen ## 28032 5/16/2002 ## 30001 ## 49006 4/26/1999 ## 57001 ## 62001 ## 02020
##为`[`:将Na值设置为false idx [is.na(idx)] < - false dim(pdata [idx])
## [1] 17 21
使用Mol.biol.
列将数据子集中用于包含“BCR / ABL”或“NEG”的个人,例如,
BCRABL < - PDATA [PDATA $ MOL.BIOL%IN%C(“BCR / ABL”,“NEG”),]
这Mol.biol.
列是一个因素,即使在子集之后也保留所有级别。有时候保持因子水平有时便于,但在我们使用的情况下Droplevels()
删除未使用的级别
bcrable $ mol.biol < - droplevels(bcrable $ mol.biol)
这BT.
柱是描述B-和T细胞亚型的因素
水平(BCRABL $ BT)
## [1]“B”“B1”“B2”“B3”“B4”“T”“T”“T1”“T2”“T2”“T3”“T3”“T4”
如何折叠B1,B2,......单个B型B,同样对于T1,T2,......,所以只有两个亚型,B和T?一种策略是取代两个字母的级别(例如,B1.
)单字母级别(例如,B.
)。使用substring()
选择第一个级别字母,并使用新值使用新值更新以前的级别水平< -
。
表(BCRABL $ BT)
## ## B B1 B2 B3 B4 T T1 T2 T3 T4 ## 4 9 35 22 9 5 1 15 9 2
级别(bcrabl $ bt)< - substring(级别(bcrabl $ bt),1,1)表(bcrabl $ bt)
## ## B T ## 79 32
用总计的()
在每个BCR / ABL和NEG组中计算具有B和T细胞类型的样本数量
聚合(rowname(bcrabl)〜bt + mol.biol,bcrabl,长度)
## bt mol.biol rownames(bcrabl)## 1 b bcr / abl 37 ## 2 b neg 42 ## 3 t neg 32
用总计的()
计算BCR / ABL和Neg治疗组中的男性和女性的平均年龄。
汇总(年龄〜mol.biol +性别,bcrabl,平均值)
## mol.biol性爱时代## 1 BCR / ABL F 39.93750 ## 2 Neg F 30.42105 ## 3 BCR / ABL M 40.50000 ## 4 Neg M 27.21154
用t.test()
比较BCR / ABL与Neg群体中个体的年龄;使用效果可视化结果箱形图()
。在这两种情况下,使用公式
界面。咨询帮助页面?T.Test.
假设两组中的年龄的变化是相同的,并且重新进行测试。测试输出的哪些部分变化?
T.Test(年龄〜mol.biol,bcrabl)
## ## welch两个样本t-test ## ##数据:通过Mol.biol ## t = 4.8172,df = 68.529,p值= 8.401e-06 ##替代假设:意味着的真实差异不是等于0 ## 95%的置信区间:## 7.13507 17.22408 ##样本估计:##在BCR / ABL中的均值在Group Neg ## 40.25000 28.07042
Boxplot(年龄〜mol.biol,bcrabl)