内容

1练习1:BRFSS调查数据

我们将探索CDC通过其广泛的行为风险因素监测系统(BRFSS.)电话调查。查看链接以获取更多信息。我们将查看数据的子集。

  1. (简单)使用rstudio.“导入数据集”功能要查找已下载到本地磁盘的“BRFSS-Subset.csv”文件。跳过接下来的两个步骤。

  2. (替代)使用file.choose()找到文件'brfss-subset.csv'的路径

    路径< -  file.choose()
  1. (替代,续)使用的数据输入数据read.csv(),分配给变量BRFSS.

    BRFSS < -  read.csv(路径)
  2. 使用命令班级()头()暗淡()概括()探索数据。

    • 已经测量了哪些变量?

    • 你可以猜测用于使用的单位,例如重量和身高吗?

    类(BRFSS)头(BRFSS)DIM(BRFSS)摘要(BRFSS)
  3. 使用$操作员提取“性别”列,并总结了使用调查中的男性和女性的数量桌子()。为'年'和两者都这样做性别

    表(BRFSS $性)
    ####女性男性## 12039 7961
    表(BRFSS $年)
    ## ## 1990 2010 ## 10000 10000
    表(BRFSS $性,BRFSS $年)
    ## ## 1990 2010 2010 ##女5718 6321 ##男4282 3679
    与(brfss,表(性,年))#相同,但更容易
    ##一年##性别1990 2010 2010 ##女5718 6321 ##男4282 3679
  4. 总计的()总结每组的平均重量。每个群体的中位数如何?关于数字每组的观察?

    (BRFSS,骨料(重量,清单(年,性别),意思,NA.rm = TRUE))
    ## Group.1 Group.2 x ## 1990女性64.81838 ## 2 2010女性72.95424 ## 390男性81.17999 ## 4 2010男性88.84657
    与(BRFSS,汇总(重量,列表(年=年,性别=性),意思,NA.rm = TRUE))
    ##一年性x ## 1990女性64.81838 ## 2 2010女72.95424 ## 3990男性81.17999 ## 4 2010男性88.84657
  5. (高级)使用公式总计的()描述一年,性别和体重之间的关系

    汇总(体重〜年+性,brfss,意思)#相同,但更多的信息
  6. 仅创建由1990年观察组成的数据的子集。对比较男性和女性的重量(“重量”的函数进行比较的t检验,重量〜性别

    BRFSS_1990 = BRFSS [BRFSS $年== 1990,] T.Test(重量〜性,BRFSS_1990)
    ## ## Welch两个样本T-Test ## ##数据:重量性别## T = -58.734,DF = 9214,P值<2.2E-16 ##替代假设:真正的差异在于手段不等于0 ## 95%的置信区间:## -16.90767 -15.81554 ##样本估计:##在群体中的均值均匀,团体男性均值## 64.81838 81.17999

    关于1990年的男性(或女性)的重量与2010年差异呢?查看帮助页面?t.test.formula.。有没有办法进行T-TERBRFSS.没有明确创建对象BRFSS_1990.

  7. 箱形图()绘制男性个人的重量。你可以改变体重,例如,SQRT(重量)〜年?解释结果。为上一个问题的T-Tests进行类似的Boxpots。

    Boxplot(重量〜年,BRFS,子集=(SEX ==“男性”),Main =“Males”)

  8. stay()绘制1990年女性个人的重量直方图。

    hist(brfss_1990 [brfss_1990 $ sex ==“女性”,“重量”,Main =“女性,1990”,Xlab =“重量”)

2练习2:所有表型数据

该数据来自(旧的)急性淋巴式白血病微阵列数据集。

使用rstudio.“导入数据集”(使用标题,使用行名称,逗号分隔的第一列)或选择包含所有(急性淋巴细胞白血病)患者信息的文件并使用使用read.csv();为了read.csv(), 使用Row.names = 1将第一列用作行名称。

path < -  file.choose()#查找All-Penodata.csv
stopifnot(file.exists(path))pdata < -  read.csv(path,tow.names = 1)

查看帮助页面?read.delim输入选项。运动使用?read.csv.;你能猜到为什么吗?探索您创建的对象的基本属性,例如...

类(PDATA)
## [1]“data.frame”
Colnames(pdata)
## [1]“COD”“诊断”“性别”“年龄”“BT”## [6]“缓解”“CR”“DATE.CR”“T.4.11”。“t.9.22。”## [11] "cyto.normal" "citog" "mol.biol" "fusion.protein" "mdr" ## [16] "kinet" "ccr" "relapse" "transplant" "f.u" ## [21] "date.last.seen"
昏暗(pdata)
## [1] 128 21
头(PDATA)
## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。CYTO.NORMAL CITOG ## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6 / 1997 FALSE TRUE FALSE T(9; 22)## 01010 1010 3/29/2000 M 19 B2 CR CR 6/27 /2000错误假误报简单。## 03002 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA  ## 04006 4006 7 / 17/1997 M 38 B1 CR CR 9/8/1997真假假T(4;11)## 04007 4007 7/22/1997 M 57 B2 CR CR 9/17/1997 FALSE FALSE FALSE del(6q) ## 04008 4008 7/30/1997 M 17 B1 CR CR 9/27/1997 FALSE FALSE FALSE complex alt. ## mol.biol fusion.protein mdr kinet ccr relapse transplant f.u date.last.seen ## 01005 BCR/ABL p210 NEG dyploid FALSE FALSE TRUE BMT / DEATH IN CR  ## 01010 NEG  POS dyploid FALSE TRUE FALSE REL 8/28/2000 ## 03002 BCR/ABL p190 NEG dyploid FALSE TRUE FALSE REL 10/15/1999 ## 04006 ALL1/AF4  NEG dyploid FALSE TRUE FALSE REL 1/23/1998 ## 04007 NEG  NEG dyploid FALSE TRUE FALSE REL 11/4/1997 ## 04008 NEG  NEG hyperd. FALSE TRUE FALSE REL 12/15/1997
摘要(PDATA $性)
## f m na's ## 42 83 3
摘要(pdata $ cy.normal)
##模式False True Na's ##逻辑69 24 35

提醒自己关于各种方式到数据和访问数据的列.Frame

pdata [1:5,3:4]
##性爱时代## 01005 M 53 ## 01010 M 19 ## 03002 F 52 ## 04006 M 38 ## 04007 M 57
pdata [1:5,]
## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。CYTO.NORMAL CITOG ## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6 / 1997 FALSE TRUE FALSE T(9; 22)## 01010 1010 3/29/2000 M 19 B2 CR CR 6/27 /2000错误假误报简单。## 03002 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA  ## 04006 4006 7 / 17/1997 M 38 B1 CR CR 9/8/1997真假假T(4;11)## 04007 4007 7/22/1997 M 57 B2 CR CR 9/17/1997 FALSE FALSE FALSE del(6q) ## mol.biol fusion.protein mdr kinet ccr relapse transplant f.u date.last.seen ## 01005 BCR/ABL p210 NEG dyploid FALSE FALSE TRUE BMT / DEATH IN CR  ## 01010 NEG  POS dyploid FALSE TRUE FALSE REL 8/28/2000 ## 03002 BCR/ABL p190 NEG dyploid FALSE TRUE FALSE REL 10/15/1999 ## 04006 ALL1/AF4  NEG dyploid FALSE TRUE FALSE REL 1/23/1998 ## 04007 NEG  NEG dyploid FALSE TRUE FALSE REL 11/4/1997
头部(PDATA [,3:5])
##性别时代BT ## 01005 M 53 B2 ## 01010 M 19 B2 ## 04002 F 52 B2 ## 04007 M 3 3 B2 ## 04008 M 17 B1
尾部(PDATA [,3:5],3)
##性爱时代BT ## 65003 M 30 T3 ## 83001 M 29 T2 ## LAL4  NA T.
头(PDATA $ AGE)
## [1] 53 19 52 38 57 17
头(pdata $性)
## [1] m m m m m m ##级别:f m
头(PDATA [PDATA $ AGE> 21,])
## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。CYTO.NORMAL CITOG ## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6 / 1997 FALSE TRUE FALSE T(9; 22)## 03002 3002 6/24/1998 F 52 B4 CR CR 8/17 /1998年NA NA  ## 04006 4006 7 / 17/1997 M 38 B1 CR CR 9/8/1997真假假T(4; 11)## 04007 4007 7/22/1997 M 57 B2 CR CR 9/ 17/197 False False False(6Q)## 08001 8001 1/15/1997 M 40 B2 CR CR 3/26 / 26/1997 FESH FERESS FEREST DEL(P15)## 08011 8011 8/21/1998 M 33 B3 CRCR 10/8/1998 FALSE FALSE FALSE del(p15/p16) ## mol.biol fusion.protein mdr kinet ccr relapse transplant f.u date.last.seen ## 01005 BCR/ABL p210 NEG dyploid FALSE FALSE TRUE BMT / DEATH IN CR  ## 03002 BCR/ABL p190 NEG dyploid FALSE TRUE FALSE REL 10/15/1999 ## 04006 ALL1/AF4  NEG dyploid FALSE TRUE FALSE REL 1/23/1998 ## 04007 NEG  NEG dyploid FALSE TRUE FALSE REL 11/4/1997 ## 08001 BCR/ABL p190 NEG  FALSE TRUE FALSE REL 7/11/1997 ## 08011 BCR/ABL p190/p210 NEG dyploid FALSE FALSE TRUE BMT / DEATH IN CR 

从下面似乎有17名女性在数据集中有17名女性。但是,有些人有NA.对于年龄和/或性别,和这些NA.值通过一些计算传播。用桌子()总结40多个雌性的数量,并且不能确定该分类的样本数量。什么时候R.遇到An.NA.下标索引中的值,它介绍了一个NA.结果。遵守这一点(行NA.在使用时引入结果的值[与使用它子集()功能。

IDX < -  PDATA $ SEX ==“F”&PDATA $ AGE> 40表(IDX,USENA =“ifany”)
## idx ## false  ## 108 17 3
Dim(pdata [idx,])#警告:'na'行介绍
## [1] 20 21
尾巴(PDATA [IDX,])
## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。## 49006 49006 8/12/1998 F 43 B2 CR CR 11/19/1998 NA NA ## 57001 57001 1/29/1997 F 53 B3 在感应中的死亡虚假假## 62001 62001 11 /11/1997 F 50 b4 ref ref  false ## na.1    na     na na ## 02020 2020 3/23 /2000 F 48 T2  DEATH IN INDUCTION  FALSE FALSE ## NA.2    NA     NA NA ## cyto.normal citog mol.biol fusion.protein mdr kinet ccr relapse transplant f.u ## 49006 NA  BCR/ABL p210 NEG dyploid FALSE TRUE FALSE REL ## 57001 TRUE normal NEG  NEG hyperd. NA NA NA  ## 62001 FALSE t(9;22)+other BCR/ABL  NEG hyperd. NA NA NA  ## NA.1 NA      NA NA NA  ## 02020 FALSE complex alt. NEG  NEG dyploid NA NA NA  ## NA.2 NA      NA NA NA  ## date.last.seen ## 49006 4/26/1999 ## 57001  ## 62001  ## NA.1  ## 02020  ## NA.2 
Dim(子集(PDATA,IDX))#更好:没有na行
## [1] 17 21
尾部(子集(PDATA,IDX))
## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。## 28032 28032 9/26/1998 F 52 B1 CR CR 10/30/1998 True False ## 30001 30001 1/16/1997 F 54 B3 在感应中的死亡 FALSE ## 49006 49006 8 /12/1998 F 43 B2 CR CR 11 / 19/1998 NA NA ## 57001 57001 1/29/1997 F 53 B3 在感应中死亡假假## 62001 62001 11/11/1997 F 50 B4R.EF REF  FALSE TRUE ## 02020 2020 3/23/2000 F 48 T2  DEATH IN INDUCTION  FALSE FALSE ## cyto.normal citog mol.biol fusion.protein mdr kinet ccr relapse transplant f.u ## 28032 FALSE t(4;11) ALL1/AF4  NEG dyploid TRUE FALSE FALSE CCR ## 30001 FALSE t(9;22)+other BCR/ABL p190 NEG hyperd. NA NA NA  ## 49006 NA  BCR/ABL p210 NEG dyploid FALSE TRUE FALSE REL ## 57001 TRUE normal NEG  NEG hyperd. NA NA NA  ## 62001 FALSE t(9;22)+other BCR/ABL  NEG hyperd. NA NA NA  ## 02020 FALSE complex alt. NEG  NEG dyploid NA NA NA  ## date.last.seen ## 28032 5/16/2002 ## 30001  ## 49006 4/26/1999 ## 57001  ## 62001  ## 02020 
##为`[`:将Na值设置为false idx [is.na(idx)] < -  false dim(pdata [idx])
## [1] 17 21

使用Mol.biol.列将数据子集中用于包含“BCR / ABL”或“NEG”的个人,例如,

BCRABL < -  PDATA [PDATA $ MOL.BIOL%IN%C(“BCR / ABL”,“NEG”),]

Mol.biol.列是一个因素,即使在子集之后也保留所有级别。有时候保持因子水平有时便于,但在我们使用的情况下Droplevels()删除未使用的级别

bcrable $ mol.biol < -  droplevels(bcrable $ mol.biol)

BT.柱是描述B-和T细胞亚型的因素

水平(BCRABL $ BT)
## [1]“B”“B1”“B2”“B3”“B4”“T”“T”“T1”“T2”“T2”“T3”“T3”“T4”

如何折叠B1,B2,......单个B型B,同样对于T1,T2,......,所以只有两个亚型,B和T?一种策略是取代两个字母的级别(例如,B1.)单字母级别(例如,B.)。使用substring()选择第一个级别字母,并使用新值使用新值更新以前的级别水平< -

表(BCRABL $ BT)
## ## B B1 B2 B3 B4 T T1 T2 T3 T4 ## 4 9 35 22 9 5 1 15 9 2
级别(bcrabl $ bt)< -  substring(级别(bcrabl $ bt),1,1)表(bcrabl $ bt)
## ## B T ## 79 32

总计的()在每个BCR / ABL和NEG组中计算具有B和T细胞类型的样本数量

聚合(rowname(bcrabl)〜bt + mol.biol,bcrabl,长度)
## bt mol.biol rownames(bcrabl)## 1 b bcr / abl 37 ## 2 b neg 42 ## 3 t neg 32

总计的()计算BCR / ABL和Neg治疗组中的男性和女性的平均年龄。

汇总(年龄〜mol.biol +性别,bcrabl,平均值)
## mol.biol性爱时代## 1 BCR / ABL F 39.93750 ## 2 Neg F 30.42105 ## 3 BCR / ABL M 40.50000 ## 4 Neg M 27.21154

t.test()比较BCR / ABL与Neg群体中个体的年龄;使用效果可视化结果箱形图()。在这两种情况下,使用公式界面。咨询帮助页面?T.Test.假设两组中的年龄的变化是相同的,并且重新进行测试。测试输出的哪些部分变化?

T.Test(年龄〜mol.biol,bcrabl)
## ## welch两个样本t-test ## ##数据:通过Mol.biol ## t = 4.8172,df = 68.529,p值= 8.401e-06 ##替代假设:意味着的真实差异不是等于0 ## 95%的置信区间:## 7.13507 17.22408 ##样本估计:##在BCR / ABL中的均值在Group Neg ## 40.25000 28.07042
Boxplot(年龄〜mol.biol,bcrabl)