内容

1探索和简单的单变量措施

path < -  file.choose()#查找brfss-subset.csv
stopifnot(file.exists(path))brfss < -  read.csv(路径)

1.1清洁数据

R.是一个整数值,但它真的是一个因素

BRFSS $年< - 因素(BRFSS $年)

1.21990年的重量与2010年漂亮

创建数据的一个子集

brfssFemale <- brfss[brfss$Sex == "女性",]summary(brfssFemale) <- brfss[brfss$Sex == "女性",]summary(brfssFemale)
# # # #年龄体重性别高度最低:18.00分钟。:36.29女:12039分钟:105.0 # #瞿。1:37.00瞿。1:男:57.61 0。1:157.5 # #值:52.00中值:65.77中值:163.0 # #的意思是:51.92的意思是:69.05的意思是:163.3 # #第三曲。:67.00第三曲。:77.11第三曲。:168.0 # # Max。: 99.00马克斯。: 272.16马克斯。: 200.7 # # NA: 103 NA: 560 NA的:140 # # # #年# # 1990:5718 2010:6321  ## ## ## ## ##

可视化

情节(体重〜年,BRFSSFEMALE)

统计测试

T.Test(重量〜年,BRFSSFEMALE)
## ## welch两个样本t-test ## ##数据:重量乘年## T = -27.133,df = 11079,p值<2.2e-16 ##替代假设:的差异意味着不等于0 ## 95%置信区间:## -8.723607 -7.548102 ##样本估计:1990组中的均值在2010年组中的含义## 64.81838 72.95424

1.32010年男性体重和身高

创建数据的一个子集

BRFSS2010MALE < - 子集(BRFSS,年== 2010&SEX ==“男性”)摘要(BRFSS2010MALE)
##年龄重量性高年度## min。:18.00分钟。:36.29女性:0分钟。:135 1990年:0 ## 1ST QU.:45.00第1章:77.11男性:3679第1章:3679 2010:3679 2010:3679 ##中位数:57.00中位数:86.18中位数:178 ##均值:56.25意思:88.85意思是:178## 3rd qu.:68.00 3rd qu。:99.79 3rd qu.:183 ## max。: 99.00马克斯。:最多278.96。:218 ## NA:30 NA':49 NA':31

可视化关系

stay(brfss2010mmale $重量)

嘘(brfss2010Male高度美元)

绘图(重量〜高度,BRFSS2010MALE)

拟合线性模型(回归)

适合< -  LM(重量〜高度,BRFSS2010MALE)适合
## ## Call: ## lm(formula = Weight ~ Height, data = brfss2010Male) ## ##系数:## (Intercept) Height ## -86.8747 0.9873

总结为方差分析表

ANOVA(适合)
##方差分析表## ## Response: Weight ## Df Sum Sq Mean Sq F value Pr(>F) ## Height 1 197664 197664 693.8 < 2.2e-16 *** #残差3617 1030484 285 ##——## Signif。编码:0 '***' 0.001 '**' 0.01 '*' 0.05 '。“0.1”1

绘图点,叠加拟合回归线;我在哪里?

绘图(重量〜高度,BRFSS2010MALE)ALLINE(FIT,COL =“蓝色”,LWD = 2)点(180,88,COL =“红色”,CEX = 4,PCH = 20)

(高级)类和可用的“方法”

类(适合)#'noun'方法(class = class(fit))#'动词'

(高级)诊断

情节(合适)? plot.lm

2多变量分析

这是一个经典的微阵列实验。微阵列由探查基因表达水平的“探针”组成。在我们的实验中,128个样本中的每一个都有12625个测试。微阵列分析估计的原始表达水平需要大量的预处理,我们将处理的数据已经经过预处理。

2.1输入和设置

首先在磁盘上查找表达式数据文件。

path < -  file.choose()#查看全部表达式.csv stopfnot(file.exists(路径))

数据以“逗号 - 单独的值”格式存储,每个探测器占据一条线,以及由逗号分隔的探测器中的每个样本的表达式值。使用输入数据read.csv()。有三个挑战:

  1. 行名出现在数据的第一列中。告诉R.这是通过添加参数Row.names = 1read.csv()
  2. 默认,R.检查列名不像数字,而像我们的列名看起来像数字。使用参数check.colnames = FALSE过度乘车R.默认值。
  3. read.csv()返回A.data.frame.。我们可以使用一个data.frame.与我们的数据一起工作,但真的是一个矩阵()- 列的类型是相同的,并测量相同的东西。用as.matrix ()强迫data.frame.我们输入a矩阵
exprs <- read.csv(path, row.names=1, check.names=FALSE) exprs <- as.matrix(exprs) class(exprs)
## [1]“矩阵”
昏暗(exprs)
## [1] 12625 128
exprs [1:6, 1:10]
## 01005 01010 03002 04006 04007 04008 ## 1004_at 5.925260 5.912780 5.893209 6.170245 ## 1002_f_at 3.900466 4.208155 3.886169 4.206798 3.416923 3.945869 # 1003_at 5.925260 5.912780 5.893209 6.1702455.615210 5.923487 ## 1005_at 8.570990 10.428299 9.616713 9.937155 9.983809 10.063484 ## 04010 04016 06002 08001 ## 1004_at 7.474537 7.536119 7.183331 7.735545 # 1002_f_at 4.150506 3.576360 3.900935 3.630190 ## 1003_s_at 6.292713 5.665991 5.842326 5.875375 ## 1004_at 6.046607 5.738218 5.994515 5.748350## 1005_at 10.662059 11.269115 8.812869 10.165159
范围(exprs)
## [1] 1.984919 14.126571

我们将利用描述样本的数据

path < -  file.choose()#查找全部penaodata.csv stopifnot(file.exists(路径))
pdata < -  read.csv(path,tow.names = 1)类(pdata)
## [1]“data.frame”
昏暗(pdata)
## [1] 128 21
头(PDATA)
## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6/1997 FALSE ## 01010 1010 3/29/2000 M 19 B2 CR CR 6/27/2000假假## 03002 3002 6/24 /1998 F 52 B4 CR CR 8/17/1998 NA NA ## 04006 4006 7 / 17/1997 M 38 B1 CR CR 9/8/1997真假## 04007 4007 7/22/1997 M 57 B2 CR CR 9 /17/1997 FALSE FALSE ## 04008 4008 7/30/1997 M 17 B1 CR CR 9/27/1997 FALSE FALSE ## cyto.normal citog mol.biol fusion.protein mdr kinet ccr ## 01005 FALSE t(9;22) BCR/ABL p210 NEG dyploid FALSE ## 01010 FALSE simple alt. NEG  POS dyploid FALSE ## 03002 NA  BCR/ABL p190 NEG dyploid FALSE ## 04006 FALSE t(4;11) ALL1/AF4  NEG dyploid FALSE ## 04007 FALSE del(6q) NEG  NEG dyploid FALSE ## 04008 FALSE complex alt. NEG  NEG hyperd. FALSE ## relapse transplant f.u date.last.seen ## 01005 FALSE TRUE BMT / DEATH IN CR  ## 01010 TRUE FALSE REL 8/28/2000 ## 03002 TRUE FALSE REL 10/15/1999 ## 04006 TRUE FALSE REL 1/23/1998 ## 04007 TRUE FALSE REL 11/4/1997 ## 04008 TRUE FALSE REL 12/15/1997

以下结果涉及图,选择漂亮和功能性的颜色方便。我们使用rcolorbrewer.包裹;看colorbrewer.org.

图书馆(rcolorbrewer)##不可用?通过Rstudio突出显示< -  Brewer.pal(3,“set2”)[1:2]安装包

“发散型”是一个颜色矢量,从红色(负)到蓝色(正)。“highlight”是一个长度为2的矢量,有浅绿色和深绿色。

有关更多选项,请参见?rcolorbrewer.并查看预定义的调色板display.brewer.all()

2.2清洁

我们将添加一个列pdata.,源自BT.列,以指示样品是B细胞还是T细胞。

PDATA $ BORT < - 因子(SUBSTR(PDATA $ BT,1,1))

微阵列表达数据通常表示为一行的基因矩阵和列的样本。统计学家通常认为他们的数据是作为行的样本,作为列的特征。所以我们要转置表达式的值

exprs < - t (exprs)

确认pdata.行对应于exprs行。

Stopifnot(相同(royname(pdata),rownames(exprs))))

2.3无监督机器学习 - 多维缩放

将高维数据降低到可视化的降低维度。

计算之间的距离样本(要求表达式矩阵被转置)。

d < -  dist(exprs)

使用cmdscale()功能将距离矩阵汇总到两个维度中的两个点。

cmd < -  cmdscale(d)

通过B型或T细胞状态可视化结果,着色点

绘图(cmd,col =突出显示[pdata $ bort])