内容

1探索和简单的单变量措施

path < -  file.choose()#查找brfss-subset.csv
stopifnot(file.exists(path))brfss < -  read.csv(路径)

1.1清洁数据

R.是一个整数值,但它真的是一个因子

BRFSS $年< - 因素(BRFSS $年)

1.21990年的重量与2010年漂亮

创建数据的子集

BRFSSFEMALE < -  BRFSS [BRFSS $ SEX ==“女性”,]摘要(BRFSSFEMALE)
##年龄重量性高度## min。:18.00分钟。:36.29女性:12039分钟。:105.0 ## 1st曲1。:37.00第1章:57.61男性:0 1st qu.:157.5 ##中位数:52.00中位数:65.77中位数:163.0 ##均值:51.92意思:69.05意思:163.3 ## 3RD QU:67.00第3章:77.11第3曲。:168.0 ##最大。:最多99.00。:272.16最大值。:200.7 ## NA':103 NA':560 NA':140 ##一年## 1990:5718 ## 2010:6321 ##########################

可视化

情节(体重〜年,BRFSSFEMALE)

统计测试

T.Test(重量〜年,BRFSSFEMALE)
## ## welch两个样本t-test ## ##数据:重量乘年## T = -27.133,df = 11079,p值<2.2e-16 ##替代假设:的差异意味着不等于0 ## 95%置信区间:## -8.723607 -7.548102 ##样本估计:1990组中的均值在2010年组中的含义## 64.81838 72.95424

1.32010年的体重和高度

创建数据的子集

BRFSS2010MALE < - 子集(BRFSS,年== 2010&SEX ==“男性”)摘要(BRFSS2010MALE)
##年龄重量性高年度## min。:18.00分钟。:36.29女性:0分钟。:135 1990年:0 ## 1ST QU.:45.00第1章:77.11男性:3679第1章:3679 2010:3679 2010:3679 ##中位数:57.00中位数:86.18中位数:178 ##均值:56.25意思:88.85意思是:178## 3rd qu.:68.00 3rd qu。:99.79 3rd qu.:183 ## max。:最多99.00。:最多278.96。:218 ## NA:30 NA':49 NA':31

可视化关系

stay(brfss2010mmale $重量)

hist(brfss2010male $ height)

绘图(重量〜高度,BRFSS2010MALE)

适合线性模型(回归)

适合< -  LM(重量〜高度,BRFSS2010MALE)适合
## ##呼叫:## LM(公式=权重〜高度,Data = BRFSS2010MALE)## ##系数:##(拦截)高度## -86.8747 0.9873

总结为Anova表

ANOVA(适合)
##方差表## ##响应:重量## DF SUM SQ平均SQ F值Pr(> f)##高度1 197664 197664 693.8 <2.2E-16 *** ##残差3617 1030484 285 ##--- ## signif。代码:0'***'0.001'**'0.01'*'0.05'。'0.1''1

绘图点,叠加拟合回归线;我在哪里?

绘图(重量〜高度,BRFSS2010MALE)ALLINE(FIT,COL =“蓝色”,LWD = 2)点(180,88,COL =“红色”,CEX = 4,PCH = 20)

(高级)类和可用的“方法”

类(适合)#'noun'方法(class = class(fit))#'动词'

(高级)诊断

情节(适合)?plot.lm

2多变量分析

这是一个经典的微阵列实验。微阵列由“探针”组成,其为它们的表达水平流出基因。在实验中,我们正在研究,在128个样本中的每一个上测量了12625个探针。MicroArray测定估计的原始表达水平需要相当大的预处理,我们将进行预处理的数据。

2.1输入和设置

首先在磁盘上查找表达式数据文件。

path < -  file.choose()#查看全部表达式.csv stopfnot(file.exists(路径))

数据以“逗号 - 单独的值”格式存储,每个探测器占据一条线,以及由逗号分隔的探测器中的每个样本的表达式值。使用输入数据read.csv()。有三个挑战:

  1. 行名称存在于数据的第一列中。告诉R.这是通过添加参数Row.names = 1read.csv()
  2. 默认,R.检查列名称不像数字,但我们的列名称看起来像数字。使用参数check.colnames = false.过度乘车R.默认值。
  3. read.csv()返回A.data.frame.。我们可以使用一个data.frame.与我们的数据一起工作,但真的是一个矩阵()- 列的类型是相同的,并测量相同的东西。采用As.matrix()强迫data.frame.我们输入了一个矩阵
exprs < -  read.csv(path,tow.names = 1,check.names = false)exprs <--asmatrix(exprs)类(exprs)
## [1]“矩阵”
昏暗(exprs)
## [1] 12625 128
exprs [1:6,1:10]
## 01005 01010 03002 04006 04007 04008 ## 1000_at 7.597323 7.479445 7.567593 7.384684 7.905312 7.065914 ## 5.046194 1001_at 4.932537 4.799294 4.922627 4.844565 5.147762 ## 3.900466 1002_f_at 4.208155 3.886169 4.206798 3.416923 3.945869 ## 5.903856 1003_s_at 6.169024 5.860459 6.116890 5.687997 6.208061 ## 5.925260 1004_at 5.912780 5.8932096.170245 5.615210 5.923487 ## 8.570990 1005_at 10.428299 9.616713 9.937155 9.983809 10.063484 ## 04010 04016 06002 08001 ## 1000_at 7.474537 7.536119 7.183331 7.735545 ## 5.122518 1001_at 5.016132 5.288943 4.633217 ## 4.150506 1002_f_at 3.576360 3.900935 3.630190 ## 6.292713 1003_s_at 5.665991 5.842326 5.875375 ## 6.046607 1004_at5.738218 5.994515 5.748350 ## 1005_AT 10.662059 11.269115 8.812869 10.165159
范围(exprs)
## [1] 1.984919 14.126571

我们将利用描述样本的数据

path < -  file.choose()#查找全部penaodata.csv stopifnot(file.exists(路径))
pdata < -  read.csv(path,tow.names = 1)类(pdata)
## [1]“data.frame”
昏暗(pdata)
## [1] 128 21
头(PDATA)
## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6/1997 FALSE ## 01010 1010 3/29/2000 M 19 B2 CR CR 6/27/2000假假## 03002 3002 6/24 /1998 F 52 B4 CR CR 8/17/1998 NA NA ## 04006 4006 7 / 17/1997 M 38 B1 CR CR 9/8/1997真假## 04007 4007 7/22/1997 M 57 B2 CR CR 9 /17/1997 FALSE FALSE ## 04008 4008 7/30/1997 M 17 B1 CR CR 9/27/1997 FALSE FALSE ## cyto.normal citog mol.biol fusion.protein mdr kinet ccr ## 01005 FALSE t(9;22) BCR/ABL p210 NEG dyploid FALSE ## 01010 FALSE simple alt. NEG  POS dyploid FALSE ## 03002 NA  BCR/ABL p190 NEG dyploid FALSE ## 04006 FALSE t(4;11) ALL1/AF4  NEG dyploid FALSE ## 04007 FALSE del(6q) NEG  NEG dyploid FALSE ## 04008 FALSE complex alt. NEG  NEG hyperd. FALSE ## relapse transplant f.u date.last.seen ## 01005 FALSE TRUE BMT / DEATH IN CR  ## 01010 TRUE FALSE REL 8/28/2000 ## 03002 TRUE FALSE REL 10/15/1999 ## 04006 TRUE FALSE REL 1/23/1998 ## 04007 TRUE FALSE REL 11/4/1997 ## 04008 TRUE FALSE REL 12/15/1997

以下结果涉及图,选择漂亮和功能性的颜色方便。我们使用rcolorbrewer.包;看到colorbrewer.org.

图书馆(rcolorbrewer)##不可用?通过Rstudio突出显示< -  Brewer.pal(3,“set2”)[1:2]安装包

'Diverrent'是从红色(负)到蓝色(正面)的颜色的矢量。“突出显示”是长度2,光和深绿色的矢量。

有关更多选项,请参阅?rcolorbrewer.并查看预定义的调色板display.brewer.all()

2.2清洁

我们将添加一个列pdata.,源自BT.列,以指示样品是B细胞还是T细胞。

PDATA $ BORT < - 因子(SUBSTR(PDATA $ BT,1,1))

微阵列表达数据通常表示为基因的矩阵作为行和样本作为列。统计学家通常将其数据视为样本作为行,功能为列。所以我们将转换表达式值

exprs < -  t(exprs)

确认pdata.行对应于exprs.行。

Stopifnot(相同(royname(pdata),rownames(exprs))))

2.3无监督机器学习 - 多维缩放

将高维数据降低到可视化的降低维度。

计算之间的距离样本(要求表达矩阵被转移)。

d < -  dist(exprs)

使用cmdscale()功能将距离矩阵汇总到两个维度中的两个点。

cmd < -  cmdscale(d)

通过B型或T细胞状态可视化结果,着色点

绘图(cmd,col =突出显示[pdata $ bort])