1探索和简单的单变量措施

path < -  file.choose（）＃查找brfss-subset.csv

stopifnot（file.exists（path））brfss < -  read.csv（路径）

1.1清洁数据

R.读年是一个整数值，但它真的是一个因子

BRFSS $年< - 因素（BRFSS $年）

1.21990年的重量与2010年漂亮

创建数据的子集

BRFSSFEMALE < -  BRFSS [BRFSS $ SEX ==“女性”，]摘要（BRFSSFEMALE）

##年龄重量性高度## min。：18.00分钟。：36.29女性：12039分钟。：105.0 ## 1st曲1。：37.00第1章：57.61男性：0 1st qu.:157.5 ##中位数：52.00中位数：65.77中位数：163.0 ##均值：51.92意思：69.05意思：163.3 ## 3RD QU：67.00第3章：77.11第3曲。：168.0 ##最大。：最多99.00。：272.16最大值。：200.7 ## NA'：103 NA'：560 NA'：140 ##一年## 1990：5718 ## 2010：6321 ##########################

可视化

情节（体重〜年，BRFSSFEMALE）

统计测试

T.Test（重量〜年，BRFSSFEMALE）

## ## welch两个样本t-test ## ##数据：重量乘年## T = -27.133，df = 11079，p值<2.2e-16 ##替代假设：的差异意味着不等于0 ## 95％置信区间：## -8.723607 -7.548102 ##样本估计：1990组中的均值在2010年组中的含义## 64.81838 72.95424

1.32010年的体重和高度

创建数据的子集

BRFSS2010MALE < - 子集（BRFSS，年== 2010＆SEX ==“男性”）摘要（BRFSS2010MALE）

##年龄重量性高年度## min。：18.00分钟。：36.29女性：0分钟。：135 1990年：0 ## 1ST QU.:45.00第1章：77.11男性：3679第1章：3679 2010：3679 2010：3679 ##中位数：57.00中位数：86.18中位数：178 ##均值：56.25意思：88.85意思是：178## 3rd qu.:68.00 3rd qu。：99.79 3rd qu.:183 ## max。：最多99.00。：最多278.96。：218 ## NA：30 NA'：49 NA'：31

可视化关系

stay（brfss2010mmale $重量）

hist（brfss2010male $ height）

绘图（重量〜高度，BRFSS2010MALE）

适合线性模型（回归）

适合< -  LM（重量〜高度，BRFSS2010MALE）适合

## ##呼叫：## LM（公式=权重〜高度，Data = BRFSS2010MALE）## ##系数：##（拦截）高度## -86.8747 0.9873

总结为Anova表

ANOVA（适合）

##方差表## ##响应：重量## DF SUM SQ平均SQ F值Pr（> f）##高度1 197664 197664 693.8 <2.2E-16 *** ##残差3617 1030484 285 ##--- ## signif。代码：0'***'0.001'**'0.01'*'0.05'。'0.1''1

绘图点，叠加拟合回归线;我在哪里？

绘图（重量〜高度，BRFSS2010MALE）ALLINE（FIT，COL =“蓝色”，LWD = 2）点（180,88，COL =“红色”，CEX = 4，PCH = 20）

（高级）类和可用的“方法”

类（适合）#'noun'方法（class = class（fit））＃'动词'

（高级）诊断

情节（适合）？plot.lm

2多变量分析

这是一个经典的微阵列实验。微阵列由“探针”组成，其为它们的表达水平流出基因。在实验中，我们正在研究，在128个样本中的每一个上测量了12625个探针。MicroArray测定估计的原始表达水平需要相当大的预处理，我们将进行预处理的数据。

2.1输入和设置

首先在磁盘上查找表达式数据文件。

path < -  file.choose（）＃查看全部表达式.csv stopfnot（file.exists（路径））

数据以“逗号 - 单独的值”格式存储，每个探测器占据一条线，以及由逗号分隔的探测器中的每个样本的表达式值。使用输入数据read.csv（）。有三个挑战：

行名称存在于数据的第一列中。告诉R.这是通过添加参数Row.names = 1至read.csv（）。
默认，R.检查列名称不像数字，但我们的列名称做看起来像数字。使用参数check.colnames = false.过度乘车R.默认值。
read.csv（）返回A.data.frame.。我们可以使用一个data.frame.与我们的数据一起工作，但真的是一个矩阵（）- 列的类型是相同的，并测量相同的东西。采用As.matrix（）强迫data.frame.我们输入了一个矩阵。

exprs < -  read.csv（path，tow.names = 1，check.names = false）exprs <--asmatrix（exprs）类（exprs）

## [1]“矩阵”

昏暗（exprs）

## [1] 12625 128

exprs [1：6,1：10]

## 01005 01010 03002 04006 04007 04008 ## 1000_at 7.597323 7.479445 7.567593 7.384684 7.905312 7.065914 ## 5.046194 1001_at 4.932537 4.799294 4.922627 4.844565 5.147762 ## 3.900466 1002_f_at 4.208155 3.886169 4.206798 3.416923 3.945869 ## 5.903856 1003_s_at 6.169024 5.860459 6.116890 5.687997 6.208061 ## 5.925260 1004_at 5.912780 5.8932096.170245 5.615210 5.923487 ## 8.570990 1005_at 10.428299 9.616713 9.937155 9.983809 10.063484 ## 04010 04016 06002 08001 ## 1000_at 7.474537 7.536119 7.183331 7.735545 ## 5.122518 1001_at 5.016132 5.288943 4.633217 ## 4.150506 1002_f_at 3.576360 3.900935 3.630190 ## 6.292713 1003_s_at 5.665991 5.842326 5.875375 ## 6.046607 1004_at5.738218 5.994515 5.748350 ## 1005_AT 10.662059 11.269115 8.812869 10.165159

范围（exprs）

## [1] 1.984919 14.126571

我们将利用描述样本的数据

path < -  file.choose（）＃查找全部penaodata.csv stopifnot（file.exists（路径））

pdata < -  read.csv（path，tow.names = 1）类（pdata）

## [1]“data.frame”

昏暗（pdata）

## [1] 128 21

头（PDATA）

## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6/1997 FALSE ## 01010 1010 3/29/2000 M 19 B2 CR CR 6/27/2000假假## 03002 3002 6/24 /1998 F 52 B4 CR CR 8/17/1998 NA NA ## 04006 4006 7 / 17/1997 M 38 B1 CR CR 9/8/1997真假## 04007 4007 7/22/1997 M 57 B2 CR CR 9 /17/1997 FALSE FALSE ## 04008 4008 7/30/1997 M 17 B1 CR CR 9/27/1997 FALSE FALSE ## cyto.normal citog mol.biol fusion.protein mdr kinet ccr ## 01005 FALSE t(9;22) BCR/ABL p210 NEG dyploid FALSE ## 01010 FALSE simple alt. NEG  POS dyploid FALSE ## 03002 NA  BCR/ABL p190 NEG dyploid FALSE ## 04006 FALSE t(4;11) ALL1/AF4  NEG dyploid FALSE ## 04007 FALSE del(6q) NEG  NEG dyploid FALSE ## 04008 FALSE complex alt. NEG  NEG hyperd. FALSE ## relapse transplant f.u date.last.seen ## 01005 FALSE TRUE BMT / DEATH IN CR  ## 01010 TRUE FALSE REL 8/28/2000 ## 03002 TRUE FALSE REL 10/15/1999 ## 04006 TRUE FALSE REL 1/23/1998 ## 04007 TRUE FALSE REL 11/4/1997 ## 04008 TRUE FALSE REL 12/15/1997

以下结果涉及图，选择漂亮和功能性的颜色方便。我们使用rcolorbrewer.包;看到colorbrewer.org.

图书馆（rcolorbrewer）##不可用？通过Rstudio突出显示< -  Brewer.pal（3，“set2”）[1：2]安装包

'Diverrent'是从红色（负）到蓝色（正面）的颜色的矢量。“突出显示”是长度2，光和深绿色的矢量。

有关更多选项，请参阅？rcolorbrewer.并查看预定义的调色板display.brewer.all（）

2.2清洁

我们将添加一个列pdata.，源自BT.列，以指示样品是B细胞还是T细胞。

PDATA $ BORT < - 因子（SUBSTR（PDATA $ BT，1,1））

微阵列表达数据通常表示为基因的矩阵作为行和样本作为列。统计学家通常将其数据视为样本作为行，功能为列。所以我们将转换表达式值

exprs < -  t（exprs）

确认pdata.行对应于exprs.行。

Stopifnot（相同（royname（pdata），rownames（exprs））））

2.3无监督机器学习 - 多维缩放

将高维数据降低到可视化的降低维度。

计算之间的距离样本（要求表达矩阵被转移）。

d < -  dist（exprs）

使用cmdscale（）功能将距离矩阵汇总到两个维度中的两个点。

cmd < -  cmdscale（d）

通过B型或T细胞状态可视化结果，着色点

绘图（cmd，col =突出显示[pdata $ bort]）

A.3 - 统计数据

马丁摩根martin.morgan@roswellpark.org.
洛瑞牧羊人lori.shepherd@roswellpark.org.

2017年3月2日

内容

1探索和简单的单变量措施

1.1清洁数据

1.21990年的重量与2010年漂亮

1.32010年的体重和高度

2多变量分析

2.1输入和设置

2.2清洁

2.3无监督机器学习 - 多维缩放

A.3 - 统计数据

马丁摩根martin.morgan@roswellpark.org.洛瑞牧羊人lori.shepherd@roswellpark.org.

2017年3月2日

内容

1探索和简单的单变量措施

1.1清洁数据

1.21990年的重量与2010年漂亮

1.32010年的体重和高度

2多变量分析

2.1输入和设置

2.2清洁

2.3无监督机器学习 - 多维缩放

马丁摩根martin.morgan@roswellpark.org.
洛瑞牧羊人lori.shepherd@roswellpark.org.