1探索和简单的单变量措施

path < -  file.choose（）＃查找brfss-subset.csv

stopifnot（file.exists（path））brfss < -  read.csv（路径）

1.1清洁数据

R.读年是一个整数值，但它真的是一个因素

BRFSS $年< - 因素（BRFSS $年）

1.21990年的重量与2010年漂亮

创建数据的一个子集

brfssFemale <- brfss[brfss$Sex == "女性"，]summary(brfssFemale) <- brfss[brfss$Sex == "女性"，]summary(brfssFemale)

# # # #年龄体重性别高度最低:18.00分钟。:36.29女:12039分钟:105.0 # #瞿。1:37.00瞿。1:男:57.61 0。1:157.5 # #值:52.00中值:65.77中值:163.0 # #的意思是:51.92的意思是:69.05的意思是:163.3 # #第三曲。:67.00第三曲。:77.11第三曲。:168.0 # # Max。: 99.00马克斯。: 272.16马克斯。: 200.7 # # NA: 103 NA: 560 NA的:140 # # # #年# # 1990:5718 2010:6321  ## ## ## ## ##

可视化

情节（体重〜年，BRFSSFEMALE）

统计测试

T.Test（重量〜年，BRFSSFEMALE）

## ## welch两个样本t-test ## ##数据：重量乘年## T = -27.133，df = 11079，p值<2.2e-16 ##替代假设：的差异意味着不等于0 ## 95％置信区间：## -8.723607 -7.548102 ##样本估计：1990组中的均值在2010年组中的含义## 64.81838 72.95424

1.32010年男性体重和身高

创建数据的一个子集

BRFSS2010MALE < - 子集（BRFSS，年== 2010＆SEX ==“男性”）摘要（BRFSS2010MALE）

##年龄重量性高年度## min。：18.00分钟。：36.29女性：0分钟。：135 1990年：0 ## 1ST QU.:45.00第1章：77.11男性：3679第1章：3679 2010：3679 2010：3679 ##中位数：57.00中位数：86.18中位数：178 ##均值：56.25意思：88.85意思是：178## 3rd qu.:68.00 3rd qu。：99.79 3rd qu.:183 ## max。: 99.00马克斯。：最多278.96。：218 ## NA：30 NA'：49 NA'：31

可视化关系

stay（brfss2010mmale $重量）

嘘(brfss2010Male高度美元)

绘图（重量〜高度，BRFSS2010MALE）

拟合线性模型(回归)

适合< -  LM（重量〜高度，BRFSS2010MALE）适合

## ## Call: ## lm(formula = Weight ~ Height, data = brfss2010Male) ## ##系数:## (Intercept) Height ## -86.8747 0.9873

总结为方差分析表

ANOVA（适合）

##方差分析表## ## Response: Weight ## Df Sum Sq Mean Sq F value Pr(>F) ## Height 1 197664 197664 693.8 < 2.2e-16 *** #残差3617 1030484 285 ##——## Signif。编码:0 '***' 0.001 '**' 0.01 '*' 0.05 '。“0.1”1

绘图点，叠加拟合回归线;我在哪里？

绘图（重量〜高度，BRFSS2010MALE）ALLINE（FIT，COL =“蓝色”，LWD = 2）点（180,88，COL =“红色”，CEX = 4，PCH = 20）

（高级）类和可用的“方法”

类（适合）#'noun'方法（class = class（fit））＃'动词'

（高级）诊断

情节(合适)? plot.lm

2多变量分析

这是一个经典的微阵列实验。微阵列由探查基因表达水平的“探针”组成。在我们的实验中，128个样本中的每一个都有12625个测试。微阵列分析估计的原始表达水平需要大量的预处理，我们将处理的数据已经经过预处理。

2.1输入和设置

首先在磁盘上查找表达式数据文件。

path < -  file.choose（）＃查看全部表达式.csv stopfnot（file.exists（路径））

数据以“逗号 - 单独的值”格式存储，每个探测器占据一条线，以及由逗号分隔的探测器中的每个样本的表达式值。使用输入数据read.csv（）。有三个挑战：

行名出现在数据的第一列中。告诉R.这是通过添加参数Row.names = 1至read.csv（）。
默认，R.检查列名不像数字，而像我们的列名做看起来像数字。使用参数check.colnames = FALSE过度乘车R.默认值。
read.csv（）返回A.data.frame.。我们可以使用一个data.frame.与我们的数据一起工作，但真的是一个矩阵（）- 列的类型是相同的，并测量相同的东西。用as.matrix ()强迫data.frame.我们输入a矩阵。

exprs <- read.csv(path, row.names=1, check.names=FALSE) exprs <- as.matrix(exprs) class(exprs)

## [1]“矩阵”

昏暗（exprs）

## [1] 12625 128

exprs [1:6, 1:10]

## 01005 01010 03002 04006 04007 04008 ## 1004_at 5.925260 5.912780 5.893209 6.170245 ## 1002_f_at 3.900466 4.208155 3.886169 4.206798 3.416923 3.945869 # 1003_at 5.925260 5.912780 5.893209 6.1702455.615210 5.923487 ## 1005_at 8.570990 10.428299 9.616713 9.937155 9.983809 10.063484 ## 04010 04016 06002 08001 ## 1004_at 7.474537 7.536119 7.183331 7.735545 # 1002_f_at 4.150506 3.576360 3.900935 3.630190 ## 1003_s_at 6.292713 5.665991 5.842326 5.875375 ## 1004_at 6.046607 5.738218 5.994515 5.748350## 1005_at 10.662059 11.269115 8.812869 10.165159

范围(exprs)

## [1] 1.984919 14.126571

我们将利用描述样本的数据

path < -  file.choose（）＃查找全部penaodata.csv stopifnot（file.exists（路径））

pdata < -  read.csv（path，tow.names = 1）类（pdata）

## [1]“data.frame”

昏暗（pdata）

## [1] 128 21

头（PDATA）

## COD诊断性别时代BT REFISSE CR DATE.CR T.4.11。T.9.22。## 01005 1005 5/21/1997 M 53 B2 CR CR 8/6/1997 FALSE ## 01010 1010 3/29/2000 M 19 B2 CR CR 6/27/2000假假## 03002 3002 6/24 /1998 F 52 B4 CR CR 8/17/1998 NA NA ## 04006 4006 7 / 17/1997 M 38 B1 CR CR 9/8/1997真假## 04007 4007 7/22/1997 M 57 B2 CR CR 9 /17/1997 FALSE FALSE ## 04008 4008 7/30/1997 M 17 B1 CR CR 9/27/1997 FALSE FALSE ## cyto.normal citog mol.biol fusion.protein mdr kinet ccr ## 01005 FALSE t(9;22) BCR/ABL p210 NEG dyploid FALSE ## 01010 FALSE simple alt. NEG  POS dyploid FALSE ## 03002 NA  BCR/ABL p190 NEG dyploid FALSE ## 04006 FALSE t(4;11) ALL1/AF4  NEG dyploid FALSE ## 04007 FALSE del(6q) NEG  NEG dyploid FALSE ## 04008 FALSE complex alt. NEG  NEG hyperd. FALSE ## relapse transplant f.u date.last.seen ## 01005 FALSE TRUE BMT / DEATH IN CR  ## 01010 TRUE FALSE REL 8/28/2000 ## 03002 TRUE FALSE REL 10/15/1999 ## 04006 TRUE FALSE REL 1/23/1998 ## 04007 TRUE FALSE REL 11/4/1997 ## 04008 TRUE FALSE REL 12/15/1997

以下结果涉及图，选择漂亮和功能性的颜色方便。我们使用rcolorbrewer.包裹;看colorbrewer.org.

图书馆（rcolorbrewer）##不可用？通过Rstudio突出显示< -  Brewer.pal（3，“set2”）[1：2]安装包

“发散型”是一个颜色矢量，从红色(负)到蓝色(正)。“highlight”是一个长度为2的矢量，有浅绿色和深绿色。

有关更多选项，请参见？rcolorbrewer.并查看预定义的调色板display.brewer.all（）

2.2清洁

我们将添加一个列pdata.，源自BT.列，以指示样品是B细胞还是T细胞。

PDATA $ BORT < - 因子（SUBSTR（PDATA $ BT，1,1））

微阵列表达数据通常表示为一行的基因矩阵和列的样本。统计学家通常认为他们的数据是作为行的样本，作为列的特征。所以我们要转置表达式的值

exprs < - t (exprs)

确认pdata.行对应于exprs行。

Stopifnot（相同（royname（pdata），rownames（exprs））））

2.3无监督机器学习 - 多维缩放

将高维数据降低到可视化的降低维度。

计算之间的距离样本(要求表达式矩阵被转置)。

d < -  dist（exprs）

使用cmdscale（）功能将距离矩阵汇总到两个维度中的两个点。

cmd < -  cmdscale（d）

通过B型或T细胞状态可视化结果，着色点

绘图（cmd，col =突出显示[pdata $ bort]）

A.4 - 统计学

马丁摩根martin.morgan@roswellpark.org.

2017年1月12日

内容