介绍R

马丁•摩根
2015年2月2日

R

用于统计计算和图形的语言和环境

矢量,类,对象

函数、泛型方法

自省

帮助

例子

df <- data.frame(x=x, y=y) # object of class 'data.frame' plot(y ~ x, df) # generic plot, method plot.formula . df (x ~ x, df

Chunk Unnamed-Chunk-1的情节

fit <- lm(y ~x, df) # class 'lm'方法的对象(class=class(fit)) #内省
# # [1] add1。lm *别名。lm *方差分析。lm* ## [4] case.names.lm* confint。lm cooks.distance。lm* ##[7]异常。lm * dfbeta。lm * dfbetas。lm* ## [10] drop p1。lm * dummy.coef.lm效果。lm* ##[13]萃取。lm *家庭。lm *公式。lm* ##[16]值。lm *的影响。lm *卡帕。lm ##[19]标签。lm * logLik。lm* model.frame.lm* ## [22] model.matrix.lm nobs。lm *情节。lm* ## [25] predict.lm print.lm* proj.lm* ## [28] qr.lm* residuals.lm rstandard.lm* ## [31] rstudent.lm* simulate.lm* summary.lm ## [34] variable.names.lm* vcov.lm* ## ## Non-visible functions are asterisked

实验室

1.R数据操纵

这个练习是关于数据的基本输入和操作的复习/教程。

输入一个包含所有(急性淋巴细胞白血病)患者信息的文件

fname <- file.choose() ## "所有表型数据。tsv" stopifnot(file.exists(fname)) pdata <- read.delim(fname)

请查看帮助页面?read.delim对于输入选项,并探索您创建的对象的基本属性,例如...

类(pdata)
# #[1]“data.frame”
Colnames(PData)
## [1]“ID”“诊断”“性别”“年龄”## [5]“BT”“缓解”“CR”“”“日期”## [9]“T.4.11”。“t.9.22。”"cyto.normal" "citog" ## [13] "mol.biol" "fusion.protein" "mdr" "kinet" ## [17] "ccr" "relapse" "transplant" "f.u" ## [21] "date.last.seen"
暗(pdata)
## [1] 127 21
头(pdata)
## ID诊断性别时代BT REFISCE CR DATE.CR T.4.11。t.9.22。## 1 1005 5/21/1997 M 53 B2 CR CR 8/6/1997 FALSE TRUE ## 2 1010 3/29/2000 M 19 B2 CR CR 6/27/2000 FALSE FALSE ## 3 3002 6/24 /1998 F 52 B4 CR CR 8/17/1998 NA NA ## 4 4006 7/17/1997 M 38 B1 CR CR 9/8/1997真假## 5 4007 7/22/1997 M 57 B2 CR CR 9 /17/1997假假## 4008 7/30/197 M 17 B1 CR CR 9/27/1997假假## Cyto.Normal Citog Mol.Biol Fusion.Protein MDR Kinet CCR ## 1假T(9; 22)BCR / ABL P210 NEG Dypoid False ## 2错误简单Alt。neg  pos dypoid false ## 3 na  bcr / abl p190 neg dypoid false ## 4 false t(4; 11)All1 / AF4  Neg Dypoid False ## 5假del(6q)neg  ncon dypoid false ## 6误复杂Alt。neg  neg hyperd。FALSE ## relapse transplant f.u date.last.seen ## 1 FALSE TRUE BMT / DEATH IN CR  ## 2 TRUE FALSE REL 8/28/2000 ## 3 TRUE FALSE REL 10/15/1999 ## 4 TRUE FALSE REL 1/23/1998 ## 5 TRUE FALSE REL 11/4/1997 ## 6 TRUE FALSE REL 12/15/1997
总结(pdata性美元)
## F M NA的## 42 83 2
总结(pdata cyto.normal美元)
##模式为false True Na's ##逻辑69 24 34

提醒自己关于各种方式到数据和访问数据的列.Frame

pdata [1:5,3:4]
##年龄# 1 M 53 # 2 M 19 # 3 F 52 # 4 M 38 # 5 M 57
pdata [1:5]
## ID诊断性别时代BT REFISCE CR DATE.CR T.4.11。t.9.22。# # 1 1005 5/21/1997 53 B2 CR CR 8/6/1997假真# # 2 1010 3/29/2000 19 B2 CR CR 6/27/2000假假# # 3 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA # # 4 4006 7/17/1997 38 B1 CR CR 9/8/1997真假# 57 # 5 4007 7/22/1997 B2 CR CR 9/17/1997假假# #阶段。正常citog摩尔生物融合。mdr蛋白其ccr # # 1假t (9; 22) BCR / ABL p210 NEG dyploid假# # 2假简单的alt。NEG < NA > POS dyploid假# # 3 NA < NA > BCR / ABL p190 NEG dyploid假# # 4假t (4, 11) ALL1 / AF4 < NA > NEG dyploid假# # 5假德尔(6问)底片< NA > NEG dyploid假# #复发移植f.u date.last.seen # # 1假真BMT / CR < NA > # # 2中死亡TRUE FALSE REL 8/28/2000 ## 3 TRUE FALSE REL 10/15/1999 ## 4 TRUE FALSE REL 1/23/1998 ## 5 TRUE FALSE REL 11/4/1997
头(pdata [3:5])
##性别年龄BT # 1 M 53 B2 # 2 M 19 B2 # 3 F 52 B4 # 4 M 38 B1 # 5 M 57 B2 # 6 M 17 B1
尾部(PDATA [,3:5],3)
##性别年龄BT # 125 M 19 T2 ## 126 M 30 T3 # 127 M 29 T2
头(pdata时代美元)
## [1] 53 19 52 38 57 17
头(pdata $性)
## [1] M M F M M M ##级别:F M
头(pdata [pdata $ > 21岁])
## ID诊断性别时代BT REFISCE CR DATE.CR T.4.11。t.9.22。## 1 1005 5/21/1997 M 53 B2 CR CR 8/6/1997 FALSE ## 3 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA ## 4006 7/17 /1997 M 38 B1 CR 9/8/1997真假## 5 4007 7/22/1997 M 57 B2 CR CR 9/1997假假## 10 8001 1/15/1997 M 40 B2 CR CR 3 /26/1997假假## 11 8011 8/21/1998 M 33 B3 Cr Cr 10/8/1998假假## cyto.normal citog mol.biol fusion.protein mdr kinet ccr ## 1假t(9; 22)BCR / ABL P210 NEC Dypoid FALSE ## 3 NA  BCR / ABL P190 NEG Dypoid FALSE ## 4假T(4; 11)ALL1 / AF4  NEG DYPOID FALSE ## 5假DEL(6Q)NEG NEG dyploid FALSE ## 10 FALSE del(p15) BCR/ABL p190 NEG  FALSE ## 11 FALSE del(p15/p16) BCR/ABL p190/p210 NEG dyploid FALSE ## relapse transplant f.u date.last.seen ## 1 FALSE TRUE BMT / DEATH IN CR  ## 3 TRUE FALSE REL 10/15/1999 ## 4 TRUE FALSE REL 1/23/1998 ## 5 TRUE FALSE REL 11/4/1997 ## 10 TRUE FALSE REL 7/11/1997 ## 11 FALSE TRUE BMT / DEATH IN CR 

从下面看来,在数据集中有17位40岁以上的女性,但在亚设定时pdata为了只包含这些个人,需要选择19行。为什么?我们能做些什么来纠正这一点呢?

idx <- pdata$sex == "F" & pdata$age > 40 table(idx)
## idx ## false true ## 108 17
昏暗(pdata [idx,])
## [1] 19 21

使用mol.biol列来将数据子集,只包含带有'BCR/ABL'或'NEG'的个人,例如,

bcrabl < - pdata [pdata $摩尔。biol %in% c(“BCR/ABL”,“NEG”)

mol.biol列是一个因子,即使在子集之后仍然保留所有级别。如何删除未使用的因子级别?

BCRABL $ MOL.BIOL < - 因子(BCRABL $ MOL.BIOL)

英国电信柱是描述B-和T细胞亚型的因素

水平(BCRABL $ BT)
## [1]“B”“B1”“B2”“B3”“B4”“T”“T”“T1”“T2”“T2”“T3”“T3”“T4”

如何将B1 B2,…折叠成一个单一的B类型,同理,T1 T2,…,所以只有两个子类型,B和T

表(bcrabl BT美元)
## ## B B1 B2 B3 B4 T T1 T2 T3 T4 ## 4 9 35 22 9 4 1 15 9 2
level (bcrabl$BT) <- substring(levels(bcrabl$BT), 1,1) table(bcrabl$BT)
#### B T#79 31

使用xtabs ()(交叉表)计数每个BCR/ABL组和阴性组中B型和t型样本的数量

xtabs(~ BT + mol.biol, bcrabl)标签:
## mol.biol ## BT BCR / ABL Neg ## B 37 42 ## T 0 31

使用总()计算BCR/ABL和阴性治疗组男性和女性的平均年龄。

汇总(年龄〜mol.biol +性别,bcrabl,平均值)
##摩尔生物性别年龄## 1 BCR/ABL F 39.93750 ## 2 NEG F 30.4215 ## 3 BCR/ABL M 40.50000 ## 4 NEG M 27.21154

使用t.test()比较BCR/ABL组和阴性组的年龄;将结果可视化箱线图()。在这两种情况下,使用公式接口。请查阅帮助页面t.test ?在两组年龄方差相同的情况下重新进行测试。测试输出的哪些部分发生了变化?

T.Test(年龄〜mol.biol,bcrabl)
## ## welch两个样本t-test ## ##数据:通过Mol.biol ## t = 4.8172,df = 68.529,p值= 8.401e-06 ##替代假设:意味着的真实差异不是等于0 ## 95%的置信区间:## 7.13507 17.22408 ##样本估计:##在BCR / ABL中的均值在Group Neg ## 40.25000 28.07042
箱线图(年龄~ mol.biol, bcrabl)

大块全年龄图

资源

出版物(一般R)