1R数据操作

这个案例研究服务器作为复习/教程基本输入和操作的数据。

输入一个文件包含所有急性淋巴细胞白血病患者信息

帧< - file.choose ALLphenoData () # #”。tsv“stopifnot (file.exists(帧))pdata < - read.delim(帧)

查看帮助页面read.delim ?输入选项,并探索你创建的对象的基本属性,例如…

类(pdata)

# # [1]“data.frame”

colnames (pdata)

# # [1]“id”“诊断”“性”“年龄”“转基因”# #[6]“缓解”“CR”“日期。cr”“t.4.11。”"t.9.22." ## [11] "cyto.normal" "citog" "mol.biol" "fusion.protein" "mdr" ## [16] "kinet" "ccr" "relapse" "transplant" "f.u" ## [21] "date.last.seen"

暗(pdata)

21 # # [1]127

头(pdata)

# # id诊断性年龄BT缓解CR日期。cr t.4.11。t.9.22。阶段。正常citog # # 1 1005 5/21/1997 53 B2 CR CR 8/6/1997假真的假t (9; 22) # # 2 1010 3/29/2000 19 B2 CR CR 6/27/2000假假假简单的alt。# # 3 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA NA < NA > # # 4 4006 7/17/1997 38 B1 CR CR 9/8/1997真的假假的t (4, 11) # # 5 4007 7/22/1997 57 B2 CR CR 9/17/1997假假假del q (6) # # 6 4008 7/30/1997 17 B1 CR CR 9/27/1997假假假复杂的alt。# # mol.biol融合。mdr蛋白其ccr复发移植f。u date.last。看到# # 1 BCR / ABL p210 NEG dyploid假假真BMT死亡/ CR < NA > # # 2 NEG < NA > POS dyploid假真的假REL 8/28/2000 # # 3 BCR / ABL p190 NEG dyploid假真的假REL 10/15/1999 # # 4 ALL1 / AF4 < NA > NEG dyploid假真的假REL 1/23/1998 # # 5 NEG < NA > NEG dyploid假真的假REL 11/4/1997 # # 6 NEG < NA >底片hyperd。假真的假REL 12/15/1997

总结(pdata性美元)

# # F M NA的# # 42 83 2

总结(pdata cyto.normal美元)

# #模式错误的真正NA的# #逻辑69 24 34

提醒自己对各种方式data.frame子集和访问的列

pdata [1:5, 3:4)

# # # #性别年龄1米53 # # 2米19 # # 3 F 52 # 57 # 4 M 38 # # 5米

pdata [1:5]

# # id诊断性年龄BT缓解CR日期。cr t.4.11。t.9.22。阶段。正常citog mol.biol # # 1 1005 5/21/1997 53 B2 CR CR 8/6/1997假真的假t (9; 22) BCR / ABL # # 2 1010 3/29/2000 19 B2 CR CR 6/27/2000假假假简单的alt。NEG # # 3 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA NA < NA > BCR / ABL # # 4 4006 7/17/1997 38 B1 CR CR 9/8/1997真的假假的t (4, 11) ALL1 / AF4 # 57 # 5 4007 7/22/1997 B2 CR CR 9/17/1997假假假德尔(6问)底片# #融合。mdr蛋白其ccr复发移植f。u date.last。看到# # 1 p210 NEG dyploid假假真BMT死亡/ CR < NA > # # 2 < NA > POS dyploid假真的假REL 8/28/2000 # # 3 p190 NEG dyploid假真的假REL 10/15/1999 # # 4 < NA > NEG dyploid假真的假REL 1/23/1998 # # 5 < NA > NEG dyploid假真的假REL 11/4/1997

头(pdata [3:5])

# #性别年龄BT # # 1米53 B2 # # 2米19 B2 # # 3 F 52 B4 # # 4 M 38 B1 # # 5米57 B2 # # 6米17 B1

尾(pdata [3:5] 3)

BT # # 125 # #性别年龄19 T2 30 T3 # # # # 126 29 127 T2

头(pdata时代美元)

# # [1]53 19 52 38 57 17

头(pdata性美元)

# # [1]M M F M M M # #水平:F M

头(pdata [pdata $ > 21岁])

# # id诊断性年龄BT缓解CR日期。cr t.4.11。t.9.22。阶段。正常citog # # 1 1005 5/21/1997 53 B2 CR CR 8/6/1997假真的假t (9; 22) # # 3 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA NA < NA > # # 4 4006 7/17/1997 38 B1 CR CR 9/8/1997真的假假的t (4, 11) # # 5 4007 7/22/1997 57 B2 CR CR 9/17/1997假假假德尔(6问)# # 10 8001 1/15/1997 40 B2 CR CR 3/26/1997假假假德尔(p15) # # 11 8011 8/21/1998 33 B3 CR CR 10/8/1998假假假德尔(p15 / p16) # # mol.biol融合。mdr蛋白其ccr复发移植f。u date.last。看到# # 1 BCR / ABL p210 NEG dyploid假假真BMT死亡/ CR < NA > # # 3 BCR / ABL p190 NEG dyploid假真的假REL 10/15/1999 # # 4 ALL1 / AF4 < NA > NEG dyploid假真的假REL 1/23/1998 # # 5 NEG < NA > NEG dyploid假真的假REL 11/4/1997 # # 10 BCR / ABL p190 NEG < NA >假真的假REL 7/11/1997 # # 11 BCR / ABL p190 / p210 NEG dyploid假假真BMT死亡/ CR < NA >

似乎从下面有17个40岁以上女性的数据集,但当子集pdata仅仅包含那些19行被选中。为什么?我们能做什么来解决这个问题?

idx < - pdata性= = " F " & pdata美元年龄> 40表(idx)

# # idx # #假真# 17 # 108

暗(pdata [idx])

# # [1]19 21

使用mol.biol列数据子集只包含个人“BCR / ABL”或“否定”,例如,

bcrabl < - pdata [pdata $摩尔。杂志% % c (“BCR / ABL”、“否定”),)

的mol.biol列是一个因素,并保留所有水平即使构造子集。你怎么可能删除未使用的因素水平?

bcrabl美元摩尔。杂志< -因子(bcrabl mol.biol美元)

的英国电信列是一个因素描述B和t细胞亚型

水平(bcrabl BT美元)

# # [1]“B”“B1”“B2”“B3”“B4”“T”“T1”“T2”“T3”“T4”

怎么可能一个崩溃B1, B2,…一个B型,同样为T1, T2,…,所以只有两个亚型,B和T

表(bcrabl BT美元)

# # # # B B1 B2 B3 B4 T T1 T2 T3 T4 # # 4 9 35 22 9 4 1 15 9 2

水平(bcrabl BT美元)< -子串(水平(bcrabl BT美元),1,1)表(bcrabl BT美元)

# # # # # # B T 79 31

使用xtabs ()(交叉表)来计算样品的数量和B - t细胞类型的BCR / ABL和负的团体

bcrabl BT + mol.biol xtabs (~)

# # mol.biol BT BCR / ABL NEG # # # # 37 B 42 # # T 0 31

使用总()男性和女性的平均年龄计算BCR / ABL和底片治疗组。

总(年龄~ mol.biol +性别、bcrabl意味着)

# # 1 # # mol.biol性别年龄BCR / ABL 39.93750 # # 2 NEG F 30.42105 # # 3 BCR / ABL 27.21154米40.50000 # # 4负的米

使用t.test ()比较个人的年龄BCR / ABL和底片组;可视化结果使用箱线图()。在这两种情况下,使用公式接口。查阅帮助页面t.test ?并重新测试假设方差两组的年龄是相同的。测试输出变化的哪些部分?

t。测试(年龄~ mol.biol bcrabl)

# # # #韦尔奇两样本t检验# # # #数据:年龄mol.biol # # t = 4.8172, df = 68.529, p = 8.401 e-06 # #备择假设:真正的均数差不等于0 # # 95%置信区间:7.13507 - 17.22408 # # # #样本估计:# #是BCR / ABL组是在否定组# # 40.25000 - 28.07042

箱线图(年龄~ mol.biol bcrabl)

2短阅读质量评估

选项1:fastqc

开始fastqc
选择fastq。gz文件从文件- >打开菜单。文件在/ mnt / nfs /实习/俊/ martin_morgan /
新闻好吧
研究情节和帮助菜单- >内容

选项2:ShortRead

# # 1。附加ShortRead和BiocParallel库(ShortRead)

# #加载所需的包:BiocGenerics # #加载所需的包:平行# # # #附加包:“BiocGenerics”# # # #以下对象从包:平行的蒙面:# # # # clusterApply, clusterApplyLB, clusterCall, clusterEvalQ, clusterExport, clusterMap, # # parApply, parCapply, parLapply, parLapplyLB, parRapply, parSapply, parSapplyLB # # # #以下对象是蒙面的包:统计数据:# # # #差,疯了,xtabs # # # #蒙面以下对象从“包:基地”:# # # # anyDuplicated,追加,as.data.frame,。向量,cbind colnames,做。电话,# #复制,eval, evalq,过滤器,发现,grep, grepl,相交,是。无序,# # lapp,长度,地图,宾州,匹配,mget,秩序,粘贴,pmax, pmax.int, pmin, # # pmin.int,位置,排名,rbind,减少,rownames,酸式焦磷酸钠,setdiff,排序,表,# # tapply,联盟,独特,unlist,无裂口的# # # #加载所需的包:BiocParallel # #加载所需的包:Biostrings # #加载所需的包:S4Vectors # #加载所需的包:stats4 # #加载所需的包:IRanges # #加载所需的包:XVector # #加载所需的包:Rsamtools # #加载所需的包:GenomeInfoDb # #加载所需的包:GenomicRanges # #加载所需的包:GenomicAlignments # #加载所需的包:SummarizedExperiment # #加载所需的包:Biobase # #欢迎Bioconductor # # # #片段包含介绍性的材料;视图与“browseVignettes ()”。# # Bioconductor,看到引用(“Biobase”),和包的引文(“pkgname”)。

库(BiocParallel) # # 2。创建一个矢量文件路径# #“bigdata”替换为“/ mnt / nfs /实习/ / martin_morgan /俊的fls的< - dir (“bigdata”模式= " * fastq。广州”,全= TRUE) stopifnot(所有(file.exists (fls))) # # 3。收集统计信息统计< - qa (fls) # # 4。生成和浏览报告browseURL(报表(统计))

看看qa报告所有车道

# #“bigdata”替换为“/ mnt / nfs /实习/ / martin_morgan /俊的负载(“bigdata / qa_all.Rda”) browseURL(报告(qa_all))

3注释

org包

符号映射

库(气管)数据(气管)图书馆(org.Hs.eg.db)

# # # #加载所需的包:AnnotationDbi加载所需的包:DBI

ensid < -头(rownames(气管)mapIds (org.Hs.eg。db, ensid,“象征”、“运用”)

# # ENSG00000000003 ENSG00000000005 ENSG00000000419 ENSG00000000457 ENSG00000000460 ENSG00000000938 # #“TSPAN6”“TNMD”“DPM1”“SCYL3”“C1orf112”“FGR”

keytypes (org.Hs.eg.db)

# # [1]“ACCNUM”“别名”“运用”“ENSEMBLPROT”“ENSEMBLTRANS”“ENTREZID”# #[7]“酶”“证据”“EVIDENCEALL”“GENENAME”“走”“GOALL”# # [13]“IPI”“地图”“人类”的“本体”“ONTOLOGYALL”“路径”# #[19]“包含”“PMID”“PROSITE”“REFSEQ”“符号”“UCSCKG”# # [25]“UNIGENE”“UNIPROT”

TxDb包

基因模型,被称为农庄/GRangesList

容易使自己的,从人造石铺地面文件GenomicFeatures: makeTxDbFromGFF ()和朋友

库(TxDb.Hsapiens.UCSC.hg19.knownGene)

# #加载所需的包:GenomicFeatures

txdb < - TxDb.Hsapiens.UCSC.hg19。knownGene外显子(txdb)

与289969年# #农庄对象范围和1元数据列:# # seqnames范围链| exon_id # # < Rle > < IRanges > < Rle > | <整数> # # [1]chr1 (11874、12227) + | 1 # # [2] chr1 (12595、12721) + | 2 # # [3] chr1 (12613、12721) + | 3 # # [4] chr1 (12646、12697) + | 4 # # [5] chr1 (13221、14409) + | 5 # #………………# # [289965]chrUn_gl000241 (35706、35859) - | 289965 # # [289966] chrUn_gl000241 (36711、36875) - | 289966 # # [289967] chrUn_gl000243 (11501、11530) + | 289967 # # [289968] chrUn_gl000243 (13608、13637) + | 289968 # # [289969] chrUn_gl000247 (5787、5816) - | 289969 # # - - - - - - - # # seqinfo: 93年从hg19基因组序列(1循环)

exonsBy (txdb tx)

# # GRangesList对象长度82960:# # # # 1美元农庄对象与范围和3元数据列:# # seqnames范围链| exon_id exon_name exon_rank # # < Rle > < IRanges > < Rle > | <整数> <人物> <整数> # # [1]chr1 (11874、12227) + | 1 < NA > 1 # # [2] chr1 (12613、12721) + | 3 < NA > 2 # # [3] chr1 (13221、14409) + | 5 < NA > 3 # # # # # # 2美元农庄对象与范围和3元数据列:# # seqnames范围链| exon_id exon_name exon_rank # # [1] chr1 (11874、12227) + | 1 < NA > 1 # # [2] chr1 (12595、12721) + | 2 < NA > 2 # # [3] chr1 (13403、14409) + | 6 < NA > 3 # # # # # # 3美元农庄对象与范围和3元数据列:# # seqnames范围链| exon_id exon_name exon_rank # # [1] chr1 (11874、12227) + | 1 < NA > 1 # # [2] chr1 (12646、12697) + | 4 < NA > 2 # # [3] chr1 (13221、14409) + | 5 < NA > 3 # # # #…# # < 82957多个元素> # # - - - - - - - # # seqinfo: 93年从hg19基因组序列(1循环)

p < -促进剂(txdb)

BSgenome

全基因组序列

可以自己做,或者使用其他格式Rsamtools: FaFile (),履带式车辆:TwoBitFile ()

库(BSgenome.Hsapiens.UCSC.hg19)

# # # #加载所需的包:BSgenome加载所需的包:rtracklayer

bsgenome < - BSgenome.Hsapiens.UCSC。hg19 ps < - getSeq ps (bsgenome p)

# # 82960 # #宽度长度的DNAStringSet实例seq # # [1] 2200 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN…GGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTT # # [2] 2200 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN…GGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTT # # [3] 2200 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN…GGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTT # # [4] 2200 TTAAGGTCTATTCTAAATTGCACACTTTGATTCAAAAGAAAC…TTCCTGCTAGCCAACCTCTCACTCATTGATCTGTCTCTGTC # # [5] 2200 ATTGTGAAGGATACATCTCAGAAACAGTCAATGAAAGAGACG…CTCCAGGCTCTGAACTTTCTCAGTAAGTTCAGGTAGCTGGG # #………# # [82956]2200 AAATGCAAAATTAGCTGGGCGTCGTGGCGCATGCCTGTAATC…一个GGGTGGCCTGAGCAGTAGGATTGGGGCTGGAGCAGTAAGA ## [82957] 2200 AAACTGACTGTGACAATAGAAGGGAGAGACATGAATTTATCT...GAAGAGGTGGGTCCTGCAGCTGTGGCGGGAGCCTCCTCAGT ## [82958] 2200 CAAGGGCCTCACTGATGAGGACATGCCCACCAGGGTCTGCTG...CTGGTGTCCCTGAGACAGCACTAACAGGTCCATGGCTGGGT ## [82959] 2200 TGACTGTCGTAAGAGCTTCCTTGTATATGAGGATGATGTCCA...GGCTGCTTTCTGCACTTCAAAATAAAGGCCTCCTGAAGATG ## [82960] 2200 AAGGGCCTCACTGATGAGGACACGCCCACCAGGGTCTGCTGA...CTTGTGTCCCTGAGACAGCACTAACAGGTCCATGGCTGGGT

嘘(letterFrequency (ps, GC, as.prob = TRUE))

AnnotationHub

方便公司资源

例如:运用“GTF”文件R/Bioconductor农庄,TxDb

库(AnnotationHub)中心< - AnnotationHub()查询中心(中心,c(“运用”、“80”、“gtf”)) # # ensgtf =显示(中心)#视觉选择中心(“AH47107”) gtf < -中心[[“AH47107”]] gtf txdb < - GenomicFeatures:: makeTxDbFromGRanges (gtf)

例如:non-model生物OrgDb包

库(AnnotationHub)中心< - AnnotationHub()查询(中心,“OrgDb”)

例子:地图路线图hg38外遗传性标记

路线图床上文件农庄

库(AnnotationHub)中心< - AnnotationHub()查询(中心,c (“EpigenomeRoadMap”、“E126”,“H3K4ME2”)) E126 < -中心[[“AH29817”]]

UCSC的liftOver文件映射坐标

查询(中心,c (“hg19”、“hg38”,“chainfile”))链< -中心[[“AH14150”]]

电梯在——可能是一对多的映射,所以农庄来GRangesList
```
库(rtracklayer) E126hg38 < - liftOver E126hg38 (E126、连锁)
```

4比对

结合基因组学查看器

创建一个“进口”目录(如果它不存在的话)和hg19_alias添加文件。选项卡。这是一个简单的文件之间的映射序列的名字一样使用的对齐,和序列名称进口。
开始进口。
从下拉菜单中选择hg19在屏幕的左上角
使用文件从文件菜单- >加载负载bam文件,例如,/ mnt / nfs /实习/ / martin_morgan / SRR1039508_sorted.bam俊
放大到一个特定的基因,例如,SPARCL1,进入盒子里的基因符号向浏览器窗口的中心。调整放大直到读取进来查看,并解释结果。

mkdir - p ~ /进口/基因组cp bigdata / hg19_alias。选项卡~ /进口/基因组/进口

Bioconductor:我们将探索如何将不同类型的映射标识符,如何导航基因组坐标,以及如何查询BAM文件读取保持一致。

附上“注释”包包含基因符号信息org.Hs.eg.db和基因组坐标(例如,基因外显子、cd、成绩单)r Biocannopkg (TxDb.Hsapiens.UCSC.hg19.knownGene)。安排“seqlevels”(染色体的名字)TxDb包BAM相匹配的文件。
使用org . *包从基因符号Entrez id映射,以及TxDb。*包检索SPARCL1基因的基因坐标。注意:以下使用单个基因的象征,但是我们可以使用1、2或基因符号矢量化时尚。
附加GenomicAlignments包处理读取保持一致。使用range ()基因组的坐标生成SPARCL1的第一个和最后一个外显子。输入读取重叠SPARCL1配对。

什么问题你能轻松地回答关于这些校准?例如,读取这个地区重叠感兴趣的多少?

# # 1。“注释”包库(TxDb.Hsapiens.UCSC.hg19.knownGene)图书馆(org.Hs.eg.db) txdb < TxDb.Hsapiens.UCSC.hg19。knownGene # # 1。b——地图的seqlevels TxDb文件中记录的这些液体在# # BAM文件< -“基因组~ /进口/ / hg19_alias。选项卡“< -地图(read.delim (fl,头= FALSE, stringsAsFactors = FALSE), setNames (V1、V2)) seqlevels (txdb力= TRUE) < -地图# # 2。符号- > Entrez ID - > sym2eg < mapIds (org.Hs.eg基因坐标。db:“SPARCL1”、“ENTREZID”,“象征”)exByGn < - exonsBy (txdb,“基因”)sparcl1exons < - exByGn [[sym2eg]] # # 3。一致读库(GenomicAlignments) # #“bigdata”替换为“/ mnt / nfs /实习/ / martin_morgan /俊的fl < -“bigdata / SRR1039508_sorted。bam“sparcl1gene < -范围(sparcl1exons)参数< ScanBamParam (= sparcl1gene) aln < - readGAlignmentPairs (fl, param =参数)

作为另一个锻炼我们问多少读取输入符合已知的基因模型。我们必须找到属于我们的基因的转录,然后通过文字记录外显子分组。

5. # #。exons-by-transcript对我们感兴趣的基因txids < -选择(txdb sym2eg,“TXID”、“GENEID”) TXID美元

# #的选择()返回1:许多钥匙和列之间的映射

exByTx < - exonsBy (txdb tx) [txids] # # 5。b兼容比对点击< - findCompatibleOverlaps(查询= aln主题= exByTx)好< - seq_along (aln) % % queryHits(点击)表(好)

# # # #好假真# # 14 55

最后,让我们从基因模型蛋白质编码序列。(a)提取cd地区按记录分组,选择记录我们感兴趣,(b)连接,然后提取适当的参考基因组的编码序列。翻译的蛋白质编码序列。

# #重置seqlevels restoreSeqlevels (txdb)

# # TxDb对象:# # # Db型:TxDb支持包:# # # # # # GenomicFeatures数据来源:UCSC基因组:# # # # # # hg19生物:智人# # #分类ID: 9606 # # # UCSC的表:knownGene # # #资源URL: http://genome.ucsc.edu/ # # #的基因类型ID: Entrez基因ID # # #完整数据集:是的# # # miRBase构建ID: GRCh37 # # # transcript_nrow: 82960 # # # exon_nrow: 289969 # # # cds_nrow: 237533 # # # Db由:GenomicFeatures包从Bioconductor # # #创建时间:2015-10-07 18:11:28 + 0000(2015年10月结婚,07年)# # # GenomicFeatures版本在创建的时候:1.21.30创建时间:# # # RSQLite版本1.0.0 # # # DBSCHEMAVERSION: 1.1

# # a cd坐标,按记录分组txids < - mapIds (txdb sym2eg,“TXID”、“GENEID”) cdsByTx < - cdsBy (txdb, tx) [txids] # #从图书馆b编码序列相关的参考基因组dna (BSgenome.Hsapiens.UCSC.hg19) < - extractTranscriptSeqs (BSgenome.Hsapiens.UCSC。hg19 cdsByTx) < -蛋白质翻译(dna)

案例研究

马丁·摩根(martin.morgan@roswellpark.org)
罗斯威尔帕克癌症研究所,布法罗,纽约
2015年10月19日

内容

1R数据操作

2短阅读质量评估

3注释

4比对

5biomaRt注释

案例研究

马丁·摩根(martin.morgan@roswellpark.org)罗斯威尔帕克癌症研究所,布法罗,纽约2015年10月19日

内容

1R数据操作

2短阅读质量评估

3注释

4比对

5biomaRt注释

马丁·摩根(martin.morgan@roswellpark.org)
罗斯威尔帕克癌症研究所,布法罗,纽约
2015年10月19日