内容

版本:0.1.1
编译:太阳17:02:38 2015年10月18日

1R数据操作

这个案例研究服务器作为复习/教程基本输入和操作的数据。

输入一个文件包含所有急性淋巴细胞白血病患者信息

帧< - file.choose ALLphenoData () # #”。tsv“stopifnot (file.exists(帧))pdata < - read.delim(帧)

查看帮助页面read.delim ?输入选项,并探索你创建的对象的基本属性,例如…

类(pdata)
# # [1]“data.frame”
colnames (pdata)
# # [1]“id”“诊断”“性”“年龄”“转基因”# #[6]“缓解”“CR”“日期。cr”“t.4.11。”"t.9.22." ## [11] "cyto.normal" "citog" "mol.biol" "fusion.protein" "mdr" ## [16] "kinet" "ccr" "relapse" "transplant" "f.u" ## [21] "date.last.seen"
暗(pdata)
21 # # [1]127
头(pdata)
# # id诊断性年龄BT缓解CR日期。cr t.4.11。t.9.22。阶段。正常citog # # 1 1005 5/21/1997 53 B2 CR CR 8/6/1997假真的假t (9; 22) # # 2 1010 3/29/2000 19 B2 CR CR 6/27/2000假假假简单的alt。# # 3 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA NA < NA > # # 4 4006 7/17/1997 38 B1 CR CR 9/8/1997真的假假的t (4, 11) # # 5 4007 7/22/1997 57 B2 CR CR 9/17/1997假假假del q (6) # # 6 4008 7/30/1997 17 B1 CR CR 9/27/1997假假假复杂的alt。# # mol.biol融合。mdr蛋白其ccr复发移植f。u date.last。看到# # 1 BCR / ABL p210 NEG dyploid假假真BMT死亡/ CR < NA > # # 2 NEG < NA > POS dyploid假真的假REL 8/28/2000 # # 3 BCR / ABL p190 NEG dyploid假真的假REL 10/15/1999 # # 4 ALL1 / AF4 < NA > NEG dyploid假真的假REL 1/23/1998 # # 5 NEG < NA > NEG dyploid假真的假REL 11/4/1997 # # 6 NEG < NA >底片hyperd。假真的假REL 12/15/1997
总结(pdata性美元)
# # F M NA的# # 42 83 2
总结(pdata cyto.normal美元)
# #模式错误的真正NA的# #逻辑69 24 34

提醒自己对各种方式data.frame子集和访问的列

pdata [1:5, 3:4)
# # # #性别年龄1米53 # # 2米19 # # 3 F 52 # 57 # 4 M 38 # # 5米
pdata [1:5]
# # id诊断性年龄BT缓解CR日期。cr t.4.11。t.9.22。阶段。正常citog mol.biol # # 1 1005 5/21/1997 53 B2 CR CR 8/6/1997假真的假t (9; 22) BCR / ABL # # 2 1010 3/29/2000 19 B2 CR CR 6/27/2000假假假简单的alt。NEG # # 3 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA NA < NA > BCR / ABL # # 4 4006 7/17/1997 38 B1 CR CR 9/8/1997真的假假的t (4, 11) ALL1 / AF4 # 57 # 5 4007 7/22/1997 B2 CR CR 9/17/1997假假假德尔(6问)底片# #融合。mdr蛋白其ccr复发移植f。u date.last。看到# # 1 p210 NEG dyploid假假真BMT死亡/ CR < NA > # # 2 < NA > POS dyploid假真的假REL 8/28/2000 # # 3 p190 NEG dyploid假真的假REL 10/15/1999 # # 4 < NA > NEG dyploid假真的假REL 1/23/1998 # # 5 < NA > NEG dyploid假真的假REL 11/4/1997
头(pdata [3:5])
# #性别年龄BT # # 1米53 B2 # # 2米19 B2 # # 3 F 52 B4 # # 4 M 38 B1 # # 5米57 B2 # # 6米17 B1
尾(pdata [3:5] 3)
BT # # 125 # #性别年龄19 T2 30 T3 # # # # 126 29 127 T2
头(pdata时代美元)
# # [1]53 19 52 38 57 17
头(pdata性美元)
# # [1]M M F M M M # #水平:F M
头(pdata [pdata $ > 21岁])
# # id诊断性年龄BT缓解CR日期。cr t.4.11。t.9.22。阶段。正常citog # # 1 1005 5/21/1997 53 B2 CR CR 8/6/1997假真的假t (9; 22) # # 3 3002 6/24/1998 F 52 B4 CR CR 8/17/1998 NA NA NA < NA > # # 4 4006 7/17/1997 38 B1 CR CR 9/8/1997真的假假的t (4, 11) # # 5 4007 7/22/1997 57 B2 CR CR 9/17/1997假假假德尔(6问)# # 10 8001 1/15/1997 40 B2 CR CR 3/26/1997假假假德尔(p15) # # 11 8011 8/21/1998 33 B3 CR CR 10/8/1998假假假德尔(p15 / p16) # # mol.biol融合。mdr蛋白其ccr复发移植f。u date.last。看到# # 1 BCR / ABL p210 NEG dyploid假假真BMT死亡/ CR < NA > # # 3 BCR / ABL p190 NEG dyploid假真的假REL 10/15/1999 # # 4 ALL1 / AF4 < NA > NEG dyploid假真的假REL 1/23/1998 # # 5 NEG < NA > NEG dyploid假真的假REL 11/4/1997 # # 10 BCR / ABL p190 NEG < NA >假真的假REL 7/11/1997 # # 11 BCR / ABL p190 / p210 NEG dyploid假假真BMT死亡/ CR < NA >

似乎从下面有17个40岁以上女性的数据集,但当子集pdata仅仅包含那些19行被选中。为什么?我们能做什么来解决这个问题?

idx < - pdata性= = " F " & pdata美元年龄> 40表(idx)
# # idx # #假真# 17 # 108
暗(pdata [idx])
# # [1]19 21

使用mol.biol列数据子集只包含个人“BCR / ABL”或“否定”,例如,

bcrabl < - pdata [pdata $摩尔。杂志% % c (“BCR / ABL”、“否定”),)

mol.biol列是一个因素,并保留所有水平即使构造子集。你怎么可能删除未使用的因素水平?

bcrabl美元摩尔。杂志< -因子(bcrabl mol.biol美元)

英国电信列是一个因素描述B和t细胞亚型

水平(bcrabl BT美元)
# # [1]“B”“B1”“B2”“B3”“B4”“T”“T1”“T2”“T3”“T4”

怎么可能一个崩溃B1, B2,…一个B型,同样为T1, T2,…,所以只有两个亚型,B和T

表(bcrabl BT美元)
# # # # B B1 B2 B3 B4 T T1 T2 T3 T4 # # 4 9 35 22 9 4 1 15 9 2
水平(bcrabl BT美元)< -子串(水平(bcrabl BT美元),1,1)表(bcrabl BT美元)
# # # # # # B T 79 31

使用xtabs ()(交叉表)来计算样品的数量和B - t细胞类型的BCR / ABL和负的团体

bcrabl BT + mol.biol xtabs (~)
# # mol.biol BT BCR / ABL NEG # # # # 37 B 42 # # T 0 31

使用总()男性和女性的平均年龄计算BCR / ABL和底片治疗组。

总(年龄~ mol.biol +性别、bcrabl意味着)
# # 1 # # mol.biol性别年龄BCR / ABL 39.93750 # # 2 NEG F 30.42105 # # 3 BCR / ABL 27.21154米40.50000 # # 4负的米

使用t.test ()比较个人的年龄BCR / ABL和底片组;可视化结果使用箱线图()。在这两种情况下,使用公式接口。查阅帮助页面t.test ?并重新测试假设方差两组的年龄是相同的。测试输出变化的哪些部分?

t。测试(年龄~ mol.biol bcrabl)
# # # #韦尔奇两样本t检验# # # #数据:年龄mol.biol # # t = 4.8172, df = 68.529, p = 8.401 e-06 # #备择假设:真正的均数差不等于0 # # 95%置信区间:7.13507 - 17.22408 # # # #样本估计:# #是BCR / ABL组是在否定组# # 40.25000 - 28.07042
箱线图(年龄~ mol.biol bcrabl)

2短阅读质量评估

选项1:fastqc

  1. 开始fastqc

  2. 选择fastq。gz文件从文件- >打开菜单。文件在/ mnt / nfs /实习/俊/ martin_morgan /

  3. 新闻好吧

  4. 研究情节和帮助菜单- >内容

选项2:ShortRead

# # 1。附加ShortRead和BiocParallel库(ShortRead)
# #加载所需的包:BiocGenerics # #加载所需的包:平行# # # #附加包:“BiocGenerics”# # # #以下对象从包:平行的蒙面:# # # # clusterApply, clusterApplyLB, clusterCall, clusterEvalQ, clusterExport, clusterMap, # # parApply, parCapply, parLapply, parLapplyLB, parRapply, parSapply, parSapplyLB # # # #以下对象是蒙面的包:统计数据:# # # #差,疯了,xtabs # # # #蒙面以下对象从“包:基地”:# # # # anyDuplicated,追加,as.data.frame,。向量,cbind colnames,做。电话,# #复制,eval, evalq,过滤器,发现,grep, grepl,相交,是。无序,# # lapp,长度,地图,宾州,匹配,mget,秩序,粘贴,pmax, pmax.int, pmin, # # pmin.int,位置,排名,rbind,减少,rownames,酸式焦磷酸钠,setdiff,排序,表,# # tapply,联盟,独特,unlist,无裂口的# # # #加载所需的包:BiocParallel # #加载所需的包:Biostrings # #加载所需的包:S4Vectors # #加载所需的包:stats4 # #加载所需的包:IRanges # #加载所需的包:XVector # #加载所需的包:Rsamtools # #加载所需的包:GenomeInfoDb # #加载所需的包:GenomicRanges # #加载所需的包:GenomicAlignments # #加载所需的包:SummarizedExperiment # #加载所需的包:Biobase # #欢迎Bioconductor # # # #片段包含介绍性的材料;视图与“browseVignettes ()”。# # Bioconductor,看到引用(“Biobase”),和包的引文(“pkgname”)。
库(BiocParallel) # # 2。创建一个矢量文件路径# #“bigdata”替换为“/ mnt / nfs /实习/ / martin_morgan /俊的fls的< - dir (“bigdata”模式= " * fastq。广州”,全= TRUE) stopifnot(所有(file.exists (fls))) # # 3。收集统计信息统计< - qa (fls) # # 4。生成和浏览报告browseURL(报表(统计))

看看qa报告所有车道

# #“bigdata”替换为“/ mnt / nfs /实习/ / martin_morgan /俊的负载(“bigdata / qa_all.Rda”) browseURL(报告(qa_all))

3注释

org

TxDb

BSgenome

AnnotationHub

例如:运用“GTF”文件R/Bioconductor农庄,TxDb

库(AnnotationHub)中心< - AnnotationHub()查询中心(中心,c(“运用”、“80”、“gtf”)) # # ensgtf =显示(中心)#视觉选择中心(“AH47107”) gtf < -中心[[“AH47107”]] gtf txdb < - GenomicFeatures:: makeTxDbFromGRanges (gtf)

例如:non-model生物OrgDb

库(AnnotationHub)中心< - AnnotationHub()查询(中心,“OrgDb”)

例子:地图路线图hg38外遗传性标记

4比对

结合基因组学查看器

  1. 创建一个“进口”目录(如果它不存在的话)和hg19_alias添加文件。选项卡。这是一个简单的文件之间的映射序列的名字一样使用的对齐,和序列名称进口。

  2. 开始进口。

  3. 从下拉菜单中选择hg19在屏幕的左上角

  4. 使用文件从文件菜单- >加载负载bam文件,例如,/ mnt / nfs /实习/ / martin_morgan / SRR1039508_sorted.bam俊

  5. 放大到一个特定的基因,例如,SPARCL1,进入盒子里的基因符号向浏览器窗口的中心。调整放大直到读取进来查看,并解释结果。

mkdir - p ~ /进口/基因组cp bigdata / hg19_alias。选项卡~ /进口/基因组/进口

Bioconductor:我们将探索如何将不同类型的映射标识符,如何导航基因组坐标,以及如何查询BAM文件读取保持一致。

  1. 附上“注释”包包含基因符号信息org.Hs.eg.db和基因组坐标(例如,基因外显子、cd、成绩单)r Biocannopkg (TxDb.Hsapiens.UCSC.hg19.knownGene)。安排“seqlevels”(染色体的名字)TxDb包BAM相匹配的文件。

  2. 使用org . *包从基因符号Entrez id映射,以及TxDb。*包检索SPARCL1基因的基因坐标。注意:以下使用单个基因的象征,但是我们可以使用1、2或基因符号矢量化时尚。

  3. 附加GenomicAlignments包处理读取保持一致。使用range ()基因组的坐标生成SPARCL1的第一个和最后一个外显子。输入读取重叠SPARCL1配对。

  4. 什么问题你能轻松地回答关于这些校准?例如,读取这个地区重叠感兴趣的多少?

    # # 1。“注释”包库(TxDb.Hsapiens.UCSC.hg19.knownGene)图书馆(org.Hs.eg.db) txdb < TxDb.Hsapiens.UCSC.hg19。knownGene # # 1。b——地图的seqlevels TxDb文件中记录的这些液体在# # BAM文件< -“基因组~ /进口/ / hg19_alias。选项卡“< -地图(read.delim (fl,头= FALSE, stringsAsFactors = FALSE), setNames (V1、V2)) seqlevels (txdb力= TRUE) < -地图# # 2。符号- > Entrez ID - > sym2eg < mapIds (org.Hs.eg基因坐标。db:“SPARCL1”、“ENTREZID”,“象征”)exByGn < - exonsBy (txdb,“基因”)sparcl1exons < - exByGn [[sym2eg]] # # 3。一致读库(GenomicAlignments) # #“bigdata”替换为“/ mnt / nfs /实习/ / martin_morgan /俊的fl < -“bigdata / SRR1039508_sorted。bam“sparcl1gene < -范围(sparcl1exons)参数< ScanBamParam (= sparcl1gene) aln < - readGAlignmentPairs (fl, param =参数)
  5. 作为另一个锻炼我们问多少读取输入符合已知的基因模型。我们必须找到属于我们的基因的转录,然后通过文字记录外显子分组。

    5. # #。exons-by-transcript对我们感兴趣的基因txids < -选择(txdb sym2eg,“TXID”、“GENEID”) TXID美元
    # #的选择()返回1:许多钥匙和列之间的映射
    exByTx < - exonsBy (txdb tx) [txids] # # 5。b兼容比对点击< - findCompatibleOverlaps(查询= aln主题= exByTx)好< - seq_along (aln) % % queryHits(点击)表(好)
    # # # #好假真# # 14 55
  6. 最后,让我们从基因模型蛋白质编码序列。(a)提取cd地区按记录分组,选择记录我们感兴趣,(b)连接,然后提取适当的参考基因组的编码序列。翻译的蛋白质编码序列。

    # #重置seqlevels restoreSeqlevels (txdb)
    # # TxDb对象:# # # Db型:TxDb支持包:# # # # # # GenomicFeatures数据来源:UCSC基因组:# # # # # # hg19生物:智人# # #分类ID: 9606 # # # UCSC的表:knownGene # # #资源URL: http://genome.ucsc.edu/ # # #的基因类型ID: Entrez基因ID # # #完整数据集:是的# # # miRBase构建ID: GRCh37 # # # transcript_nrow: 82960 # # # exon_nrow: 289969 # # # cds_nrow: 237533 # # # Db由:GenomicFeatures包从Bioconductor # # #创建时间:2015-10-07 18:11:28 + 0000(2015年10月结婚,07年)# # # GenomicFeatures版本在创建的时候:1.21.30创建时间:# # # RSQLite版本1.0.0 # # # DBSCHEMAVERSION: 1.1
    # # a cd坐标,按记录分组txids < - mapIds (txdb sym2eg,“TXID”、“GENEID”) cdsByTx < - cdsBy (txdb, tx) [txids] # #从图书馆b编码序列相关的参考基因组dna (BSgenome.Hsapiens.UCSC.hg19) < - extractTranscriptSeqs (BSgenome.Hsapiens.UCSC。hg19 cdsByTx) < -蛋白质翻译(dna)

5biomaRt注释

练习参观biomartweb服务探索标注产品的多样性。

加载biomaRt包和列出可用的集市。选择运用集市和列表的数据集市。建立一个集市使用运用集市和hsapiens_gene_ensembl数据集。

一个biomaRt数据集可以通过访问getBM ()。除了需要访问的集市,这个函数有过滤器和属性参数。使用filterOptions ()listAttributes ()发现这些参数值。调用getBM ()使用你选择的过滤器和属性。

解决方案

库(biomaRt)头(listMarts(), 3) # #列表集市头(listDatasets (useMart(“运用”)),3)运用< - # # # #集市数据集完全指定的集市useMart(“运用”,数据集=“hsapiens_gene_ensembl”)负责人(listFilters(运用),3)# #过滤器myFilter < -“chromosome_name”头(filterOptions (myFilter运用),3)# #返回值myvalue < - c(“21”、“22”)头(listAttributes(运用),3)# #属性myAttributes < - c (“ensembl_gene_id”、“chromosome_name”) # #组装和查询集市res < - getBM(属性= myAttributes过滤器= myFilter值= myvalue集市=运用)