使用大数据

马丁摩根
2015年2月3日

可扩展计算

高效的R.代码
- 矢量化！
- 重复使用别人的工作 -deseq2.那Genomicranges.那生物仪器，......，dplyr.那data.table.那rcpp.
- 有用的工具：系统时间（）那rprof（）那Microbenchmark.
- 更详细的内容致命的罪恶前一门课程。
迭代
- 巧妙
- 打开（），阅读块，关闭（）。
- 例如。，屈服争论RSAMTOOLS :: BAMFILE（）
- 框架：GenomicFiles :: DreambyByield（）
限制
- 限于列和/或兴趣的行
- 专用域名格式，例如BAM文件和RSAMTOOLS :: SCANBAMPARAM（）
- 使用数据库
采样
- 迭代大数据，保留可管理的样本，例如，Shortread :: FastQSampler（）
并行评估
- 后编写有效的代码
- 通常，lapply（）- 滑稽的运作
- 单个机器上的核心（'容易'）;群集（更令人繁琐）;云

并行评估生物体

生物相投-bpppply（）为了lapply（）-like函数，越来越多地被包装开发人员使用，以提供简单，标准的获得并行评估方式。2021欧洲杯体育投注开户
基因组夫妇- 在文件组，范围或范围X文件组的框架
生物体ami（亚马逊机器实例）包括预先配置的颗星。

实验室

高效代码

将以下内容作为函数写入。用系统时间（）探索这需要多长时间执行N从100到10000增加。使用完全相同的（）和Microbenchmark.比较替代方案F1（）那F2（），和F3（）对于这三种不同功能的正确性和性能。这些功能使用哪些策略？

f0 < - 函数（n）{##效率低下！ANS < -  numeric（）for（i在seq_len（n））ANS < -  C（ANS，EXP（I））ANS} F1 <函数（n）{ANS < -  numeric（n）for（i在seq_len（n））ANS [[i]] < -  exp（i）ans} f2 <函数（n）sapply（seq_len（n），exp）f3 <函数（n）exp（seq_len（n））

平行睡觉

去睡觉1秒钟，然后返回一世。这需要8秒钟。

图书馆（Biocparallel）有趣< - 函数（i）{sys.sleep（1）i} ##串行f0 < - 函数（n）lapply（seq_len（n），fun）##并行f1 < -  function（n）bppppply（SEQ_LEN（N），乐趣）

计数重叠 - 我们自己的版本

迭代文件：genomicfiles :: dreambybyield（）

（1）产生一大块;（2）从输入块映射到可能转换的表示;（3）减少映射的块

suppressPackageStartUpMessages（{库（基因组）库（基因组）库（RSAMTools）库（TXDB.hsapiens.ucsc.hg19.knowngene）}）产量< - ＃如何输入数据函数的下一个块（x，...）{readgalignments（x）} map < - ＃到每个块函数（value，...，roi）{olaps < -  sopeoverlaps（value，roi，type =“内部”，ignore.strand = true）count < -Tabulate（主题（OLAPS），主管长度（OLAP））符合inmes（计数，名称（ROI））}减少< - ＃如何组合映射的块`+`

改进：“产量厂”跟踪输入有多少录

exitingFactory < - ＃返回具有本地状态函数（）{n_records < -  0l函数（x，...）{aln < -  readgalignments（x）n_records <<  -  n_records + length（aln）消息（n_records）aln}}

感兴趣的区域，像BAM文件中的染色体命名。

Exbytx < -  Exonsbyens（Txdb.hsapiens.ucsc.hg19.knowngene，“Tx”）Map0 < -  read.delim（“〜/ Igv / genomes / hg19_alias.tab”，header = false，stringsasfactors = false）seqlevels（Exbytx，force = true）< -  setNames（Map0 $ V1，Map0 $ V2）

通过BAM文件迭代的函数

count1 < - 函数（filename，roi）{message（文件名）##创建和打开BAM文件BF < -  BAMFILE（FILENAME，ExuctionSize = 1000000）DreambyByield（BF，EucketFactory（），Map，Defile，ROI = ROI）}

在行动中

filename < - “〜/ bam / srr1039508_sorted.bam”count < -  count1（filename，exbytx）

并行化

库（生物竞争）##所有BAM文件文件名< -  dir（“〜/ bam”，pattern =“bam $”，full = true）名称（文件名）< - 子（“_ sorted.bam”，“”，basename（文件名））##迭代计数< -  BPLAPPLY（FILENAMES，COUNT1，EXBYTX）计数< -  simpleify2ARRAY（计数）头（计数）

资源

Lawrence，M和Morgan，M. 2014。具有R和Biocumon的可扩展基因组学。统计科学2014年，卷。29,2,214-226。http://arxiv.org/abs/1409.2864v1