B.1 -生物导体的介绍 - 欧洲杯冠军投注

1.1关于

Bioconductor:分析和理解高通量基因组数据

统计分析:大数据、技术产物、设计实验;严格的
理解:生物背景，视觉化，再现性
高通量
- 测序:RNASeq, ChIPSeq，变种，拷贝数，…
- 微阵列:表达，SNP，…
- 流式细胞术，蛋白质组学，图像，…

包、插图、工作流程

1296软件包;也……
- “注释”包——标识符地图、基因模型、通路等的静态数据库;例如,TxDb.Hsapiens.UCSC.hg19.knownGene
- 实验包-用于说明软件功能的数据集，例如:气道
探索和导航biocViews
包的着陆页
- 标题，作者/维护者，简短描述，引用，安装说明，…，下载统计数据
所有用户可见的函数都有帮助页面，大多数都有可运行的示例
“小插曲”是Bioconductor的一个重要特性——叙述文档说明了如何使用集成代码的软件包
“Release”(每六个月一次)和“devel”分支
支持网站;视频,最近的课程

包的安装和使用

一个包需要安装一次，使用包登陆页上的说明(例如，DESeq2)。

源(“//www.andersvercelli.com/biocLite.R”)biocLite (c(“DESeq2”、“org.Hs.eg.db”))

biocLite ()安装Bioconductor,凹口和github包。

安装后，可以将包加载到R会话中

库(GenomicRanges)

帮助系统交互式查询，如上所述:

帮助(package="GenomicRanges") vignette(package="GenomicRanges") vignette(package=" genomics ranges "， "GenomicRangesHOWTOs")

1.2关键概念

目标

再现性
互操作性
使用

好几行啊R不得不说

df <- data.frame(x =x, y =y) plot(y ~ x, df) fit <- lm(y ~ x, df) anova(fit)

##方差分析表## ## Response: Y ## Df Sum Sq Mean Sq F value Pr(>F) ## X 1 1001.14 1001.14 1013 < 2.2e-16 *** ##残差998 986.27 0.99 ##—## Signif。编码:0 '***' 0.001 '**' 0.01 '*' 0.05 '。“0.1”1

abline(适合)

类和方法——“S3”

data.frame ()
定义了类坐标数据
创建一个实例或对象
图(),lm (),方差分析(),abline ():方法上定义泛型将实例

发现和帮助

class(fit)方法(class=class(fit))方法(plot)

选项卡完成!

Bioconductor类和方法- " S4 "

例如:处理DNA序列

dna <- DNAStringSet(c("AACAT"， "GGCGCCT")) reverseComplement(dna)

## ## [1] 5 ATGTT ## [2] 7 AGGCGCC

数据(phiX174Phage) phiX174Phage

## A DNAStringSet instance of length 6 ## width seq names ## [1] 5386 GAGTTTTATCGCTTCCATGACGCAGAAGTTAAC…TTCGATAAAAATGATTGGCGTATCCAACCTGCA Genbank ## [2] 5386 gagttttatcgcttatgcagaagttaac…TTCGATAAAAATGATTGGCGTATCCAACCTGCA rf70 ## [3] 5386 gagttatcgcttatgcagaagttaac…TTCGATAAAAATGATTGGCGTATCCAACCTGCA SS78 ## [4] 5386 gagttatcgcttatgcagaagttaac…TTCGATAAAAATGATTGGCGTATCCAACCTGCA Bull ## [5] 5386TTCGATAAAAATGATTGGCGTATCCAACCTGCA G97 ## [6] 5386TTCGATAAAAATGATTGGCGTATCCAACCTGCA NEB03

letterFrequency (phiX174Phage GC, as.prob = TRUE)

# # G | C # # # # 0.4476420 [1] [2] 0.4472707 # # # # 0.4472707 [3] [4] 0.4470850 # # # # 0.4472707 [5] [6] 0.4470850

发现和帮助

类(dna) ?“DNAStringSet-class”?“reverseComplement DNAStringSet-method”

1.3高通量序列分析工作流程

实验设计
湿法实验室顺序准备(图来自http://rnaseq.uoregon.edu/)
(Illumina)测序(Bentley等，2008，doi: 10.1038 / nature07517)
- 主要输出:短读的FASTQ文件及其质量分数
对齐
- 选择匹配任务，例如:Rsubread， Bowtie2有利于ChIPseq，一些形式的RNAseq;BWA, GMAP更适合变量调用
- 主要输出:对齐读取的BAM文件
- 最近:kallisto以及类似的程序，产生与转录本对齐的读取表
减少
- 例如，RNASeq '计数表'(简单的电子表格)，DNASeq称为变量(VCF文件)，ChIPSeq峰值(床，假发文件)
分析
- 差异表达，峰值识别，…
理解
- 生物环境

1.4Bioconductor测序的生态系统

Alt测序系统

B.1 -介绍Bioconductor

马丁•摩根Martin.Morgan@RoswellPark.org
Lori牧羊人Lori.Shepherd@RoswellPark.org

2017年3月3

内容

1项目概述

1.1关于

1.2关键概念

1.3高通量序列分析工作流程

1.4Bioconductor测序的生态系统

B.1 -介绍Bioconductor

马丁•摩根Martin.Morgan@RoswellPark.orgLori牧羊人Lori.Shepherd@RoswellPark.org

2017年3月3

内容

1项目概述

1.1关于

1.2关键概念

1.3高通量序列分析工作流程

1.4Bioconductor测序的生态系统

马丁•摩根Martin.Morgan@RoswellPark.org
Lori牧羊人Lori.Shepherd@RoswellPark.org