内容

作者:Sonali Arora(sarora@fredhutch.org
日期:2015年7月20-22日

本课程的材料要求R版本3.2.1和Bioconductor版本3.2

0.1什么是生物导体

分析和理解高通量基因组数据

包装,羽毛,工作流动

有用的链接

0.2整体工作流程

典型的工作流包括以下步骤。
——实验设计
——湿实验室制备
-高通量测序
+输出:FASTQ文件读取和他们的质量分数
- 对齐+许多不同的对齐器,一些专门用于不同的目的
+输出:对齐读数的BAM文件
- 概括
+举例来说,读取重叠的兴趣区域(例如,基因)
——统计分析
——理解

Alt测序系统

0.3生物导体适用于何处

0.3.1基础设施

最大的生物导体优势之一是定义的类别,以使简单的任务非常容易和简化。

0.3.1.1Genomicranges对象

  • 代表注释- 基因,变体,监管要素,副本号码,......
  • 代表数据-对齐读取,ChIP峰值,称为变体,…

Alt基因组范围

许多生物学上有趣的问题代表了对范围的操作

  • 计数在对齐的读取和已知基因之间重叠 -GenomicRanges: summarizeOverlaps ()
  • 最靠近监管区域的基因 -GenomicRanges::最近的()[ChIPseeker] []
  • 称为与临床表型相关的变异- [VariantFiltering][]

农庄代数

  • 内部方法
    • 独立于同一对象中的其他范围
    • 格兰人变体股线意识
    • 转变()狭窄的()侧面()推动者()调整()限制()削减()
    • ?“范围内 - 方法”
  • 距离间方法
    • 依赖于同一对象中的其他范围
    • range ()reduce ()空白()分离()
    • 覆盖范围()(!)
    • ?“范围内 - 方法”
  • Between-range方法
    • 两个(或多个)范围对象的函数
    • findOverlaps ()倒数()、……% / %%在%%外部%;联盟()相交()setdiff ()punion ()pintersect ()psetdiff ()

0.3.1.2SummarizedExperiment

summarizedexperment类是一个类似矩阵的容器,其中行表示感兴趣的范围(如' GRanges或GRangesList-class '),列表示样本(样本数据总结为' DataFrame-class ')

Alt区间代数

0.3.2使用R/Bioconductor读取各种文件格式

Alt区间代数

示例-读取BAM文件
GenomicAlignments包用于输入读取对齐到参考基因组。在下一个示例中,我们将读取一个BAM文件,特别是读取支持显式
染色体14的外显子剪接结跨度19653773。

这个包RNAseqData.HNRNPC.bam.chr14_BAMFILES包含8个BAM文件。我们将只使用第一个BAM文件。我们将加载软件包和数据包,构造一个农庄与我们的地区感兴趣,并使用summarizeJunctions ()在我们感兴趣的地区寻找读物。

## 1.加载软件包库(基因组)库(基因组)库(基因组)## 2.加载样本数据库('rnaseqdata.hnrnpc.bam.chr14')bf < -  bamfile(rnaseqdata.hnrnpc.bam.chr14_bamfiles [[1]],asmates = true)## 3.定义我们的感兴趣区域ROI < -  Granges(“Chr14”,讽刺(19653773,宽度= 1))## 4.对齐,结,重叠我们的ROI Paln < -  ReadGalignmentsList(bf)j < -  suffarizejunctions(paln,with.revmap = true)j_overlap < -  j [j%over%roi] ## 5.支持读paln [j_overlap $ Revmap [[1]]]
# # GAlignmentsList对象长度8:# # # # GAlignments[[1]]对象2排列和0元数据列:# # seqnames链雪茄qwidth开始结束宽度njunc # # [1] m120n6m chr14 - 66 72 192 19653898 19653707 1 # # [2] chr14 + 7 m1270n65m 72 1342 19653689 19652348 1 # # # # # # GAlignments[[2]]对象2排列和0元数据列:## seqnames strand cigar qwidth start end width njunc ## [1] chr14 - 66M120N6M 72 19653707 19653898 192 1 ## [2] chr14 + 72M 72 19653686 19653757 72 ## ## [[3]] ## GAlignments对象与2对齐和0元数据列:## seqnames strand cigar qwidth start end width njunc ## [1] chr14 + 72M 72 19653675 19653746 72## <5个元素> ## ------- ## seqinfo: 93个序列来自一个未指定的基因组

0.3.3注释

0.3.3.1AnnotationHub:管理和下载文件的Bioconductor包

AnnotationHub是一个可以浏览的Web客户端
从UCSC, NCBI等各种数据库下载生物文件。
使用这个包允许用户直接获得文件,而不需要
找出文件在UCSC上的位置,下载并管理
本地机器上的多个文件。

library(AnnotationHub) ah = AnnotationHub()
##数据可以从以下来源唯一(ah$dataprovider)
## [1]“Ensembl”“EncodedCC”## [3]“UCSC”“Inparanoid8”## [5]“NCBI”“NHLBI”## [7]“Chea”“Pazar”## [9]“NIH途径互动数据库“”refnet“## [11]”Heemode“”Geo“## [13]”Broyinstitute“”ftp://ftp.ncbi.nlm.nih.gov/gene/data/“## [15]“dbsnp”
##以下文件类型可以从hub unique(ah$sourcetype)中检索
## [1]“Fasta”“床”“UCSC曲目”“GTF”“inparanoid”“ncbi / blast2go”## [7]“Twobit”链“”抓住“”zip“”csv“”biopax“##[13]“biopaxlevel2”“rdata”“bigwig”“tar.gz”“标签”“ncbi / ensembl”## [19]“vcf”
##我们将使用##`r biocpkg(“AnnotationHub”)“”。“,我们将从Fasta文件##'homo_sapiens.grch38.cdna.all.fa'下载所有_homo sapiens_ cdna序列。AH2 < - 查询(AH,C(“FASTA”,“HOMO SAPIENS”,“ENSEMBL”))FA < -  AH2 [[“AH18522”] FA
## class: FaFile ## path: /home/ubuntu/。AnnotationHub/22617 ## index: /home/ubuntu/.AnnotationHub/25666 ## isOpen: FALSE ## yieldSize: NA

Alt注释包

0.3.3.2TxDb对象

  • 策划注释资源-//www.andersvercelli.com/packages/biocViews
  • 底层sqlite数据库 -dbfile(txdb)
  • 自己做:GenomicFeatures:: makeTxDbFrom * ()
  • 访问基因模型
    • 外显子()成绩单()基因()cd ()(编码序列)
    • 推动者()和朋友
    • Exonsby()&朋友-外显子由基因,转录,…
    • “选择”界面:keytypes ()列()键()select ()mapIds ()
库(“TXDB.hsapiens.ucsc.hg19.knowngene”)TXDB < -  TXDB.hsapiens.ucsc.hg19.knowngene TXDB
# # TxDb对象:# # # Db型:TxDb支持包:# # # # # # GenomicFeatures数据来源:UCSC基因组:# # # # # # hg19生物:智人# # # TaxID: 9606 # # # UCSC的表:knownGene # # #资源URL: http://genome.ucsc.edu/ # # #的基因类型ID: Entrez基因ID # # #完整数据集:是的# # # miRBase构建ID: GRCh37 # # # transcript_nrow:82960 # # # exon_nrow: 289969 # # # cds_nrow: 237533 # # # Db由:GenomicFeatures包从Bioconductor # # #创建时间:2015-05-12 10:59:39 -0700(2015年5月12日,星期二)# # # GenomicFeatures版本在创建的时候:1.21.3创建时间:# # # RSQLite版本1.0.0 # # # DBSCHEMAVERSION: 1.1
方法(类=类(txdb))
## [1] $ $<- ExpressionSet annotatedDataFrameFrom ## [5] as。列表asb asGFF assayData # # [9] assayData < - cd cdsBy cdsByOverlaps # #[13]强迫列结合内容# # [17]dbInfo dbconn dbfile该# # [21]dbschema disjointExons距离外显子# # [25]exonsBy exonsByOverlaps extractUpstreamSeqs featureNames # # [29] featureNames < - fiveUTRsByTranscript基因初始化# # [33]intronsByTranscriptisActiveSeq isActiveSeq<- isNA ## [37] keys keytypes mapIds mapToTranscripts ## [41] mappedkeys metadata microRNAs nhit ##[45]有机体promoters revmap sample ## [49] sampleNames sampleNames<- saveDb select ## [53] seqinfo seqinfo<- seqlevels0 show ## [57] species storageMode storageMode<- tRNAs ## [61] taxonomyId threeUTRsByTranscripttranscriptsBy ## [65] transcriptsByOverlaps updateObject ## see '?方法,用于访问帮助和源代码
基因(TXDB)
## GRanges对象有23056个范围和1个元数据列:# # seqnames范围链| gene_id # # < Rle > < IRanges > < Rle > | <人物> # # 1 chr19(58858172, 58858172)——| 1 # # 10 chr8(18248755、18248755)+ | 10 # # 100 chr20(43248163、43248163)- | 100 # # 1000 chr18(25530930、25530930)- | 1000 # # 10000 chr1(243651535、243651535)- | 10000  ## ... ... ... ... ... ...# # 9991 chr9(114979995、114979995)- | 9991 # # 9992 chr21(35736323、35736323)+ | 9992 # # 9993 chr22(19023795、19023795)- | 9993 # # 9994 chr6(90539619、90539619)+ | 9994 # # 9997 chr22(50961997、50961997)- | 9997  ## ------- ## seqinfo: 93从hg19基因组序列(1循环)

0.3.3.3OrgDb对象

  • 策划资源,底层SQLite数据库,如TXDB.
  • “选择”界面:keytypes ()列()键()select ()mapIds ()
  • 钥匙矢量,所需的列
  • 关键类型的规范
select(org.Hs.eg.db, c("BRCA1", "PTEN"), c("ENTREZID", "GENENAME"), "SYMBOL")
## 'select()'返回键和列之间的1:1映射
## # ENTREZID基因## # 1 BRCA1 672乳腺癌1,早发## # 2 PTEN 5728磷酸酶和紧张素同源物
keytypes(org.hs.eg.db)
## [1] " accnum " " alias " " ensembl " " ensemblprot " " ensembltrans " " entrezid " ## [7] " enzyme " " evidence " " evidence all " " genename " " go " " goall " ## [13] " ipi " " map " " omim " " ontology " " ontology " " path " ## [19] " pfam " " mid " " prosite " " refseq " " symbol " " ucsckg " ## [25] " unigene " " uniprot "
列(org.Hs.eg.db)
## [1] " accnum " " alias " " ensembl " " ensemblprot " " ensembltrans " " entrezid " ## [7] " enzyme " " evidence " " evidence all " " genename " " go " " goall " ## [13] " ipi " " map " " omim " " ontology " " ontology " " path " ## [19] " pfam " " mid " " prosite " " refseq " " symbol " " ucsckg " ## [25] " unigene " " uniprot "

0.3.3.4其他网络资源

0.3.4下游的统计分析

生物体包的组织方式如下biocViews。我们可以回答很多问题生物问题使用不同的包。下面的一些条目测序其他条款和代表包包括:

0.4sessioninfo()

sessioninfo()
## R 3.2.1(2015-06-18)##平台:X86_64-Unknown-Linux-GNU(64位)##正在运行:Ubuntu 14.04.2 LTS ### locale:## [1] lc_ctype = en_us.utf-8 lc_numeric = c lc_time = en_us.utf-8 ## [4] lc_collat​​e = c lc_monetary = en_us.utf-8 lc_messages = en_us.utf-8 ## [7] lc_paper = en_us.utf-8 lc_name = c lc_address = c ## [10] lc_telephone = c lc_measurement = en_us.utf-8 lc_identification = c ## ##附加基本包:## [1] stats4并行统计图形grdevices utils数据集方法base ####其他附加包:## [1] org.hs.eg.db_3.1.2 rsqlite_1.0.0 ## [3] dbi_0.3.1 txdb.hsapiens.ucsc.hg19.knowngene_3.1.3 ## [5] genomicfeatures_1.21.13AnnotationDBI_1.31.17 ## [7] AnnotationHub_2.1.30 RNASEQDATA.HNRNPC.BAM.CHR14_0.7.0 ## [9] Genomicalign_1.5.11 RSAMTOOLS_1.21.14 ## [11] BIOSTRINES_2.37.2 XVERCTER_0.9.1 ## [13]概述_2.2BioBase_2.29.1 ## [15] GenomicRanges_1.21.16 GenomeinfodB_1.5.8 ## [17]讽刺_2.3.14 S4Vectors_0.7.10 ## [19] Biocgenerics_0.15.3 GGPlot2_1.0.1## [21] biocstyle_1.7.4 ## ##通过命名空间加载(and未附加):## [1] Reshape2_1.4.1 ColorSpace_1.2-6 htmltools_0.2.6 ## [4] rtracklayer_1.29.12 yaml_2.1.13 InteractivedIsplyBase_1.7.0 ## [7] XML_3.98-1.3 BiocPollellall_1.3.34 Lambda.r_1.1.7 ## [10] Plyr_1.8.3 Stringr_1.0.0 zlibbioc_1.15.0 ## [13] munsell_0.4.2 gtable_0.1.2 futile.logger_1.4.1##] rcpp_0.11.6 xtable_1.7-4 scaleS_0.2.5 ## [28] formatr_1.2 mime_0.3 digest_0.6.8 ## [31] Stringi_0.5-5 Shiny_0.12.1 Grid_3.2.1 ## [34] Tools_3.2.1bitops_1.0-6 magrittr_1.5 ## [37] rcurl_1.95-4.7 futile.options_1.0.0 mass_7.3-43 ## [40] RmarkDown_0.7 Httr_1.0.0 R6_2.1.0