内容

1核心基础设施

1.1Biostrings

DNA,氨基酸和其他生物序列。参见前面的例子B.1简介Bioconductor

1.2农庄

1.2.1 "GenomicRanges

  • 农庄():基因组坐标表示注释(外显子,基因,调控标记,…)和数据(称为峰值,变体,对齐读取)

    Alt农庄

    Alt农庄

  • GRangesList ():按列表元素分组的基因组坐标(例如,成对端读取;外显子按转录分组)

    Alt GRangesList

    Alt GRangesList

1.2.2业务范围

Alt范围代数

Alt范围代数

1.2.2.1范围

  • IRanges
    • start ()/结束()/宽度()
    • 类似,长度()、子集等。
    • “元数据”,mcols ()
  • 农庄
    • ' seqnames '(染色体),' strand '
    • Seqinfo,包括seqlevels而且seqlengths

1.2.2.2Intra-range方法

  • 独立于同一对象中的其他范围
  • GRanges变体链感知
  • 转变()狭窄的()侧面()发起人()调整()限制()削减()
  • 看到" ? intra-range-methods

1.2.2.3Inter-range方法

  • 取决于同一对象中的其他范围
  • range ()reduce ()空白()分离()
  • 覆盖()(!)
  • 看到" ? inter-range-methods

1.2.2.4Between-range方法

  • 两个(或多个)范围对象的函数
  • findOverlaps ()countOverlaps ()、……% / %%在%% %外联盟()相交()setdiff ()punion ()pintersect ()psetdiff ()

1.2.2.5例子

library(genome icranges) gr <- GRanges("A", IRanges(c(10,20,22), width=5), "+") shift(gr, 1) # intra-range . #
## GRanges对象,3个范围和0个元数据列:## seqnames ranges strand ##    ## [1] A [11,15] + ## [2] A [21,25] + ## [3] A [23,27] + ## ------- # seqinfo:来自一个未指定基因组的1个序列;没有seqlengths
Range (gr) # interrange
## seqnames range string# #    ## [1] A [10,26] + ## ------- # seqinfo:来自一个未指定基因组的1个序列;没有seqlengths
Reduce (gr) # inter-range
## GRanges对象,2个范围和0个元数据列:## seqnames ranges strand ##    ## [1] A [10,14] + ## [2] A [20,26] + ## ------- # seqinfo:来自一个未指定基因组的1个序列;没有seqlengths
snps <- GRanges("A", IRanges(c(11,17,24), width=1)) findOverlaps(snps, gr) # between-range . snps <- GRanges("A", IRanges(c(11,17,24), width=1
## Hits对象有3个Hits和0个元数据列:## queryHits subjectHits ##   ## [1] 1 1 ## [2] 3 2 ## [3] 3 3 # ------- ## queryLength: 3 / subjectLength: 3
Setdiff (range(gr), gr) # '内含子'
## seqnames range string# #    ## [1] A [15,19] + ## ------- # seqinfo:来自一个未指定基因组的1个序列;没有seqlengths

1.3GenomicAlignments

对齐读取的表示。参见下面的练习。

1.4SummarizedExperiment

1.4.1SummarizedExperiment

Alt SummarizedExperiment

Alt SummarizedExperiment

  • 将特征x样本“分析”与行(特征)和列(样本)描述协调起来。
  • colData ()描述样本的数据帧
  • rowRanges ()农庄/GRangeList或用于描述特征的数据帧
  • exptData ()来描述整个物体
  • 分析()可以是任何类似矩阵的对象,包括非常大的磁盘上表示,如HDF5Array
库(摘要实验)库(气道)数据(气道)气道
## class: rangedsummarizeexperiment ## dim: 64102 8 ## metadata(1): " ## assays(1): counts ## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
colData(气管)
## 8行9列的DataFrame ## SampleName cell dex albut运行avgLength ##       ## SRR1039508 GSM1275862 N61311 untrt untrt SRR1039508 126 ## SRR1039509 GSM1275863 N61311 trt untrt SRR1039509 126 ## SRR1039513 GSM1275866 N052611 untrt untrt SRR1039513 87 ## SRR1039516 GSM1275867 N052611 untrt untrt SRR1039516 120 ## srr1275871 N080611 trt untrt SRR1039517 126 ## SRR1039517SRR1039520 GSM1275874 N061011 untrt untrt SRR1039520 101 ## SRR1039521 GSM1275875 N061011 trt untrt SRR1039521生物样品## <因子> <因子> <因子> ## SRR1039508 SRX384345 SRS508568 SAMN02422675 ## SRR1039509 SRX384346 SRS508567 SAMN02422675 ## SRR1039513 SRX384349 SRS508571 SAMN02422678 ## SRR1039513 SRX384353 SRS508575 SAMN02422682 ## SRR1039517 SRX384354 SRS508576 SAMN02422673 ## SRR1039521 SRX384354 SRS508576 SRS508575 ## SRR1039521 srx1039522 SRX384353 SRS508575 SAMN02422670 ## SRR1039517 SRX384354 SRS508576 srs508557 SRS508579Samn02422683 ## srr1039521 srx384358 srs508580 samn02422677
气道[,气道$dex %in% "trt"]
## class: rangedsummarizeexperiment ## dim: 64102 4 ## metadata(1): " ## assays(1): counts ## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(4): SRR1039509 SRR1039513 SRR1039517 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
chr14 <- as(seqinfo(气道),"GRanges")["14"]气道[气道%超过% chr14,]
## class: rangedsummarizeexperiment ## dim: 2244 8 ## metadata(1): " ## assays(1): counts ## rownames(2244): ENSG00000006432 ENSG00000009830…ENSG00000273259 ## ENSG00000273307 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

1.5注释资源

  • Bioconductor提供对“注释”资源的广泛访问(参见AnnotationDatabiocViews层次结构);在这个实验中要探索的一些有趣的例子包括:
  • biomaRtPSICQUICKEGGREST和其他用于查询在线资源的包;每一本书都有翔实的小插曲。
  • AnnotationDbi是基石吗注释数据Bioconductor提供的软件包。
    • org包(例如,org.Hs.eg.db)包含不同基因标识符之间的映射,例如ENTREZ和SYMBOL。帮助页中描述了这些包的基本接口选择吗?
    • TxDb包(例如,TxDb.Hsapiens.UCSC.hg19.knownGene)包含基因模型(外显子坐标、外显子/转录本关系等),这些模型来自于常见的来源,如UCSC基因组浏览器的hg19 knownGene轨迹。可以查询这些包,例如,如exonsBy ?页检索所有按基因或转录分组的外显子。
    • BSgenome包(例如,BSgenome.Hsapiens.UCSC.hg19)包含模式生物的整个基因组。
  • VariantAnnotation而且ensemblVEP提供对序列注释功能的访问,例如,识别编码变体;看到VariantAnnotation介绍Vignette做了一个简短的介绍。
  • 快速看一下标注工作流程在Bioconductor的网站上。

1.5.1静态包

  • org . *:标识符映射

    • select ()列()键()
    • mapIds ()
    org <- org. hs.eg.db select(org, "BRCA1", c("集合名"),"符号")
    'select()'返回键和列之间的1:1映射
    1 BRCA1 ENSG00000012048 BRCA1, DNA修复相关
  • TxDb。*:基因模型

    • 外显子()成绩单()基因()发起人(),……
    • exonsBy ()transcriptsBy ()
    • select ()等。
    txdb <- txdb . hsapiens . ucsc .hg19. knowngene . txdb <- txdb . hsapiens . ucsc .hg19. knowngenepromoters(txdb)
    ## seqnames ranges strand | tx_id tx_name ##    |   ## [1] chr1 [9874, 12073] + | 1 uc001aaa。3 ## [2] chr1 [9874, 12073] + | 2 uc010nxq。1 ## [3] chr1 [9874, 12073] + | 3 uc010nxr。1## [4] chr1 [ 67091, 69290] + | 4 uc001aal.1 ## [5] chr1 [319084, 321283] + | 5 uc001aaq.2 ## ... ... ... ... . ... ... ## [82956] chrUn_gl000237 [ 2487, 4686] - | 82956 uc011mgu.1 ## [82957] chrUn_gl000241 [36676, 38875] - | 82957 uc011mgv.2 ## [82958] chrUn_gl000243 [ 9501, 11700] + | 82958 uc011mgw.1 ## [82959] chrUn_gl000243 [11608, 13807] + | 82959 uc022brq.1 ## [82960] chrUn_gl000247 [ 5617, 7816] - | 82960 uc022brr.1 ## ------- ## seqinfo: 93 sequences (1 circular) from hg19 genome

1.5.2基于网络的资源

1.5.3公司资源

library(AnnotationHub) hub = AnnotationHub()
## snapshotDate(): 2017-04-25
中心
## snapshotDate(): 2017-04-25 ## $dataprovider: BroadInstitute, ensemble bl, UCSC, Haemcode, inparanoia 8, ft…物种:智人(Homo sapiens), Mus musculus, Bos taurus, Pan troglodytes, Dani…## # $rdataclass: GRanges, BigWigFile, FaFile, TwoBitFile, ChainFile, Rle, I…## #附加mcols(): taxonomyid,基因组,描述,## # coordinate_1_based, maintainer, rdatadateadded, prepareclass, ## tags, rdatapath, sourceurl, sourcetype ## #检索记录,例如,'object[["AH2"]]' ## ## title ## AH2 | Ailuropoda_melanoleuca.ailMel1.69.dna.toplevel。fa ## AH3 | ailuropoda_melanoleuca . ailmel 1.69. dna_m .toplevel。fa ## AH4 | Ailuropoda_melanoleuca.ailMel1.69.dna_sm.toplevel。Ailuropoda_melanoleuca.ailMel1.69.ncrna。Ailuropoda_melanoleuca.ailMel1.69.pep.all。Fa ## ... ...## AH54627 | xiphophorus_maculatus . xipmac4.4.2.na .all。2bit ## AH54628 | Xiphophorus_maculatus.Xipmac4.4.2.dna.toplevel.2bit ## AH54629 | Xiphophorus_maculatus.Xipmac4.4.2.dna_rm.toplevel.2bit ## AH54630 | Xiphophorus_maculatus.Xipmac4.4.2.dna_sm.toplevel.2bit ## AH54631 | Xiphophorus_maculatus.Xipmac4.4.2.ncrna.2bit
查询(hub, c(" ensemble ", "81.gtf"))
## snapshotDate(): 2017-04-25 ## $dataprovider: integrbl ## # $species: Ailuropoda melanoleuca, Anas platyrhynchos, Anolis carolinens…## # $rdataclass: GRanges ## # additional mcols(): taxonomyid, genome, description, ## # coordinate_1_based, maintainer, rdatadateadded, prepareerclass, ## tags, rdatapath, sourceurl, sourcetype ## #检索记录,例如,'object[["AH47937"]]' ## ## title ## AH47937 | Ailuropoda_melanoleuca.ailMel1.81。gtf ## AH47938 | Anas_platyrhynchos.BGI_duck_1.0.81。gtf ## AH47939 | Anolis_carolinensis.AnoCar2.0.81。gtf ## AH47940 | Astyanax_mexicanus.AstMex102.81。gtf ## AH47941 | Bos_taurus.UMD3.1.81。GTF ## ... ...Tupaia_belangeri.TREESHREW.81。gtf ## AH48002 | Tursiops_truncatus.turTru1.81。gtf ## AH48003 | Vicugna_pacos.vicPac1.81。gtf ## AH48004 | xenopus_tropical . jgi_4.2.81。gtf ## AH48005 | Xiphophorus_maculatus.Xipmac4.4.2.81.gtf
中心[[" AH48004 "]]
##从缓存/home/mtmorgan//加载。AnnotationHub / 54310”
##使用猜测工作填充seqinfo
与581787年# #农庄对象范围和19元数据列:# # seqnames范围链|源类型得分# # < Rle > < IRanges > < Rle > | <因素> <因素> <数字> # # [1]GL172637.1[148] - |运用基因< NA > # # [2] GL172637.1[148] - |运用记录< NA > # # [3] GL172637.1[148] - |运用外显子< NA > # # [4] GL172637.1(606、720)- |运用基因< NA > # # [5] GL172637.1(606、720)- |运用记录< NA > ## ... ... ... ... . ... ... ...## [581783] GL180121.1 [865,867] + | integrbl start_codon  ## [581784] GL180121.1 [992,1334] + | integrbl exon  ## [581785] GL180121.1 [992,1334] + | integrbl CDS  ## [581786] GL180121.1 [1817,1835] + | integrbl exon  ## [581787] GL180121.1 [1817, 1817,1835] + | ensemble bl CDS  ## phase gene_id gene_version gene_name gene_source ##      ## [1]  ENSXETG00000030486 1 U5 ensemble ## [2]  ENSXETG00000030486 1 U5 ensemble ## [3]  ENSXETG00000030486 1 U5 ensemble ## [4]  ENSXETG00000031766 1 U5 ensemble ## [5]  ENSXETG00000031766 1 U5 ensemble ## ... ... ... ... ... ...# # [581783] 0 ENSXETG00000033193 1 < NA >运用# # [581784]< NA > ENSXETG00000033193 1 < NA >运用# # [581785]2 ENSXETG00000033193 1 < NA >运用# # [581786]< NA > ENSXETG00000033193 1 < NA >运用# # [581787]1 ENSXETG00000033193 1 < NA >运用# # gene_biotype transcript_id transcript_version # # <人物> <人物> <数字> # #[1]核内小rna < NA > < NA > # #[2]核内小rna ENSXETT00000065882 1 # #[3]核内小rna ENSXETT00000065882 1 # #[4]核内小rna < NA > < NA > # #[5]核内小rna ENSXETT00000061796 1  ## ... ... ... ...# # [581783] protein_coding ENSXETT00000053735 2 # # [581784] protein_coding ENSXETT00000053735 2 # # [581785] protein_coding ENSXETT00000053735 2 # # [581786] protein_coding ENSXETT00000053735 2 # # [581787] protein_coding ENSXETT00000053735 2 # # transcript_name transcript_source transcript_biotype exon_number # # <人物> <人物> <人物> <数字> # # [1]< NA > < NA > < NA > < NA > # # [2] u5 - 201运用核内小rna < NA > # # [3] u5 - 201运用核内小rna 1 # # [4] < NA > < NA > < NA > < NA > # # [5] u5 - 201运用snRNA  ## ... ... ... ... ...## [581783]  integrbl protein_coding 1 ## [581784]  integrbl protein_coding 2 ## [581785]  integrbl protein_coding 3 ## [581787]  integrbl protein_coding 3 ## exon_id exon_version protein_id ##      ## [2]    ## [3] ENSXETE00000393193 1  ## [4]    ## [5]    ## ... ... ... ...## [581783]    ## [581784] ENSXETE00000303775 2  ## [581785]   ENSXETP00000053735 ## [581786] ENSXETE00000416553 1  ## [581787]   ENSXETP00000053735 ## protein_version ## <数值> ## [1] ## [2]  ## [4]  ## [5]  ## ... ...## [581783]  ## [581784] 

2从文件到Bioconductor对象

2.1BED, GFF, GTF, WIG进出口

  • 基因组注释:BED, WIG, GTF等文件。例如,GTF:

  • 组件的坐标

    7蛋白编码基因27221129 27224842。- . ... ...7蛋白编码转录本27221134 27224835。- . ...7蛋白编码外显子27224055 27224835。- . ...7蛋白编码CDS 27224055 27224763。- 0…7蛋白编码起始密码子27224761 27224763。- 0… 7 protein_coding exon 27221134 27222647 . - . ... 7 protein_coding CDS 27222418 27222647 . - 2 ... 7 protein_coding stop_codon 27222415 27222417 . - 0 ... 7 protein_coding UTR 27224764 27224835 . - . ... 7 protein_coding UTR 27221134 27222414 . - . ...
  • 注释

    gene_id“ENSG00000005073”;gene_name“HOXA11”;gene_source“ensembl_havana”;gene_biotype“protein_coding”;……transcript_id“ENST00000006015”;transcript_name“hoxa11 - 001”;transcript_source“ensembl_havana”;标记“ccd”;ccds_id“CCDS5411”; ... exon_number "1"; exon_id "ENSE00001147062"; ... exon_number "1"; protein_id "ENSP00000006015"; ... exon_number "1"; ... exon_number "2"; exon_id "ENSE00002099557"; ... exon_number "2"; protein_id "ENSP00000006015"; ... exon_number "2"; ...

2.1.1rtracklayer

  • 进口():将各种格式导入农庄还有类似的例子
  • export ():转化为农庄和BED, GTF,…
  • 此外,功能交互驱动UCSC基因组浏览器的数据来自R/Bioconductor

2.2FASTQ文件

  • 顺序读取:FASTQ文件

    @err127302.1703 hwi-eas350_0441:1:1:1460:19184 #0/1 cctgagtgaagctgatcttagagagagatagatcttgatcgtcgaggagatgctgaccttgacct + hhghghhhhhhhhdgg < gdgge@gdggd  ce ?=896=: @err127302.1704 wi - eas350_041:1:1:14 60:16861#0/1 gcggtatgctggaaggtgctcgaatggagagcgccagcgccccggcgctgagccgccgccgccgccc + de ? dd > ed4 > eee > de8eeede8b ? eb <@3; ba79 ?, 881b ?@73;1?########################

2.2.1ShortRead

  • readFastq ():输入
  • FastqStreamer ():遍历FASTQ文件
  • FastqSampler (): FASTQ文件中的样本,例如,用于质量评估
  • 功能修剪和过滤FASTQ文件,QA评估

2.3对齐的读取

  • 对齐读取:BAM文件

  • @HD VN:1.0 SO:coordinate @SQ SN:chr1 LN:249250621 @SQ SN:chr10 LN:135534747 @SQ SN:chr11 LN:135006516…@SQ SN:chrY LN:59373566 @PG ID:TopHat VN:2.0.8b CL:/home/hpages/ TopHat -2.0.8b。Linux_x86_64/tophat——match -inner-dist 150——solexa-quals——max-multihits 5——no-discordant——no-mixed——covere -search——microexon-search——library-type fr- unxed——num-threads 2——output-dir tophat2_out/ERR127306 /home/hpages/ bowti_2 -2.1.0/indexes/hg19 fastq/ERR127306_1。fastq fastq / ERR127306_2.fastq
  • 对齐:ID,标志,对齐和配偶

    ERR127306.7941162 403 chr14 19653689 3 72M = 19652348 -1413…ERR127306.22648137 145 chr14 19653692 1 72M = 19650044 -3720…ERR127306.933914 339 chr14 19653707 1 66M120N6M = 19653686 -213…
  • 对齐:顺序和质量

    ...GAATTGATCAGTCTCATCTGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCC  *'%%%%%#&&%''#'&%%%)&&%%$%%'%%'&*****$))$)'')'%)))&)%%%%$'%%%%&"))'')%)) ...TTGATCAGTCTCATCTGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCCCAG  '**)****)*'*&*********('&)****&***(**')))())%)))&)))*')&***********)**** ...TGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCCCAGCAGCCTCTGGTTTCT  '******&%)&)))&")')'')'*((******&)&'')'))$))'')&))$)**&&****************
  • 阵营:标签

    ...AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:72 YT:Z:UU NH:i:2 CC:Z:chr22 CP:i:16189276 HI:i:0…AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:72 YT:Z:UU NH:i:3 CC:Z:= CP:i:19921600 HI:i:0…AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:4 MD:Z:72 YT:Z:UU XS:A:+ NH:i:3 CC:Z:= CP:i:19921465 HI:i:0…AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:4 MD:Z:72 YT:Z:UU XS:A:+ NH:i:2 CC:Z:chr22 CP:i:16189138 HI:i:0

2.3.1GenomicAlignments

  • readGAlignments ():单端读取
  • readGAlignmentPairs ()readGAlignmentsList ():成对的结束读取

2.3.2处理大文件

  • ScanBamParam ():限制输入
  • BamFile yieldSize = ():迭代
  • GenomicFiles提供有用的帮助,例如:reduceByYield ()

2.4称为变体:VCF文件

  • ##fileformat=VCFv4.2 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=file:// seq/references/ 1000genome espil洛特- ncbi36。fasta# # contg = ##phasing=partial ##INFO= ##INFO=…##FILTER= #FILTER=…##FORMAT= ##FORMAT=
  • 位置

    # chrom pos id ref Alt qual filter…20 14370 rs6054257 G A 29 PASS…20 17330。T A 3 q10…20 1110696 rs6040355 A G,T 67 PASS…
  • 变异信息

    # chrom pos…信息…2014370…NS = 3; DP = 14;房颤= 0.5;数据库;H2…20 17330…NS = 3; DP = 11;房颤= 0.017……20 1110696…NS = 2, DP = 10;房颤= 0.333,0.667;AA = T; DB……
  • 基因型格式和样本

    ...POS……格式为na00001 na00002 na00003…14370年……GT:《GQ》:DP:总部0 | 0:48:1:51,51 1 | 0:48:8:51,51 1/1:43:5:,……17330年……GT:《GQ》:DP:总部0 | 0:49:3:58,50 0 | 1:3:5:65,3 0/0:41:3…1110696……Gt: gq: dp: hq 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4

2.4.1VariantAnnotation

  • readVcf (): VCF输入
  • ScanVcfParam ():限制输入到必要的字段/范围
  • VcfFile ():索引和迭代通过大的VCF文件
  • locateVariants ():与基因等相关的注释;另请参阅ensemblVEPVariantFiltering
  • filterVcf ():灵活过滤

3.练习

3.1GenomicAlignments

RNAseqData.HNRNPC.bam.chr14包是一个实验数据包的例子。它包含一个用于基因敲除实验的BAM文件的子集,如RNAseqData.HNRNPC.bam.chr14 ?.加载包并获得BAM文件的路径。

库(RNAseqData.HNRNPC.bam.chr14) fls = RNAseqData.HNRNPC.bam。chr14_BAMFILES basename (fls的)
## [1] "ERR127306_chr14。砰”“ERR127307_chr14。砰”“ERR127308_chr14。“##[4]”ERR127309_chr14。砰”“ERR127302_chr14。砰”“ERR127303_chr14。“##[7]”ERR127304_chr14。bam ERR127305_chr14.bam”

创建BamFileList (),基本上告诉R这些是BAM文件的路径,而不是电子表格中的文本文件。

库(基因组校准)bfls = BamFileList(fls) bfl = bfls[[1]]

输入和探索对齐。看到readGAlignments ?而且GAlignments ?有关如何操作这些对象的详细信息。

ga = readGAlignments(bfl) ga
## seqnames strand cigar qwidth start end ##       ## [1] chr14 + 72M 72 19069583 19069654 ## [2] chr14 + 72M 72 19363738 1936389 ## [3] chr14 + 72M 72 19369799 19369870 ## [5] chr14 - 72M 72 19369828 19369899 ## ... ... ... ... ... ... ...## [800480] chr14 - 72M 72 106989780 106989851 ## [800481] chr14 + 72M 72 106994763 106994834 ## [800482] chr14 + 72M 72 106994819 106994890 ## [800483] chr14 + 72M 72 107003080 107003151 ## [800484] chr14 - 72M 72 107003171 107003242 ## width njunc# #   ## [1] 72 0 ## [2] 72 0 ## [4] 72 0 ## # [5] 72 0 ## ... ... ...## [800480] 72 0 ## [800481] 72 0 ## [800482] 72 0 ## [800483] 72 0 ## [800484] 72 0 ## ------- # seqinfo:来自未知基因组的93个序列
表(链(ga))
## ## + - * ## 400242 400242 0

许多读书人都有“72M”雪茄。这是什么意思?能否创建一个不包含此雪茄的读取子集?解读一些非72m雪茄。知道这些雪茄代表什么吗?

尾(排序(表(雪茄(ga))))
## ## 18m123n54m 36m123n36m 64m316n8m 38m670n34m 35m123n37m 72米## 225 228 261 264 272 603939
ga[雪茄(ga) != "72M"]
## seqnames strand cigar qwidth start end ##       ## [1] chr14 - 64M1I7M 72 19411677 19411747 ## [2] chr14 + 55M2117N17M 72 19650072 19652260 ## [3] chr14 - 43M2117N29M 72 19650084 19652272 ## [5] chr14 + 38M2117N34M 72 19650087 19652277 ## ... ... ... ... ... ... ...## [196541] chr14 - 51M1D21M 72 106950429 106950501 ## [196542] chr14 + 31M1I40M 72 106965410 106960480 ## [196543] chr14 + 52M1D20M 72 106965156 106965228 ## [196544] chr14 - 13M1D59M 72 106965195 106965267 ## [196545] chr14 - 6M1D66M 72 106965202 106965274 ##宽度njunc # <整数> <整数> ## [1]71 0 ## [2]2189 1 ## [4]2189 1 ## [5]2189 1 ## ... ... ...## [196541] 73 0 ## [196542] 71 0 ## [196543] 73 0 ## [196544] 73 0 ## [196545] 73 0 ## ------- # seqinfo:来自未知基因组的93个序列

使用函数summarizeJunctions ()识别由复杂雪茄的reads所跨越的基因组区域。你会用这个论点吗with.revmap = TRUE提取支持特定(例如,第一个)连接的读取?

summarizeJunctions (ga)
## seqnames范围为4635的GRanges对象,3个元数据列:## seqnames范围strand | score plus_score ##    |   ## [1] chr14 [19650127, 19652243] * | 4 2 ## [2] chr14 [19650127, 19653624] * | 1 1 ## [3] chr14 [19652355,19653624] * | 8 7 ## [5] chr14 [19653773,19653892] * | 9 5 ## ... ... ... ... . ... ...## [4631] chr14 [106912703, 106922227] * | 10 ## [4632] chr14 [106938165, 106938301] * | 10 2 ## [4633] chr14 [106938645, 106944774] * | 24 7 ## [4634] chr14 [106944969, 106950170] * | 7 6 ## [4635] chr14 [106950323, 106960260] * | 1 1 ## ## minus_score ##  ## [1] 2 ## [2] 0 ## [5] 4 ## ... ...## [4631] 1 ## [4632] 8 ## [4633] 17 ## [4634] 1 ## [4635] 0 ## ------- # seqinfo:来自未知基因组的93个序列
joins <- summarizejunction (ga, with.revmap=TRUE) ga[joins $revmap[[1]]]
与4 # # GAlignments对象对齐和0元数据列:# # seqnames链雪茄qwidth开始结束宽度# # < Rle > < Rle > <人物> <整数> <整数> <整数> <整数> # # [1]chr14 + 55 m2117n17m 72 19650072 19652260 2189 # # [2] chr14 - 43 m2117n29m 72 19650084 19652272 2189 # # [3] chr14 m2117n32m 72 19650087 19652275 - 2189 # # [4] chr14 m2117n34m + 72 2189 19652277 19650089 # # njunc # # <整数> # # 1 # # [2][1]1 # # 1 # # [4][3]1  ## ------- ## seqinfo:93个未知基因组序列

可以对BAM文件执行其他操作,例如,计算“覆盖率”(读取重叠的每个基数)。

覆盖(bfl) chr14美元
长度为107349540,运行493510的整数rle ##长度:19069582 72 294083…19 72 346298 ##值:0 1 0…0 1 0

3.2SummarizedExperiment锻炼

气道实验数据包总结了一项研究人类平滑肌气道细胞系经地塞米松处理的RNA-seq实验。加载库和数据集。

库(气道)数据(气道)气道
## class: rangedsummarizeexperiment ## dim: 64102 8 ## metadata(1): " ## assays(1): counts ## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

气道是一个例子吗SummarizedExperiment类。探索它分析()(每个样本中感兴趣的基因组区域重叠的reads计数矩阵),colData ()(每个样本的描述),和rowRanges ()(每个感兴趣区域的描述;这里每个区域都是一个ensemble基因)。

X <-化验(气道)级(X)
##[1]“矩阵”
暗(x)
## [1] 64102
头(x)
# # # # SRR1039508 SRR1039509 SRR1039512 SRR1039513 SRR1039516 ENSG00000000003 679 448 873 408 1138 # # ENSG00000000005 0 0 0 0 0 # # ENSG00000000419 467 515 621 365 587 260 211 263 164 245 # # ENSG00000000457 60 55 40 35 78 # # # # ENSG00000000460 ENSG00000000938 0 0 2 0 1 # # SRR1039517 SRR1039520 SRR1039521 # # # # ENSG00000000005 ENSG00000000003 1047 770 572 0 0 0 # # ENSG00000000419 799 417 508 331 233 229 # # ENSG00000000457 60 # # # # ENSG00000000460 63 76 ENSG00000000938 0 0 0
colData(气管)
## 8行9列的DataFrame ## SampleName cell dex albut运行avgLength ##       ## SRR1039508 GSM1275862 N61311 untrt untrt SRR1039508 126 ## SRR1039509 GSM1275863 N61311 trt untrt SRR1039509 126 ## SRR1039513 GSM1275866 N052611 untrt untrt SRR1039513 87 ## SRR1039516 GSM1275867 N052611 untrt untrt SRR1039516 120 ## srr1275871 N080611 trt untrt SRR1039517 126 ## SRR1039517SRR1039520 GSM1275874 N061011 untrt untrt SRR1039520 101 ## SRR1039521 GSM1275875 N061011 trt untrt SRR1039521生物样品## <因子> <因子> <因子> ## SRR1039508 SRX384345 SRS508568 SAMN02422675 ## SRR1039509 SRX384346 SRS508567 SAMN02422675 ## SRR1039513 SRX384349 SRS508571 SAMN02422678 ## SRR1039513 SRX384353 SRS508575 SAMN02422682 ## SRR1039517 SRX384354 SRS508576 SAMN02422673 ## SRR1039521 SRX384354 SRS508576 SRS508575 ## SRR1039521 srx1039522 SRX384353 SRS508575 SAMN02422670 ## SRR1039517 SRX384354 SRS508576 srs508557 SRS508579Samn02422683 ## srr1039521 srx384358 srs508580 samn02422677
rowRanges(气管)
长度为64102的GRangesList对象:## $ENSG00000000003 ## GRanges对象有17个范围和2个元数据列:## seqnames ranges strand | exon_id exon_name ##    |   ## [1] X [99883667,99884983] - | 667145 ENSE00001459322 ## [2] X [99885756, 99885863] - | 667146 ENSE00000868868 ## [3] X [99887482,99887565] - | 667147 ENSE00000401072 ## [4] X [99887538,99887565] - | 667148 ENSE00001849132 ## | 667149 ENSE00003554016 ## ... ... ... ... . ... ...## | 667158 ense00001886883 ## [15] x [99891605,99891803] - | 667159 ense00001855382 ## | 667160 ense00001863395 ## [17] x [99894942,99894988] - | 667161 ense00001828996 ## ##…## <64101 more elements> ## ------- ## seqinfo:来自一个未指定基因组的722个序列(1个圆形)

很容易将a子集化SummarizedExperiment行、列和化验,例如,只保留那些样品在泰爱泰党的水平敏捷的因素。访问列数据的元素是常见的,因此有一个捷径。

cidx <- colData(气道)$dex %in% "trt"气道[,cidx]
## class: rangedsummarizeexperiment ## dim: 64102 4 ## metadata(1): " ## assays(1): counts ## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(4): SRR1039509 SRR1039513 SRR1039517 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
##快捷气道[,气道$dex %in% "trt"]
## class: rangedsummarizeexperiment ## dim: 64102 4 ## metadata(1): " ## assays(1): counts ## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowData names(0): ## colnames(4): SRR1039509 SRR1039513 SRR1039517 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

它也很容易执行基于范围的操作SummarizedExperiment对象,例如,查询14号染色体的范围,然后将其子集设置为只包含该染色体上的基因。行上的范围操作非常常见,因此这里也有快捷方式。

chr14 <- as(seqinfo(rowRanges(气道)),"GRanges")["14"] ridx <- rowRanges(气道)%over% chr14气道[ridx,]
## class: rangedsummarizeexperiment ## dim: 2244 8 ## metadata(1): " ## assays(1): counts ## rownames(2244): ENSG00000006432 ENSG00000009830…ENSG00000273259 ## ENSG00000273307 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample
## shortcut chr14 <- as(seqinfo(气道),"GRanges")["14"]气道[气道%over% chr14,]
## class: rangedsummarizeexperiment ## dim: 2244 8 ## metadata(1): " ## assays(1): counts ## rownames(2244): ENSG00000006432 ENSG00000009830…ENSG00000273259 ## ENSG00000273307 ## rowData names(0): ## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

使用分析()而且rowSums ()对象中的所有行气道对象,该对象的读取值为0,与所有示例重叠。的列和分析()),并绘制每个感兴趣特征的阅读量分布的直方图。

3.3注释和GenomicFeatures

加载org包智人

库(org.Hs.eg.db)

使用select ()用Entrez标识符和不太正式的基因名称注释HNRNPC基因符号。创建SYMBOL和ENTREZID之间的映射mapIds ()

select(org.Hs.eg.db, "HNRNPC", c("ENTREZID", "GENENAME"), "SYMBOL")
'select()'返回键和列之间的1:1映射
HNRNPC 3183异质核核糖核蛋白C (C1/C2)
sym2eg <- mapIds(org.Hs.eg.db, "HNRNPC", "ENTREZID", "SYMBOL")
'select()'返回键和列之间的1:1映射

加载UCSC hg19 knownGene轨道的TxDb包

txdb <- txdb . hsapiens . ucsc .hg19. knowngene . txdb <- txdb . hsapiens . ucsc .hg19. knowngene

提取HNRNPC基因的基因坐标,以及按基因分组的外显子。

gns <- genes(txdb) exonsBy(txdb, "gene")[sym2eg]
# # GRangesList对象长度1:# # # # 3183美元农庄对象2 19范围和元数据列:# # seqnames范围链| exon_id exon_name # # < Rle > < IRanges > < Rle > | <整数> <人物> # # [1]chr14(21677296、21677296)- | 184100 < NA > # # [2] chr14(21678927、21678927)- | 184101 < NA > # # [3] chr14(21679565、21679565)- | 184102 < NA > # # [4] chr14(21679565、21679565)- | 184103 < NA > # # [5] chr14(21679969、21679969)- | 184104 < NA > ## ... ... ... ... . ... ...## [15] chr14 [21702237, 21702388] - | 184114  ## [16] chr14 [21730760, 21730927] - | 184115  ## [17] chr14 [21731470, 21731495] - | 184116  ## [18] chr14 [21731826,21731988] - | 184117  ## [19] chr14 [21737457, 21737638] - | 184118  ## ## ------- ## seqinfo:来自hg19基因组的93个序列(1个循环)

使用基因坐标查询特定基因组区域的BAM文件;看到? ScanBamParam ()用于其他限制数据输入的方法。

library(Rsamtools) param <- ScanBamParam(which=gns[sym2eg]) readGAlignments(bfl, param=param)
## seqnames strand cigar qwidth start end width ##        ## [1] chr14 + 72M 72 21677347 21677418 72 ## [2] chr14 + 72M 72 21677354 21677423 72 ## [4] chr14 + 72M 72 21677355 21677426 72 ## [5] chr14 + 72M 72 21677373 21677444 72 ## ... ... ... ... ... ... ... ...## [5418] chr14 - 72M 72 21737512 21737583 72 ## [5419] chr14 - 72M 72 21737520 21737591 72 ## [5420] chr14 - 72M 72 21737520 21737591 72 ## [5421] chr14 - 72M 72 21737521 21737592 72 ## [5422] chr14 - 72M 72 21737534 21737605 72 ##  ## [1] 0 ## # [2] 0 ## # [4] 0 ## # [5] 0 ## # ... ...## [5418] 0 ## [5419] 0 ## [5420] 0 ## [5421] 0 ## [5422] 0 ## ------- # seqinfo:来自未知基因组的93个序列

3.4AnnotationHub

表观基因组学计划生成了跨越许多细胞系的调控标记的全基因组地图。

检索表观基因组路线图表AnnotationHub...

library(AnnotationHub) hub <- AnnotationHub()
## snapshotDate(): 2017-04-25
查询(hub, c("表观基因组","元数据"))
## snapshotDate(): 2017-04-25 ## names(): AH41830 ## $dataprovider: BroadInstitute ## # $species: Homo sapiens ## # $rdataclass: data.frame ## # $rdatadateadded: 2015-05-11 ## # $title: EID_metadata。## # $description: EpigenomeRoadMap项目的元数据## # $taxonomyid: 9606 ## # $genome: hg19 ## # $sourcetype: tab ## ## $sourceurl: http://egg2.wustl.edu/roadmap/data/byFileType/metadata/EID_…## # $tags: c("EpigenomeRoadMap", "Metadata") ## #检索记录的对象[["AH41830"]]'
meta <- hub[["AH41830"]]
##从缓存/home/mtmorgan//加载。AnnotationHub / 47270”

探索元数据,以确定您感兴趣的细胞系;参见元数据由表观基因组路线图项目提供的数据的电子表格版本。

表(元美元解剖学)
## ##肾上腺血骨脑## 1 27 1 13 ##乳房宫颈esc esc_derived ## 3 1 8 9 ##脂肪gi_结肠gi_十二指肠gi_食管## 3 3 2 1 ## gi_肠gi_直肠gi_胃心脏## 3 3 4 4 ## ipsc肾肝肺## 5 1 2 5 ##肌肉肌肉腿卵巢胰腺## 7 1 1 2 ##胎盘皮肤脾脏基质结缔组织## 2 8 1 2 ##胸腺血管## 2 2
meta[meta$ANATOMY == "肝脏",]
EID组颜色助记# 64 E066其他#999999 LIV。Adlt ## 116 e118 encode2012 #000000 live . hepg2。肝脏成人肝癌HepG2肝细胞癌细胞系hepg2_肝细胞癌解剖学类型年龄性别固体液体种族肝原发组织未知混合固体未知肝细胞系雄性单一或复合SD

使用' EID '查询和检索汇总染色质状态的'助记符'文件

查询(hub, c("E118", "助记符"))
##记录## snapshotDate(): 2017-04-25 ## # names(): AH46971 ## $dataprovider: BroadInstitute ## # $species: Homo sapiens ## # $rdataclass: GRanges ## # $rdatadateadded: 2015-05-14 ## # $title: e118_15_co备注s_mnemonics.床。gz ## $description: EpigenomeRoadMap Pr的15个状态色质片段…## # $taxonomyid: 9606 ## # $genome: hg19 ## # $sourcetype: BED ## # $sourceurl: http://egg2.wustl.edu/roadmap/data/byFileType/chromhmmSegme…## # $tags: c("EpigenomeRoadMap", "chromhmmSegmentations", ## # "ChmmModels", " co备注","E118", "ENCODE2012", " livl . hepg2 . ")CNCR", ## # "HepG2肝细胞癌细胞系")## #检索记录与'对象[["AH46971"]]'
E118 <- hub[["AH46971"]]
# #要求(“rtracklayer”)
##从缓存/home/mtmorgan//加载。AnnotationHub / 52411”
E118
## seqnames范围为561497的GRanges对象,4个元数据列:## seqnames范围strand | abbr ##    |  ## [1] chr10 [1,113200] * | 15_Quies ## [2] chr10 [113201,119600] * | 14_ReprPCWk ## [3] chr10 [119601,120000] * | 10_TssBiv ## | 1_TssA ## [5] chr10 [120201,120400] * | 2_TssAFlnk ## ... ... ... ... . ...## [561493] chrY [58907201, 58967400] * | 15_Quies ## [561494] chrY [58967401,58972000] * | 9_Het ## [561495] chrY [58972001,58997400] * | 8_ZNF/Rpts ## [561496] chrY [58997401,59033600] * | 9_Het ## [561497] chrY [59033601,59373400] * | 15_Quies ## name color_name color_code ##    ##[1]静止/低白#FFFFFF ##[2]弱抑制PolyComb Gainsboro #C0C0C0 #[3]双价/平衡TSS indianboro #CD5C5C ##[4]活跃TSS红#FF0000 #[5]侧翼活跃TSS橙色红# ff4500# # ... ... ... ...##[561493]静止/低白# ffffff# #[561494]异染色质palturquoise #8A91D0 ##[561496]杂染色质palturquoise #8A91D0 ##[561497]静止/低白# ffffff# # ------- # seqinfo:来自hg19基因组的93个序列(1个圆形)

探索对象,例如,制表不同的染色质状态分类(在的名字列)。将对象子集以返回,例如,只返回那些标记为“异染色质”的区域。

表(E118美元名称)
## ##活性TSS双价增强子## 20010 23155 ##双价/平衡TSS增强子## 13214 110260 ##侧翼活性TSS侧翼双价TSS/Enh ## 45115 15844 #基因增强子异染色质## 14995 31193 ##静止/低抑制PolyComb ## 61759 44013 ##强转录转录。在基因5'和3' ## 32522 2515 ##弱抑制PolyComb弱转录## 60867 83738 ## ZNF基因&重复## 2297
E118[E118$name %in% "Heterochromatin"]
与31193范围和4 # #农庄对象元数据列:# # seqnames范围链|简写的名称# # < Rle > < IRanges > < Rle > | <人物> <人物> # # [1]chr10(140201、143800)* | 9 _het异染色质# # [2]chr10(806201、807800)* | 9 _het异染色质# # [3]chr10(842001、843800)* | 9 _het异染色质# # [4]chr10(1024601、1024601)* | 9 _het异染色质# # [5]chr10(1191601、1191601)* | 9 _het异染色质  ## ... ... ... ... . ... ...## [31189] chrY [58883001,58885400] * | 9_Het异染色质## [31190]chrY [58890001,58891000] * | 9_Het异染色质## [31191]chrY [58906401,58907200] * | 9_Het异染色质## [31192]chrY [58967401,58972000] * | 9_Het异染色质## [31193]chrY [58997401,59033600] * | 9_Het Heterochromatin ## color_name color_code ##   ## [1] palturquoise #8A91D0 ## [2] palturquoise #8A91D0 ## [3] palturquoise #8A91D0 ## [5] palturquoise #8A91D0 ## ... ... ...## [31189] palturquoise #8A91D0 ## [31191] palturquoise #8A91D0 ## [31192] palturquoise #8A91D0 ## [31193] palturquoise #8A91D0 ## ------- # seqinfo:来自hg19基因组的93个序列(1个圆形)

你可以,使用TxDb包和基因()而且subsetByOverlaps ()功能,决定有多少基因重叠异色状态,或基因最近的()每个增强器?

3.5biomaRt

参观biomart网站并弄清楚如何浏览数据来检索,例如21号和22号染色体上的基因。你需要浏览一下套装市场,人类spaiens数据集,为染色体21和22建立过滤器,然后指定您希望返回ensemble基因id属性。

现在做同样的过程biomaRt

library(biomaRt) head(listMarts(), 3) ## list marts head(listDatasets(useMart(" ensemble ")), 3) ## mart datassets ensemble bl <- ##完全指定的mart useMart(" ensemble ", dataset = " hsapiens_gene_ensemble ") head(listFilters(ensemble), 3) ## filters myFilter <- "chromosome_name" substr(filterOptions(myFilter, ensemble), 1,50) ##返回值myValues <- c("21", "22") head(listAttributes(ensemble),3) ## attributes myAttributes <- c(" ensemble bl_gene_id","chromosome_name") ##集合和查询市场res <- getBM(attributes = myAttributes, filters = myFilter, values = myValues, mart = ensemble)