序列数据表示

用户!2014
作者:马丁摩根(mtmorgan@fhcrc.org), Sonali Arora
日期:2014年6月30日

高通量序列数据

Alt文件和输入它们的Bioconductor包

DNA /氨基酸序列:Fasta文件

输入和操作:生物仪器

> NM_078863_up_2000_chr2L_16764737_f chr2L: 16764737 - 16766736 gttggtggcccaccagtgccaaaatacacaagaagaagaaacagcatctt gacactaaaatgcaaaaattgctttgcgtcaatgactcaaaacgaaaatg……nm_001201794_up_2000_chr2_8382455_f chr2L:8382455-8384454 ttatttatgtaggcgcccccgcagcaaagcactaattccggg

写着:FASTQ文件

输入和操作:ShortReadreadfastq(),FASTQSTREAMER(),FASTQSAMPLER()

@ERR127302.1703 HWI-EAS350_0441:1:1:1460:19184#0/1 cctgagtgaagctgatcttgatctacgaagagatatcttgatcgtcgaggagatgctgaccttgacct + HHGHHGHHHHHHHHDGG>CE?=896=: @ERR127302.1704 HWI-EAS350_0441:1:1:1460:16861#0/1 gcggtatgctggaaggtgctcgaatggagagagcgccagccccggctgagagccgcagcctcagagtccgccgccc + DE?DD>ED4>EEE>DE8EEEDE8B EB<@3;########################

对齐读取:BAM文件(例如,ERR127306_chr14.bam)

输入和操作:“低级”Rsamtools,scanBam (),BamFile ();'高水平'GenomicAlignments

叫Variants:VCF文件

输入和操作:VariantAnnotation.readVcf (),readInfo(),readgeno()选择性地与scanvcfparam()

基因组注释:BED, WIG, GTF等文件

输入:rtracklayer.进口()

数据表示

背景:范围

Alt区间代数

范围

Intra-range方法

Inter-range方法

Between-range方法

例子

require(GenomicRanges) gr <- GRanges("A", IRanges(c(10, 20, 22),宽度=5),"+")shift(gr, 1) # 1-based坐标!
##带有3个范围和0元数据列的嘉宾:## SEQNAMES范围股线##  <铁钢>  ## [1] A [11,15] + ## [2] A [21,25]+ ## [3] A [23,27] + ## --- ## SEQLENGTH:## A ## NA
范围(gr)#内部范围内
##带有1个范围和0元数据列的经验:## SEQNAMES范围绞线##  <铁钢>  ## [1] A [10,26] + ## --- ## SEQLENGTES:##A ## NA.
减少(gr) # inter-range
## seqnames ranges strand ##    ## [1] A [10,14] + ## [2] A[20,26] + ##——## seqlength: ## A ## NA
覆盖范围(gr)
## RleList of length 1 ## $A ## integer-Rle of length 26 with 6 runs ## length: 9 5 5 2 3 2 ## Values: 0 1 0 1 2 1
setdiff(range(gr), gr) # 'introns'
## - ## seqnames ranges strand ##    ## [1] A[15, 19] + ##——## seqlength: ## A ## NA

IRangesList, GRangesList

参考

生物仪器(DNA或氨基酸序列)

方法 -

相关包

例子

GenomicAlignments(对齐读数)

类——类似基因组范围的行为

方法

例子

VariantAnnotation.(称为变体)

类——类似基因组范围的行为

功能和方法

例子

相关包

参考

rtracklayer.(基因组注释)

大数据

限制

迭代

压缩

并行处理

参考

练习

总结重叠

其目的是计算组成基因的重叠外显子的数目。这类计数数据是RNASeq差异表达分析的基本输入,如throughDESeq2edger.

  1. 确定感兴趣的区域。我们使用“TXDB”包与基因模型Alddy定义

    要求(txdb.hsapiens.ucsc.hg19.knowngene)Exygn < -  Exonsbyens.Cucsc.hg19.knowngene,“基因”)##仅染色体14 Seqlevels(Exbygn,Force = True)=“Chr14”
  2. 标识示例BAM文件。

    要求(rnaseqdata.hnrnpc.bam.chr14)长度(rnaseqdata.hnrnpc.bam.chr14_bamfiles)
    # # 8 [1]
  3. 汇总重叠部分,可选择并行汇总

    ##接下来的2行可选;non-Windows library(BiocParallel) register(MulticoreParam(workers=detectCores())) olaps <- summarizeOverlaps(exByGn, rnaseqdata . hnrnpc .ba . chr14_bamfiles)
  4. 探索我们的手工,例如,Library大小(列和),基因长度和映射读数的数量之间的关系等。

    olaps.
    ##类:摘要分析## DIM:779 8 ## exptData(0):##测定(1):计数## Rownames(779):10001 100113389 ... 9950 9985 ## rowdata元数据列名(0):## Colnames(8):Err127306 Err127307 ... Err127304 Err127305 ## Coldata名称(0):
    (分析(olap))
    ## ERR127306 ERR127307 ERR127309 ERR127309 ERR127302 ERR127302 ERR127302 ERR127303 ## 100101103 139 109 125 152 168#100113389 0 0 0 0 0 0 0 0 0 ## 100124539 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 ## 100126308 0 0 0 0 0 0 ## ERR127304 ERR127304 ERR127305 ## 10001 181 150 ## 100113389 0 0 ## 100113391 0 0 0 ## 100124539 0 0 0 ## 100126297 0 0 0
    colsum(分析(olaps)) #库大小
    ## ERR127306 ERR127307 ERR127308 ERR127309 ERR127302 ERR127303 ERR127304 ## 340646 373268 371639 331518 313800 331135 331606 ## ERR127305 ## 329647
    情节(总和(宽度(olap)), rowMeans(分析(olap)),日志=“xy”)
    ##警告:252 y值<= 0从对数图省略

    Chilk SummarizeOverlaps-探索的情节

  5. 作为一个高级练习,研究GC内容和读取计数之间的关系

    - getSeq(BSgenome.Hsapiens.UCSC. hg19) sequences <- getSeq(BSgenome.Hsapiens.UCSC. hg19)hg19, rowData(olaps)) gcPerExon <- letterFrequency(unlist(sequences), "GC") GC <- relist(as.vector(gcPerExon), sequences) gc_percent <- sum(GC) / sum(width(olaps)) plot(gc_percent, rowMeans(assay(olaps)), log="y")
    ##警告:252 y值<= 0从对数图省略

    块摘要-重叠-gc的绘图