时间	主题
09:15 - 10:15	对工作流和文件类型进行排序
10:15	茶/咖啡
10:30 - 12:30	介绍R而且Bioconductor
12:30	午餐
13:30夏令时间	可伸缩的计算

2序列数据表示

2.1DNA /氨基酸序列:FASTA文件

输入和操作:Biostrings

>NM_078863_up_2000_chr2L_16764737_f chr2L:16764737-16766736 gttggggcccaccagtgccaaaatacacaagaagaacagcatctt gacactaaaatgaaaattgctttgcgtcaatgactcaaaacgaaaatg…atgggtatcaagttgccccgtataaaaggcaagtttaccggttgcacggt >NM_001201794_up_2000_chr2L_8382455_f chr2L:8382455-8384454 ttatttatgtaggcgcccgttcccgcagccagagcactcagaattccggg cgtgtagcgcaacgaccatctacaaggcaatattttgatcgcttgttaggttagg…

整个基因组:2位而且.fa格式:rtracklayer，Rsamtools；BSgenome

2．2读取:FASTQ文件

输入和操作:ShortReadreadFastq ()，FastqStreamer ()，FastqSampler ()

@err127302.1703 hwi - eas350_041:1:1460:19184#0/1 cctgagtgaagctgatcttcttagagagagagagatcttgatcgtcgaggaggagatgctgaccttgacct + hhghhghhhhhhdgg < gdgge@gdggd > ce ?=896=: @err127302.1704 hwi - eas350_041:1:1460:16861#0/1 gcggtatgctggaaggtgctcgaatggagagcgccagcgccccggcgctgagccgccccccc>ed4 > eee > de8eeede8b ? eb <@3; ba79 ?， 881b ?@73;########################

质量分数:'短语样'，编码。看到维基百科

2．3对齐读取:BAM文件(例如ERR127306_chr14.bam)

输入和操作:“低级”Rsamtools，scanBam ()，BamFile ()；“高级”GenomicAlignments

头

@HD VN:1.0 SO:坐标@SQ SN:chr1 LN:249250621 @SQ SN:chr10 LN:135534747 @SQ SN:chr11 LN:135006516…@SQ号:chrY LN:59373566 @PG ID:TopHat VN:2.0.8b CL:/home/hpages/ TopHat -2.0.8b。Linux_x86_64/tophat——match -inner-dist 150——solexa-quals——max-multihits 5——no- disdant——no-mixed——covere -search——microexon-search——libraries -type fr- un——num-threads 2——output-dir tophat2_out/ERR127306 /home/hpages/ bowtib2 -2.1.0/indexes/hg19 fastq/ERR127306_1。fastq fastq / ERR127306_2.fastq

对齐:ID，标志，对齐和配偶

ERR127306.7941162 403 chr14 19653689 3 72M = 19652348 -1413…ERR127306.22648137 145 chr14 19653692 1 72M = 19650044 -3720…ERR127306.933914 339 chr14 19653707 1 66M120N6M = 19653686 -213…ERR127306.11052450 83 chr14 19653707 3 66M120N6M = 19652348 -1551…ERR127306.24611331 147 chr14 19653708 1 65M120N7M = 19653675 -225…ERR127306.2698854 419 chr14 19653717 0 56M120N16M = 19653935 290…ERR127306.2698854 163 chr14 19653717 0 56M120N16M = 19653935 2019…

对齐:顺序和质量

．.．GAATTGATCAGTCTCATCTGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCC  *'%%%%%#&&%''#'&%%%)&&%%$%%'%%'&*****$))$)'')'%)))&)%%%%$'%%%%&"))'')%)) ...TTGATCAGTCTCATCTGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCCCAG  '**)****)*'*&*********('&)****&***(**')))())%)))&)))*')&***********)**** ...TGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCCCAGCAGCCTCTGGTTTCT  '******&%)&)))&")')'')'*((******&)&'')'))$))'')&))$)**&&**************** ...TGAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCCCAGCAGCCTCTGGTTTCT  ##&&(#')$')'%&&#)%$#$%"%###&!%))'%%''%'))&))#)&%((%())))%)%)))%********* ...GAGAGTAACTTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCCCAGCAGCCTCTGGTTTCTT  )&$'$'$%!&&%&&#!'%'))%''&%'&))))''$""'%'%&%'#'%'"!'')#&)))))%$)%)&'"'))) ...TTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCCCAGCAGCCTCTGGTTTCTTCATGTGGCT  ++++++++++++++++++++++++++++++++++++++*++++++**++++**+**''**+*+*'*)))*)# ...TTTGTACCCATCACTGATTCCTTCTGAGACTGCCTCCACTTCCCCAGCAGCCTCTGGTTTCTTCATGTGGCT  ++++++++++++++++++++++++++++++++++++++*++++++**++++**+**''**+*+*'*)))*)#

阵营:标签

．.．AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:72 YT:Z:UU NH:i:2 CC:Z:chr22 CP:i:16189276 HI:i:0…AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:72 YT:Z:UU NH:i:3 CC:Z:= CP:i:19921600 HI:i:0…AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:4 MD:Z:72 YT:Z:UU XS:A:+ NH:i:3 CC:Z:= CP:i:19921465 HI:i:0…AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:4 MD:Z:72 YT:Z:UU XS:A:+ NH:i:2 CC:Z:chr22 CP:i:16189138 HI:i:0…AS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:5 MD:Z:72 YT:Z:UU XS:A:+ NH:i:3 CC:Z:= CP:i:19921464 HI:i:0…:我:0 XM:我:0 XO:我:0 XG:我:0 MD: Z: 72海里:我:0 XS:答:+ NH:我:5答:Z: = CP:我:19653717你好:我:0…AS:i:0 XM:i:0 XO:i:0 XG:i:0 MD:Z:72 NM:i:0 XS:A:+ NH:i:5 CC:Z:= CP:i:19921455 HI:i:1

2.4被称为变量:VCF文件

输入和操作:VariantAnnotationreadVcf ()，readInfo ()，readGeno ()选择性地与ScanVcfParam ()．

头

##fileformat=VCFv4.2 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=file:///seq/references/ 1000genome - ncbi36。fasta ##contig= ##phasing=partial ##INFO= ##INFO=…##FILTER= ##FILTER=…##FORMAT= ##FORMAT=

位置

# chrom pos id ref Alt qual filter…20 14370 rs6054257 G A 29 PASS…20 17330。T A 3 q10…20 1110696 rs6040355 A G,T 67 PASS…20 1230237。T。47 pass…20 1234567 microsat1 GTC G,GTCT 50 PASS…

变异信息

# chrom pos…信息…20 14370…NS = 3; DP = 14;房颤= 0.5;数据库;H2…20 17330…NS = 3; DP = 11;房颤= 0.017……20 1110696…NS = 2, DP = 10;房颤= 0.333,0.667;AA = T; DB……20 1230237…NS = 3; DP = 13; AA = T… 20 1234567 ... NS=3;DP=9;AA=G ...

基因型格式和样本

．.．POS……格式:na00001 na00002 na00003…14370年……GT:《GQ》:DP:总部0 | 0:48:1:51,51 1 | 0:48:8:51,51 1/1:43:5:,……17330年……GT:《GQ》:DP:总部0 | 0:49:3:58,50 0 | 1:3:5:65,3 0/0:41:3…1110696……GT:《GQ》:DP:总部1 | 2:21:6:23,27日2 | 1:2:0:18,2 2/2:35:4…1230237…… GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2 ... 1234567 ... GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3

2.5基因组注释:BED, WIG, GTF等文件

输入:rtracklayer进口()

BED:基于范围的注释(参见http://genome.ucsc.edu/FAQ/FAQformat.html有关此及相关格式的定义)
WIG / bigWig:密集的连续值数据
GTF:基因模型

组件的坐标

7蛋白编码基因27221129 27224842。- . ... ...7 protein_coding transcript 27221134 27224835。- . ...7蛋白编码外显子27224055 27224835。- . ...7 protein_coding CDS 27224055 27224763。- 0…7 protein_coding start_codon 27224761 27224763。- 0… 7 protein_coding exon 27221134 27222647 . - . ... 7 protein_coding CDS 27222418 27222647 . - 2 ... 7 protein_coding stop_codon 27222415 27222417 . - 0 ... 7 protein_coding UTR 27224764 27224835 . - . ... 7 protein_coding UTR 27221134 27222414 . - . ...

注释

gene_id“ENSG00000005073”;gene_name“HOXA11”;gene_source“ensembl_havana”;gene_biotype“protein_coding”;……transcript_id“ENST00000006015”;transcript_name“hoxa11 - 001”;transcript_source“ensembl_havana”;标记“ccd”;ccds_id“CCDS5411”; ... exon_number "1"; exon_id "ENSE00001147062"; ... exon_number "1"; protein_id "ENSP00000006015"; ... exon_number "1"; ... exon_number "2"; exon_id "ENSE00002099557"; ... exon_number "2"; protein_id "ENSP00000006015"; ... exon_number "2"; ...

4Bioconductor

4．1概述

分析和理解高通量基因组数据

统计分析:大数据、技术工件、设计实验;严格的
理解:生物学背景，可视化，再现性
高通量
测序:RNASeq, ChIPSeq，变体，拷贝数，…
微阵列:表达，SNP，…
流式细胞术，蛋白质组学，图像，…

包、小插图、工作流

934包
发现和导航通过biocViews
软件包“登录页”
标题，作者/维护者，简短描述，引用，安装说明，…，下载统计
所有用户可见的函数都有帮助页面，大多数都有可运行的示例
' Vignettes '是Bioconductor的一个重要功能-叙述文档说明如何使用包，与集成的代码
“发布”(每六个月)和“devel”分支
支持网站；视频，最近的课程

对象

表示复杂的数据类型
促进互操作性
S4对象系统
自省:方法()，getClass ()，selectMethod ()
' accessors '和其他文档化的函数/方法用于操作，而不是直接访问对象结构
交互式帮助
方法?“字符串的子串,<选项卡>”若要选择方法上的帮助，请课吗?D <选项卡>在课堂上寻求帮助

例子

需要(Biostrings) #生物序列数据(phiX174Phage) #样本数据，参见?phiX174Phage phiX174Phage

一个长度为6的DNAStringSet实例，名称为GAGTTTTATCGCTTCCATGACGCAGAAGTTAAC。TTCGATAAAAATGATTGGCGTATCCAACCTGCA Genbank ## [2] 586 GAGTTTTATCGCTTCCATGACGCAGAAGTTAAC…TTCGATAAAAATGATTGGCGTATCCAACCTGCA RF70s ## [3] 5386 GAGTTTTATCGCTTCCATGACGCAGAAGTTAAC…Ttcgataaaaatgattggcgtatccaacctgca ss78 ## [4] 586 gagttttatcgcttccatgacgcagaagttaac…TTCGATAAAAATGATTGGCGTATCCAACCTGCA公牛## [5]5386 GAGTTTTATCGCTTCCATGACGCAGAAGTTAAC…Ttcgataaaaatgattggcgtatccaacctgca g97 ## [6] 586 gagttttatcgcttccatgacgcagaagttaac…TTCGATAAAAATGATTGGCGTATCCAACCTGCA NEB03

m <- consensusMatrix(phiX174Phage)[1:4，] #核。x位置计数多态<- where (colsum (m != 0) > 1) m[，多态]

## [，1] [，2] [，3] [，4] [，5] [，6] [，7] [，8] [，9] ## a 4 5 4 3 0 0 5 2 0 ## c 0 0 0 0 5 1 0 0 5 ## g 2 1 2 3 0 0 1 4 0 ## t 0 0 0 0 1 5 0 0 0 1 1 0 0 0 1 1 0 0 0 1 1 ## t 0 0 0 0 1 5 0 0 0 1 1 ## a 4 5 5 0 0 0 1 1 ## a 4 5 5 0 0 0 1 1 ## t 0 0 0 0 1 5 0 0 0 1 1 ## a

方法(类=类(phiX174Phage))

## [1] !! = # # (3 ] [ [[ ## [ 5 ] [[<- [<- ## [ 7) % % < # # [9 ] <= == ## [ 11 ] > >= ## [ 13 ] $ $<- ## [ 总alphabetFrequency # # 15] [17] anyNA追加# #[19]。字符为。complex ## [21] as.data.frame as。Env ## [23] as.integer as。列出##[25]为。逻辑。矩阵## [27] as.numeric as.raw ## [29] as.vector c ## [31] chartr coerce ## [33] compact compare ## [35] compareStrings complement ## [37] consensusMatrix consensusString ## [39] countOverlaps countPattern ## [41] countPDict dinucleotideFrequencyTest ## [43] do.call droplevels ## [45] duplicated elementLengths ## [47] elementMetadata elementMetadata<- ## [49] elementType endoapply ## [51] eval expand ## [53] extractAt extractROWS ## [55] Filter Find ## [57] findOverlaps hasOnlyBaseLetters ## [59] head high2low ## [61] ifelse intersect ## [63] is.na is.unsorted ## [65] isEmpty isMatchingEndingAt ## [67] isMatchingStartingAt lapply ## [69] length lengths ## [71] letterFrequency Map ## [73] match matchPattern ## [75] matchPDict mcols ## [77] mcols<- mendoapply ## [79] metadata metadata<- ## [81] mstack names ## [83] names<- narrow ## [85] nchar neditEndingAt ## [87] neditStartingAt NROW ## [89] nucleotideFrequencyAt oligonucleotideFrequency ## [91] order overlapsAny ## [93] PairwiseAlignments PairwiseAlignmentsSingleSubject ## [95] parallelSlotNames PDict ## [97] Position PWM ## [99] rank Reduce ## [101] relist relistToClass ## [103] rename rep ## [105] rep.int replaceAt ## [107] replaceLetterAt replaceROWS ## [109] rev revElements ## [111] reverse reverseComplement ## [113] ROWNAMES sapply ## [115] seqinfo seqinfo<- ## [117] seqlevelsInUse seqtype ## [119] seqtype<- setdiff ## [121] setequal shiftApply ## [123] show showAsCell ## [125] sort split ## [127] split<- splitAsList ## [129] stack stringDist ## [131] subseq subseq<- ## [133] subset subsetByOverlaps ## [135] table tail ## [137] tapply threebands ## [139] toString translate ## [141] trimLRPatterns twoWayAlphabetFrequency ## [143] union unique ## [145] uniqueLetters unlist ## [147] unsplit unstrsplit ## [149] updateObject values ## [151] values<- vcountPattern ## [153] vcountPDict vmatchPattern ## [155] vwhichPDict which.isMatchingEndingAt ## [157] which.isMatchingStartingAt whichPDict ## [159] width window ## [161] window<- with ## [163] within xtfrm ## [165] xvcopy ## see '?methods' for accessing help and source code

selectMethod (reverseComplement类(phiX174Phage))

##方法定义:## ## function (x，…)## xvcopy(x, lkup = getDNAComplementLookup()， reverse = TRUE) ##  ## ## Signatures: ## x# # target "DNAStringSet" ## defined "DNAStringSet"

Alt测序生态系统

4.2序列分析旅行团

这个非常开放的主题指向一些最突出的Bioconductor包序列分析。利用这个实验的机会来探索下面突出显示的软件包小插图和帮助页面;欧洲杯2021体育彩票许多材料将在后续的实验和讲座中更详细地介绍。

基础知识

生物导体包列在biocViews页面。每个包都有与之相关的' biocViews '(来自受控词汇表的标签);可以搜索这些包，以确定适当的标记包，包标题和作者也是如此。
每个包都有一个“登录页”，例如用于GenomicRanges．访问此登录页，并注意描述、作者和安装说明。软件包通常写在科学文献中，如果可用，相应的引文出现在登录页上。登陆页面上还有小插图和参考手册的链接，底部还有跨平台可用性和下载统计数据的说明。
一个包需要安装一次，使用登陆页面上的说明。安装完成后，可以将包加载到R会话中
```
库(GenomicRanges)
```
和帮助系统的交互查询，如上所述:
```
帮助(包=“基因组范围”)小插图(包=“基因组范围”)小插图(包=“基因组范围”，“基因组范围”)?GRanges
```

特定于领域的分析——探索以下两个或三个包的登录页、小插图和参考手册。

分析差分表达式的重要包包括刨边机而且DESeq2；两者都有很好的探索小插图。包含在Bioconductor包中的其他研究方法可以通过访问biocViews网页，搜索' differalexpression '视图项，并通过搜索' RNA seq '和类似的内容来缩小选择范围。
流行的ChIP-seq包包括csaw一个维DiffBind为了比较样本间的峰值，ChIPQC用于质量评估，和ChIPseeker用于注释结果(例如，发现附近的基因)。还有哪些ChIP-seq包被列在biocViews页面?
使用被调用的变量(VCF文件)可以通过包方便地进行VariantAnnotation，VariantFiltering，ensemblVEP,SomaticSignatures；调用变量的包包括:h5vc而且VariantTools．
有几个包可以识别序列数据的拷贝数变量，包括cn.mops；从biocViewsPage，还有哪些其他副本号包可用?的CNTools包提供了一些有用的工具来比较不同样本之间的分段。
微生物组和宏基因组分析是由软件包，如phyloseq而且metagenomeSeq．
代谢组学、化学信息学、图像分析和许多其他高通量分析领域也体现在Bioconductor中;通过biocViews和标题搜索来探索这些。

工作序列，对齐，常见的web文件格式，和原始数据;这些包在很大程度上依赖于IRanges/GenomicRanges我们稍后会讲到的基础设施。

的Biostrings封装用于表示DNA和其他序列，具有许多方便的序列相关功能。查看帮助页上记录的函数consensusMatrix ?例如。另外，请参阅BSgenome用于处理全基因组序列的软件包，例如，?”getSeq BSgenome-method”
的GenomicAlignments包用于输入与参考基因组对齐的读数。例如，参见readGAlignments ?帮助页面和vigentte(包=“GenomicAlignments”、“summarizeOverlaps”)
rtracklayer的进口而且出口函数可以读取许多常见的文件类型，例如，BED, WIG, GTF，…，除了查询和导航UCSC基因组浏览器。请查看进口吗?页面的基本用法。
的ShortRead而且Rsamtools包可以分别用于对FASTQ和BAM文件的低级访问。探索ShortRead装饰图案以及Scalable Genomics实验室，研究有效处理大文件的方法。

可视化

的Gviz软件包为可视化局部基因组坐标和相关数据提供了很好的工具。
epivizr驱动epiviz来自R的基因组浏览器;rtracklayer提供简单的方法传输数据到UCSC浏览器会话和操作。
附加包包括ggbio，OmicCircos,……

4.３DNA或氨基酸序列:Biostrings，ShortRead，BSgenome

类

XString, XStringSet，例如，DNAString(基因组)，DNAStringSet(读取)

方法- - - - - -

作弊剪切
操作,例如,reverseComplement ()
总结,例如,letterFrequency ()
匹配,例如,matchPDict ()，matchPWM ()

4.4范围:GenomicRanges，IRanges

范围表示:-数据，例如，对齐的读取，ChIP峰值，snp, CpG岛，…-注释，例如，基因模型，调控元件，甲基化区域-范围由染色体，开始，结束和链定义-通常，元数据与每个范围相关，例如，对齐的质量，ChIP峰值的强度

许多常见的生物学问题都是以范围为基础的——什么读取了重叠的基因?ChIP峰值最近的基因是什么?-…

的GenomicRanges包定义基本类和方法

农庄

Alt

GRangesList

Alt

4.1.1业务范围

Alt范围代数

range - IRanges -start ()/结束()/宽度()-类列表-长度()，子集，等等-元数据，mcols ()- GRanges - ' seqnames '(染色体)，' strand ' -Seqinfo,包括seqlevels而且seqlengths

范围内方法-独立于同一对象中的其他范围- GRanges变量链感知-转变()，狭窄的()，侧面()，发起人()，调整()，限制()，削减()——看" ? intra-range-methods

范围间方法-依赖于同一对象中的其他范围-range ()，reduce ()，空白()，分离()-覆盖()(!) -看" ? inter-range-methods

两个(或多个)范围对象的函数findOverlaps ()，countOverlaps ()、……% / %，%在%，% %外；联盟()，相交()，setdiff ()，punion ()，pintersect ()，psetdiff ()

例子

require(GenomicRanges) gr <- GRanges("A"， IRanges(c(10,20,22)， width=5)， "+") shift(gr, 1) # 1-based坐标!

## seqnames ranges strand ##    ## [1] A [11,15] + ## [2] A [21,25] + ## [3] A [23,27] + ## ------- ## seqinfo:来自未指定基因组的1个序列;没有seqlengths

Range (gr) # intra-range

## seqnames ranges strand ##    ## [1] A [10,26] + ## ------- ## seqinfo: 1个来自未指定基因组的序列;没有seqlengths

减少(gr) # inter-range

## seqnames ranges strand ##    ## [1] A [10,14] + ## [2] A [20,26] + ## ------- ## seqinfo: 1个来自未指定基因组的序列;没有seqlengths

覆盖(gr)

##长度为1的RleList ## $A ##整数-长度为26的rllist，运行6次##长度:9 5 5 2 3 2 ##值:0 1 0 1 2 1

Setdiff (range(gr)， gr) # '内含子'

## seqnames ranges strand ##    ## [1] A [15,19] + ## ------- ## seqinfo: 1个来自未指定基因组的序列;没有seqlengths

IRangesList, GRangesList - List:同一类型的所有元素-许多*List-aware方法，但一个常见的“技巧”:对未列出的表示应用向量化函数，然后重新列出

grl <- GRangesList(…)orig_gr <- unlist(grl) transformed_gr <- FUN(orig) transformed_grl <- relist(， grl)

参考

Lawrence M, Huber W, Pagès H, Aboyoun P, Carlson M等。(2013)基因组范围计算和注释软件。PLoS计算生物学9(8):e1003118。doi: 10.1371 / journal.pcbi.1003118

4．5对齐:GenomicAlignments，Rsamtools

类——像基因组一样的行为

GAlignments, GAlignmentPairs, GAlignmentsList
SummarizedExperiment
矩阵，其中行由基因组范围索引，列由数据帧。

方法

readGAlignments ()，readGAlignmentsList ()
容易限制输入，迭代块
summarizeOverlaps ()

例子

在14号染色体的19653707 + 66M = 19653773位置找到支持上述连接的reads

需要(GenomicRanges)要求(GenomicAlignments)

##加载所需包:基因组校准##加载所需包:Rsamtools

require(Rsamtools) ##我们的'感兴趣的区域' roi <- GRanges("chr14"， IRanges(19653773, width=1)) ##样本数据require('RNAseqData.HNRNPC.bam.chr14')

##加载所需的包:RNAseqData.HNRNPC.bam.chr14

bf <- BamFile(RNAseqData.HNRNPC.bam。chr14_BAMFILES[[1]]， asMates=TRUE) ##对齐，连接，重叠我们的roi paln <- readGAlignmentsList(bf) j <- summarizejoins (paln, with.revmap=TRUE) j_overlap <- j[j %over% roi] ##支持读取paln[j_overlap$revmap[[1]]]

##长度为8的GAlignmentsList对象:## [[1]]## GAlignments对象，2对齐和0元数据列:## seqnames strand cigar qwidth开始结束宽度njunc# # [1] chr14 - 66M120N6M 72 19653707 19653898 192 1 ## [2] chr14 + 7m1270n65m72 19652348 19653689 1342 1 ## ## [[2]] ## GAlignments对象，2对齐和0元数据列:## seqnames绞线雪茄qwidth开始结束宽度njunc# # [1] chr14 - 66M120N6M 72 19653707 19653898 192 1 ## [2] chr14 + 72M 72 19653686 19653757 72 0 ## ## [[3]] ## GAlignments对象2对齐和0元数据列:## seqnames绞线雪茄qwidth开始结束宽度njunc# # [1] chr14 + 72M 72 19653675 19653746 72 0 ## [2] chr14 - 65M120N7M 72 19653708 19653899 192 1 ## ##…## <5个更多的元素> ## ------- ## seqinfo:来自未知基因组的93个序列

4.6变体:VariantAnnotation，VariantFiltering

类——类似基因组范围的行为

VCF -“宽”
VRanges -“高”

函数和方法

I/O和过滤:readVcf ()，readGeno ()，readInfo ()，readGT ()，writeVcf ()，filterVcf ()
注释:locateVariants ()(变量重叠范围)，predictCoding ()，summarizeVariants ()
单核苷酸多态性:genotypeToSnpMatrix ()，snpSummary ()

例子

从VCF文件中读取变体，并对已知的基因模型进行注释

##输入变量需要(VariantAnnotation) fl <- system。file("extdata"， "chr22. vcfens .gz"， package="VariantAnnotation") vcf <- readVcf(fl， "hg19") seqlevels(vcf) <- "chr22" ##已知基因模型要求(TxDb.Hsapiens.UCSC.hg19. knowngene)编码<- locateVariants(rowRanges(vcf)， TxDb.Hsapiens.UCSC.hg19. hg19. hg19. hg19. rcf)编码<-knownGene, codingvariations())头(编码)

GRanges对象有6个范围和9个元数据列:# # seqnames范围链|位置LOCSTART LOCEND QUERYID TXID # # < Rle > < IRanges > < Rle > | <因素> <整数> <整数> <整数> <人物> # # 1 chr22(50301422、50301422)- |编码939 939 24 75253 # # 2 chr22(50301476、50301476)25 - |编码885 885 75253 # # 3 chr22(50301488、50301488)26 - |编码873 873 75253 # # 4 chr22(50301494、50301494)27 - |编码867 867 75253 # # 5 chr22(50301584、50301584)28 - |编码777 777 75253 # # 6 chr22 (50302962,50302962] - |编码698 698 57 75253 ## CDSID GENEID preferdeid FOLLOWID ##     ## 1 218562 79087 ## 2 218562 79087 ## 3 218562 79087 ## 4 218562 79087 ## 5 218562 79087 ## 6 218563 79087 ## ------- ## seqinfo: 1个来自未指定基因组的序列;没有seqlengths

4．7集成数据表示:SummarizedExperiment

SummarizedExperiment

“特征”x“样本”分析()
colData ()数据帧用于描述样本
rowRanges ()农庄/GRangeList或用于描述特征的数据帧

exptData ()来描述整个物体

库(气道)数据(气道)气道

##类:rangedsummarizeexperimental ## dim: 64102 8 ##元数据(1):“## assays(1):计数## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowRanges元数据列名(0):## colnames(8): SRR1039508 SRR1039509…SRR1039520 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

colData(气管)

运行avgLength实验样本##         SRR1039508 SRR1039508 126 SRX384345 srr10395068 # SRR1039509 GSM1275863 N61311 trt untrt SRR1039509 126 SRX384346 srr508567 # SRR1039512 GSM1275866 N052611 trt untrt SRR1039512 126 SRX384349 srr508571 # SRR1039513 GSM1275867 N052611 trt untrt SRR1039513 87 SRX384350 SRS508572 ##SRR1039516 GSM1275870 N080611不被接收SRR1039516 120 SRX384353 srr508575 ## SRR1039517 GSM1275871 N080611不被接收SRR1039517 126 SRX384354 SRS508576 ## SRR1039520 GSM1275874 n06101011不被接收srr1039579 ## SRR1039521 GSM1275875 n06101011不被接收SRR1039508 SAMN02422669 ## SRR1039509 SAMN02422675 ## SRR1039512 SAMN02422678 ## SRR1039516 SAMN02422682 ## SRR1039517 SAMN02422673 ##生物样本## ### srr1039520 samn02422683 ## srr1039521 samn02422677

气道[，气道$dex %in% "trt"]

##类:rangedsummarizeexperimental ## dim: 64102 4 ##元数据(1):“## assays(1):计数## rownames(64102): ENSG00000000003 ENSG00000000005…LRG_98 LRG_99 ## rowRanges元数据列名(0):## colnames(4): SRR1039509 SRR1039513 SRR1039517 SRR1039521 ## colData names(9): SampleName cell…样本BioSample

4.8注释:org，TxDb，AnnotationHub，biomaRt,……

Bioconductor提供对“注释”资源的广泛访问(请参阅AnnotationDatabiocViews层次结构);本实验中需要探索的一些有趣的例子包括:
biomaRt，PSICQUIC，KEGGREST和其他用于查询在线资源的软件包;每一个都有信息丰富的小插图。
AnnotationDbi是基石吗注释数据Bioconductor提供的软件包。
- org包(例如,org.Hs.eg.db)包含不同基因标识符之间的映射，如ENTREZ和SYMBOL。帮助页描述了这些包的基本接口选择吗?
- TxDb包(例如,TxDb.Hsapiens.UCSC.hg19.knownGene)包含基因模型(外显子坐标、外显子/转录本关系等)，这些模型来自UCSC基因组浏览器的hg19已知基因轨迹等共同来源。这些包可以查询，例如，如exonsBy ?页检索按基因或转录本分组的所有外显子。
- BSgenome包(例如,BSgenome.Hsapiens.UCSC.hg19)包含模式生物的完整基因组。
VariantAnnotation而且ensemblVEP提供对序列注释工具的访问，例如，识别编码变体;看到VariantAnnotation介绍简要介绍的小插图。
快速看一下注释工作流程在Bioconductor网站上。

4．9可伸缩的计算

非常高效。R代码

Vectorize !
重用别人的工作知道DESeq2，GenomicRanges，Biostrings，dplyr，data.table，Rcpp

迭代

Chunk-wise
open ()，读取数据块，close ()．
例如,yieldSize参数Rsamtools: BamFile ()

限制

限制为感兴趣的列和/或行
利用特定于领域的格式，例如BAM文件和Rsamtools: ScanBamParam ()
使用数据库

抽样

遍历大数据，保留一个可管理的样本，例如，ShortRead: FastqSampler ()

平行的评价

后编写高效的代码
通常情况下,拉普兰人()式操作
单个机器上的核心(“简单”);集群(更乏味);云

并行评估Bioconductor

BiocParallel- - - - - -bplapply ()为拉普兰人()类函数，越来越多地被包开发人员用于提供获得并行计算的简单、标准方法。2021欧洲杯体育投注开户
GenomicFiles-用于处理文件组、范围或范围x文件的框架
BioconductorAMI(Amazon Machine Instance)，包括预配置的StarCluster，以及码头工人容器。

序列分析导论，R,Bioconductor

马丁·摩根(martin.morgan@roswellpark.org）
罗斯威尔公园癌症研究所，布法罗，纽约
10月19日

内容

1工作流程排序

2序列数据表示

2.1DNA /氨基酸序列:FASTA文件

2．2读取:FASTQ文件

2．3对齐读取:BAM文件(例如ERR127306_chr14.bam)

2.4被称为变量:VCF文件

2.5基因组注释:BED, WIG, GTF等文件

3.R

4Bioconductor

4．1概述

4.2序列分析旅行团

4.３DNA或氨基酸序列:Biostrings，ShortRead，BSgenome

4.4范围:GenomicRanges，IRanges

4.1.1业务范围

4．5对齐:GenomicAlignments，Rsamtools

4.6变体:VariantAnnotation，VariantFiltering

4．7集成数据表示:SummarizedExperiment

4.8注释:org，TxDb，AnnotationHub，biomaRt,……

4．9可伸缩的计算

5资源

序列分析导论，R,Bioconductor

马丁·摩根(martin.morgan@roswellpark.org）罗斯威尔公园癌症研究所，布法罗，纽约10月19日

内容

1工作流程排序

2序列数据表示

2.1DNA /氨基酸序列:FASTA文件

2．2读取:FASTQ文件

2．3对齐读取:BAM文件(例如ERR127306_chr14.bam)

2.4被称为变量:VCF文件

2.5基因组注释:BED, WIG, GTF等文件

3.R

4Bioconductor

4．1概述

4.2序列分析旅行团

4.３DNA或氨基酸序列:Biostrings，ShortRead，BSgenome

4.4范围:GenomicRanges，IRanges

4.1.1业务范围

4．5对齐:GenomicAlignments，Rsamtools

4.6变体:VariantAnnotation，VariantFiltering

4．7集成数据表示:SummarizedExperiment

4.8注释:org，TxDb，AnnotationHub，biomaRt,……

4．9可伸缩的计算

5资源

马丁·摩根(martin.morgan@roswellpark.org）
罗斯威尔公园癌症研究所，布法罗，纽约
10月19日