CRISPR软件包演示Bioc2014波士顿

2014年7月31日

首先加载所需的软件包并指定输入文件路径。我们将使用从人类的序列作为输入,该输入已被列为Crispseek包中的Fasta文件。要执行目标分析,我们需要加载人类BSGenome包来注释目标和偏离目标,我们需要加载人体转录程序包的额外,需要指定包含所有限制酶(RE)切割模式的文件。您可以选择在CRISPR包中使用重新模式文件,或指定您自己的重新模式文件。此外,您需要指定输出目录,该目录将是查找所有输出文件的目录。

库(CRISPRseek)
##加载所需包:parallel ## ##附加包:'BiocGenerics' ## ##以下对象被'package:parallel'屏蔽:## ## clusterApply, clusterApplyLB, clusterCall, clusterEvalQ, ## clusterExport, clusterMap, parApply, parCapply, parApply, ## parapplylb, parRapply, parSapply, parSapplyLB ## ##以下对象被'package:stats'屏蔽:## ## xtabs ## ##以下对象被'package:base'屏蔽:## ## Filter, Find, Map, Position, Reduce, anyduplicate, append, ## as.data.frame, as。向量,cbind,冒号,do。Call, ## duplicate, eval, evalq, get, intersect, is。unsorted, lapply, ## mapply, match, mget, order, paste, pmax, pmax.int, pmin, ## pmin.int, rank, rbind, rep.int, rownames, sapply, setdiff, ## sort, table, tapply, union, unique, unlist ## ##加载所需包:Biostrings ##加载所需包:XVector ##加载所需包:# BSgenome ## Loading required package: genome ranges ## Loading required package: GenomeInfoDb
库(BSGENOME.HSAPIENS.CUCSC.HG19)库(TXDB.HSAPIENS.CUCSC.HG19.KNOKNOKNGENE)
##加载所需包:GenomicFeatures ##加载所需包装:AnnotationDBI ##加载所需包:BioBase ##欢迎来到Biocumons ## ## Vignettes包含介绍性材料;与##'BrowSevignettes()'查看。为了引用生物导体,请参阅##'引文(“Biobase”)',以及包装的引文(“PKGNAME”)'。## ## ##附加包:'AnnotationDBI'## ##从“包:bsgenome”屏蔽以下对象:## ##种
outputdir < -  file.path(getwd(),“crispseekdemo”)inputfilepath < -  system.file('extdata','inputseq.fa',package ='crispseek')repatternfile < -  system.file('extdata','Nebenzymes.fa',包='crispseek')

这里是命令,了解更多关于offTargetAnalysis功能和不同

用例。

?offTargetAnalysis ?compare2Sequences ?CRISPRseek browseVignettes('CRISPRseek')

场景1:通过脱靶分析找到配对的grna

OfftargetAnalysis(InputFilePath,FindGRNASWithRecutonly = False,Repatternfile = Repatternfile,FindPairedGraonly = True,BSGenomename = Hsapiens,ChromTOSearch =“Chrx”,Min.gap = 0,Max.gap = 20,TXDB = TXDB.hsapiens.Cuc.hg19.knowngene,max.mismatch = 0,OutputDir = OutputDir,覆盖= True)
##验证输入... ##搜索GRNA ... ## >>>查找序列中的所有点击Chrx ... ## >>> Done搜索##构建特征向量进行评分... ##计算分数... ##注释,过滤和生成报告... ##完成。请检查/home/ubuntu/ crisprseekdemo /目录下的输出文件

最大不匹配可以改变。它越大,它越慢。

OfftargetAnalysis(InputFilePath,FindGRNASWithRecutonly = False,Repatternfile = Repatternfile,FindPairedGraonly = True,BSGenomename = Hsapiens,ChromTOSearch =“Chrx”,Min.gap = 0,Max.gap = 20,TXDB = TXDB.hsapiens.Cuc.hg19.knowngene,max.mismatch = 2,outputdir = outputdir,覆盖= true)
##验证输入... ##搜索GRNA ... ## >>>查找序列中的所有点击Chrx ... ## >>> Done搜索##构建特征向量进行评分... ##计算分数... ##注释,过滤和生成报告... ##完成。请检查/home/ubuntu/ crisprseekdemo /目录下的输出文件

场景2:找到具有限制性内切位点的配对gRNAs

偏离目标分析

offTargetAnalysis(inputFilePath, findgRNAsWithREcutOnly = TRUE, REpatternFile = REpatternFile, findPairedgRNAOnly = TRUE, BSgenomeName = haspens, chromToSearch ="chrX", min.gap = 0, max. width = 0, max. width = 0, max. width = 0, max. width = 0。txbdb = txbdb . hsapens . ucsc .hg19。knownGene,马克斯。mismatch = 0, outputDir = outputDir, overwrite = TRUE)
##验证输入... ##搜索GRNA ... ## >>>查找序列中的所有点击Chrx ... ## >>> Done搜索##构建特征向量进行评分... ##计算分数... ##注释,过滤和生成报告... ##完成。请检查/home/ubuntu/ crisprseekdemo /目录下的输出文件

场景3:找到具有脱靶分析的所有GRNA,这将是最慢的

请注意,Max.mismatch设置为3,以便我们可以查看偏离目标

OfftargetAnalysis(InputFilePath,FindGRNASWithRecutonly = False,RepatternFile = Repatternfile,FindPairedGraonly = False,BSGenomename = Hsapiens,chromtosearch =“chrx”,min.gap = 0,max.gap = 20,txdb = txdb.hsapiens.ucsc.hg19.knowngene,max.mismatch = 3,outputdir = outputdir,覆盖= true)
##验证输入... ##搜索GRNA ... ## >>>查找序列中的所有点击Chrx ... ## >>> Done搜索##构建特征向量进行评分... ##计算分数... ##注释,过滤和生成报告... ##完成。请检查/home/ubuntu/ crisprseekdemo /目录下的输出文件

情景4:用限制酶切割网站和脱靶查找GRNA

分析

OfftargetAnalysis(InputFilePath,FindGRNASWithRecutonly = True,Repatternfile = Repatternfile,FindPairedGRNAONLY = FALSE,CHSAPIENS,CHSPTOSEARCH =“CHRX”,MIN.GAP = 0,MAX.GAP = 20,TXDB = TXDB.HSAPIENS.CUCSC.HG19.knowngene,max.mismatch = 0,OutputDir = OutputDir,覆盖= True)
##验证输入... ##搜索GRNA ... ## >>>查找序列中的所有点击Chrx ... ## >>> Done搜索##构建特征向量进行评分... ##计算分数... ##注释,过滤和生成报告... ##完成。请检查/home/ubuntu/ crisprseekdemo /目录下的输出文件

方案5:用户指定GRNA的目标和脱靶分析

使用FindgrNAS = FALSE调用函数OfftargetAnalysis,导致目标和偏离目标搜索,评分和注释为输入GRNA。GRNA将用限制性酶切割站点注释,供用户稍后审查。但是,不可用的配对信息。

grnafilepath < -  system.file('extdata','testhsap_gata1_ex2_grna1.fa',package ='crispseek')opttargetanalysis(inputfilepath = grnafilepath,findgrnaswithrecutonly = true,repatternfile = repatternfile,findpairedgrnaly = false,findgrnas = false,bsgenomename = hsapiens,chsapiens,chsapiens,chsapiens,chsapiens,chsapiens='chrx',txdb = txdb.hsapiens.ucsc.hg19.knowngene,max.mismatch = 2,outputdir = outputdir,overwrite = true)
##验证输入…## >>>找到所有命中序列chrX…## >>>计算分数…##注释、过滤和生成报告…# #。请检查/home/ubuntu/ crisprseekdemo /目录下的输出文件

场景6。快速发现gRNA,没有脱靶分析

使用chromToSearch = ””调用offTargetAnalysis函数可以在不执行目标上和目标外分析的情况下快速进行gRNA搜索。通过调整参数findgRNAsWithREcutOnly和find- PairedgRNAOnly,可以确定搜索gRNAs是否重叠限制性酶切位点,以及是否成对搜索gRNAs。

offTargetAnalysis(inputFilePath, findgRNAsWithREcutOnly = TRUE, REpatternFile = REpatternFile,findPairedgRNAOnly = TRUE, chromToSearch = "", outputDir = outputDir, overwrite = TRUE)输出说明
##验证输入... ##搜索GRNA ... ##完成。请检查/home/ubuntu/ crisprseekdemo /目录下的输出文件
## Dnastringset长度为2 ##宽度SEQ名称## [1] 23 TGTCCTCCACACAGAATCAGGGGGRNAF1_HSAP_GATA1 ... ## [2] 23 CCAGAGCAGGATCCACAAACTGGGRNAR1_HSAP_GATA1 ...

情景7.找到潜在的GRNA优先针对两位等位基因之一

在所有可能的GRNA上没有运行耗时的脱靶分析。

下面是用于搜索目标至少一个等位基因的所有GRNA的示例。提供了两种文件,其中包含单个核苷酸多态性(SNP)不同的序列。结果保存在Ropoldir目录中的文件Scorsfor2.InputSequences.xl中。

inputFile1Path < -系统。文件(“extdata”、“rs362331C。) inputFile2Path <- system. fa", package = "CRISPRseek")文件(“extdata”、“rs362331T。seqs <- compare2Sequences(inputFile1Path, inputFile2Path, outputDir = outputDir, REpatternFile = REpatternFile, overwrite = TRUE)
##验证输入... ##搜索GRNA ... ##完成。请检查/home/ubuntu/ crisprseekdemo /rs362331C目录下的输出文件。fa/ ##验证输入…##搜索gRNAs…# #。请检查/home/ubuntu/ crisprseekdemo /rs362331T目录下的输出文件。“得分…”# #[1]“做!”

Excercise 1.

为了优先靶向一种等位基因,选择具有其他等位基因的最低分数的GRNA序列。然后可以检查所选择的GRNA以用于偏移的序列,如情景6中所述。

Excercise 2.

识别靶向以下两个输入序列的GRNA同样良好地,随着最小化的偏移裂解

MfSerpAEx2 GACGATGGCATCCTCCGTTCCCTGGGGCCTCCTGCTGCTGGCGGGGCTGTGCTGCCTGGCCCCCCGCTCCCTGGCCTCGAGTCCCCTGGGAGCCGCTGTCCAGGACACAGGTGCACCCCACCACGACCATGAGCACCATGAGGAGCCAGCCTGCCACAAGATTGCCCCGAACCTGGCCGACTTCGCCTTCAGCATGTACCGCCAGGTGGCGCATGGGTCCAACACCACCAACATCTTCTTCTCCCCCGTGAGCATCGCGACCGCCTTTGCGTTGCTTTCTCTGGGGGCCAAGGGTGACACTCACTCCGAGATCATGAAGGGCCTTAGGTTCAACCTCACTGAGAGAGCCGAGGGTGAGGTCCACCAAGGCTTCCAGCAACTTCTCCGCACCCTCAACCACCCAGACAACCAGCTGCAGCTGACCACTGGCAATGGTCTCTTCATCGCTGAGGGCATGAAGCTACTGGATAAGTTTTTGGAGGATGTCAAGAACCTGTACCACTCAGAAGCCTTCTCCACCAATTTCGGGGACACCGAAGCAGCCAAGAAACAGATCAACGATTATGTTGAGAAGGGAACCCAAGGGAAAATTGTGGATTTGGTCAAAGACCTTGACAAAGACACAGCTTTCGCTCTGGTGAATTACATTTTCTTTAAAG

HsSerpAEx2GACAATGCCGTCTTCTGTCTCGTGGGGCATCCTCCTGCTGGCAGGCCTGTGCTGCCTGGTCCCTGTCTCCCTGGCTGAGGATCCCCAGGGAGATGCTGCCCAGAAGACAGATACATCCCACCATGATCAGGATCACCCAACCTTCAACAAGATCACCCCCAACCTGGCTGAGTTCGCCTTCAGCCTATACCGCCAGCTGGCACACCAGTCCAACAGCACCAATATCTTCTTCTCCCCAGTGAGCATCGCTACAGCCTTTGCAATGCTCTCCCTGGGGACCAAGGCTGACACTCACGATGAAATCCTGGAGGGCCTGAATTTCAACCTCACGGAGATTCCGGAGGCTCAGATCCATGAAGGCTTCCAGGAACTCCTCCGTACCCTCAACCAGCCAGACAGCCAGCTCCAGCTGACCACCGGCAATGGCCTGTTCCTCAGCGAGGGCCTGAAGCTAGTGGATAAGTTTTTGGAGGATGTTAAAAAGTTGTACCACTCAGAAGCCTTCACTGTCAACTTCGGGGACACCGAAGAGGCCAAGAAACAGATCAACGATTACGTGGAGAAGGGTACTCAAGGGAAAATTGTGGATTTGGTCAAGGAGCTTGACAGAGACACAGTTTTTGCTCTGGTGAATTACATCTTCTTTAAAG

Excercise 3.

通过设置gRNA约束gRNA序列。模式要求或排除目标站点中的特定功能。

3A。如果第一垒是鸟嘌呤,则来自宿主U6启动子的体内GRNA的合成更有效。最大限度地提高效率,我们可以设置什么grna.pattern?

3 b。使用T7启动子在体外合成grna时,前两个碱基为GG时效率最高,为了使效率最大化,我们可以设定grna的模式?

3C。在GRNA的任何位置的五个连续尿嘧啶将影响RNA聚合酶III的转录伸长。在使用U6启动子的GRNA合成期间避免过早终止,我们可以设置GRNA.Pattern?

3 d。一些研究已经确定了与低核酸酶裂解活性广泛相关的序列特征,如尿嘧啶在引导序列的最后4个位置。为了避免尿嘧啶在这些位置,我们可以指定什么grna。pattern?

Excercise 4.

在我们通过的例子中,我们故意限制在染色体中的搜索偏离目标。如果我们对基因组搜索感兴趣,我们应该将Chromtosearch设置为什么?

Excercise 5.

在不进行脱靶分析的情况下,找到距离在5到15之间的配对的gRNAs

Excercise 6.

创建renscriptdb对象

Excercise 7.

已知不同的CRISPR-cas系统使用不同的PAM序列,需要重置哪些参数?

Excercise 8.

众所周知,不同的CRAP-CAS系统具有不同的GRNA长度,需要重置参数?

Excercise 9.

如果我们有兴趣查找具有限制酶图案的大小或以上的限制酶图案,则需要重置为8个参数?

Excercise 10.

最近导出了新的惩罚矩阵,需要设置哪些参数?

Excercise 11.

已经表明,虽然PAM序列NGG是优选的,但是也易于识别变型nag。研究人员有兴趣执行脱靶搜索,以包括NGG和NAG变体,但需要GRNA必须先于NGG。需要正确设置哪些参数以携带这样的搜索?

Excercise 12.

你能想到其他的用例吗?