CRISPR软件包演示Bioc2014波士顿

2014年7月31日

首先加载所需的软件包并指定输入文件路径。我们将使用从人类的序列作为输入，该输入已被列为Crispseek包中的Fasta文件。要执行目标分析，我们需要加载人类BSGenome包来注释目标和偏离目标，我们需要加载人体转录程序包的额外，需要指定包含所有限制酶（RE）切割模式的文件。您可以选择在CRISPR包中使用重新模式文件，或指定您自己的重新模式文件。此外，您需要指定输出目录，该目录将是查找所有输出文件的目录。

库(CRISPRseek)

##加载所需包:parallel ## ##附加包:'BiocGenerics' ## ##以下对象被'package:parallel'屏蔽:## ## clusterApply, clusterApplyLB, clusterCall, clusterEvalQ， ## clusterExport, clusterMap, parApply, parCapply, parApply， ## parapplylb, parRapply, parSapply, parSapplyLB ## ##以下对象被'package:stats'屏蔽:## ## xtabs ## ##以下对象被'package:base'屏蔽:## ## Filter, Find, Map, Position, Reduce, anyduplicate, append， ## as.data.frame, as。向量，cbind，冒号，do。Call， ## duplicate, eval, evalq, get, intersect, is。unsorted, lapply， ## mapply, match, mget, order, paste, pmax, pmax.int, pmin， ## pmin.int, rank, rbind, rep.int, rownames, sapply, setdiff， ## sort, table, tapply, union, unique, unlist ## ##加载所需包:Biostrings ##加载所需包:XVector ##加载所需包:# BSgenome ## Loading required package: genome ranges ## Loading required package: GenomeInfoDb

库（BSGENOME.HSAPIENS.CUCSC.HG19）库（TXDB.HSAPIENS.CUCSC.HG19.KNOKNOKNGENE）

##加载所需包：GenomicFeatures ##加载所需包装：AnnotationDBI ##加载所需包：BioBase ##欢迎来到Biocumons ## ## Vignettes包含介绍性材料;与##'BrowSevignettes（）'查看。为了引用生物导体，请参阅##'引文（“Biobase”）'，以及包装的引文（“PKGNAME”）'。## ## ##附加包：'AnnotationDBI'## ##从“包：bsgenome”屏蔽以下对象：## ##种

outputdir < -  file.path（getwd（），“crispseekdemo”）inputfilepath < -  system.file（'extdata'，'inputseq.fa'，package ='crispseek'）repatternfile < -  system.file（'extdata'，'Nebenzymes.fa'，包='crispseek'）

这里是命令，了解更多关于offTargetAnalysis功能和不同

用例。

?offTargetAnalysis ?compare2Sequences ?CRISPRseek browseVignettes('CRISPRseek')

场景1:通过脱靶分析找到配对的grna

OfftargetAnalysis（InputFilePath，FindGRNASWithRecutonly = False，Repatternfile = Repatternfile，FindPairedGraonly = True，BSGenomename = Hsapiens，ChromTOSearch =“Chrx”，Min.gap = 0，Max.gap = 20，TXDB = TXDB.hsapiens.Cuc.hg19.knowngene，max.mismatch = 0，OutputDir = OutputDir，覆盖= True）

##验证输入... ##搜索GRNA ... ## >>>查找序列中的所有点击Chrx ... ## >>> Done搜索##构建特征向量进行评分... ##计算分数... ##注释，过滤和生成报告... ##完成。请检查/home/ubuntu/ crisprseekdemo /目录下的输出文件

最大不匹配可以改变。它越大，它越慢。

OfftargetAnalysis（InputFilePath，FindGRNASWithRecutonly = False，Repatternfile = Repatternfile，FindPairedGraonly = True，BSGenomename = Hsapiens，ChromTOSearch =“Chrx”，Min.gap = 0，Max.gap = 20，TXDB = TXDB.hsapiens.Cuc.hg19.knowngene，max.mismatch = 2，outputdir = outputdir，覆盖= true）

##验证输入... ##搜索GRNA ... ## >>>查找序列中的所有点击Chrx ... ## >>> Done搜索##构建特征向量进行评分... ##计算分数... ##注释，过滤和生成报告... ##完成。请检查/home/ubuntu/ crisprseekdemo /目录下的输出文件

场景2:找到具有限制性内切位点的配对gRNAs

偏离目标分析

offTargetAnalysis(inputFilePath, findgRNAsWithREcutOnly = TRUE, REpatternFile = REpatternFile, findPairedgRNAOnly = TRUE, BSgenomeName = haspens, chromToSearch ="chrX"， min.gap = 0, max. width = 0, max. width = 0, max. width = 0, max. width = 0。txbdb = txbdb . hsapens . ucsc .hg19。knownGene,马克斯。mismatch = 0, outputDir = outputDir, overwrite = TRUE)

##验证输入... ##搜索GRNA ... ## >>>查找序列中的所有点击Chrx ... ## >>> Done搜索##构建特征向量进行评分... ##计算分数... ##注释，过滤和生成报告... ##完成。请检查/home/ubuntu/ crisprseekdemo /目录下的输出文件

场景3：找到具有脱靶分析的所有GRNA，这将是最慢的

请注意，Max.mismatch设置为3，以便我们可以查看偏离目标

OfftargetAnalysis（InputFilePath，FindGRNASWithRecutonly = False，RepatternFile = Repatternfile，FindPairedGraonly = False，BSGenomename = Hsapiens，chromtosearch =“chrx”，min.gap = 0，max.gap = 20，txdb = txdb.hsapiens.ucsc.hg19.knowngene，max.mismatch = 3，outputdir = outputdir，覆盖= true）

##验证输入... ##搜索GRNA ... ## >>>查找序列中的所有点击Chrx ... ## >>> Done搜索##构建特征向量进行评分... ##计算分数... ##注释，过滤和生成报告... ##完成。请检查/home/ubuntu/ crisprseekdemo /目录下的输出文件

情景4：用限制酶切割网站和脱靶查找GRNA

分析

OfftargetAnalysis（InputFilePath，FindGRNASWithRecutonly = True，Repatternfile = Repatternfile，FindPairedGRNAONLY = FALSE，CHSAPIENS，CHSPTOSEARCH =“CHRX”，MIN.GAP = 0，MAX.GAP = 20，TXDB = TXDB.HSAPIENS.CUCSC.HG19.knowngene，max.mismatch = 0，OutputDir = OutputDir，覆盖= True）

##验证输入... ##搜索GRNA ... ## >>>查找序列中的所有点击Chrx ... ## >>> Done搜索##构建特征向量进行评分... ##计算分数... ##注释，过滤和生成报告... ##完成。请检查/home/ubuntu/ crisprseekdemo /目录下的输出文件

方案5：用户指定GRNA的目标和脱靶分析

使用FindgrNAS = FALSE调用函数OfftargetAnalysis，导致目标和偏离目标搜索，评分和注释为输入GRNA。GRNA将用限制性酶切割站点注释，供用户稍后审查。但是，不可用的配对信息。

grnafilepath < -  system.file（'extdata'，'testhsap_gata1_ex2_grna1.fa'，package ='crispseek'）opttargetanalysis（inputfilepath = grnafilepath，findgrnaswithrecutonly = true，repatternfile = repatternfile，findpairedgrnaly = false，findgrnas = false，bsgenomename = hsapiens，chsapiens，chsapiens，chsapiens，chsapiens，chsapiens='chrx'，txdb = txdb.hsapiens.ucsc.hg19.knowngene，max.mismatch = 2，outputdir = outputdir，overwrite = true）

##验证输入…## >>>找到所有命中序列chrX…## >>>计算分数…##注释、过滤和生成报告…# #。请检查/home/ubuntu/ crisprseekdemo /目录下的输出文件

场景6。快速发现gRNA，没有脱靶分析

使用chromToSearch = â€â€调用offTargetAnalysis函数可以在不执行目标上和目标外分析的情况下快速进行gRNA搜索。通过调整参数findgRNAsWithREcutOnly和find- PairedgRNAOnly，可以确定搜索gRNAs是否重叠限制性酶切位点，以及是否成对搜索gRNAs。

offTargetAnalysis(inputFilePath, findgRNAsWithREcutOnly = TRUE, REpatternFile = REpatternFile,findPairedgRNAOnly = TRUE, chromToSearch = ""， outputDir = outputDir, overwrite = TRUE)输出说明

##验证输入... ##搜索GRNA ... ##完成。请检查/home/ubuntu/ crisprseekdemo /目录下的输出文件

## Dnastringset长度为2 ##宽度SEQ名称## [1] 23 TGTCCTCCACACAGAATCAGGGGGRNAF1_HSAP_GATA1 ... ## [2] 23 CCAGAGCAGGATCCACAAACTGGGRNAR1_HSAP_GATA1 ...

情景7.找到潜在的GRNA优先针对两位等位基因之一

在所有可能的GRNA上没有运行耗时的脱靶分析。

下面是用于搜索目标至少一个等位基因的所有GRNA的示例。提供了两种文件，其中包含单个核苷酸多态性（SNP）不同的序列。结果保存在Ropoldir目录中的文件Scorsfor2.InputSequences.xl中。

inputFile1Path < -系统。文件(“extdata”、“rs362331C。) inputFile2Path <- system. fa"， package = "CRISPRseek")文件(“extdata”、“rs362331T。seqs <- compare2Sequences(inputFile1Path, inputFile2Path, outputDir = outputDir, REpatternFile = REpatternFile, overwrite = TRUE)

##验证输入... ##搜索GRNA ... ##完成。请检查/home/ubuntu/ crisprseekdemo /rs362331C目录下的输出文件。fa/ ##验证输入…##搜索gRNAs…# #。请检查/home/ubuntu/ crisprseekdemo /rs362331T目录下的输出文件。“得分…”# #[1]“做!”

Excercise 1.

为了优先靶向一种等位基因，选择具有其他等位基因的最低分数的GRNA序列。然后可以检查所选择的GRNA以用于偏移的序列，如情景6中所述。

Excercise 2.

识别靶向以下两个输入序列的GRNA同样良好地，随着最小化的偏移裂解

MfSerpAEx2 GACGATGGCATCCTCCGTTCCCTGGGGCCTCCTGCTGCTGGCGGGGCTGTGCTGCCTGGCCCCCCGCTCCCTGGCCTCGAGTCCCCTGGGAGCCGCTGTCCAGGACACAGGTGCACCCCACCACGACCATGAGCACCATGAGGAGCCAGCCTGCCACAAGATTGCCCCGAACCTGGCCGACTTCGCCTTCAGCATGTACCGCCAGGTGGCGCATGGGTCCAACACCACCAACATCTTCTTCTCCCCCGTGAGCATCGCGACCGCCTTTGCGTTGCTTTCTCTGGGGGCCAAGGGTGACACTCACTCCGAGATCATGAAGGGCCTTAGGTTCAACCTCACTGAGAGAGCCGAGGGTGAGGTCCACCAAGGCTTCCAGCAACTTCTCCGCACCCTCAACCACCCAGACAACCAGCTGCAGCTGACCACTGGCAATGGTCTCTTCATCGCTGAGGGCATGAAGCTACTGGATAAGTTTTTGGAGGATGTCAAGAACCTGTACCACTCAGAAGCCTTCTCCACCAATTTCGGGGACACCGAAGCAGCCAAGAAACAGATCAACGATTATGTTGAGAAGGGAACCCAAGGGAAAATTGTGGATTTGGTCAAAGACCTTGACAAAGACACAGCTTTCGCTCTGGTGAATTACATTTTCTTTAAAG

HsSerpAEx2GACAATGCCGTCTTCTGTCTCGTGGGGCATCCTCCTGCTGGCAGGCCTGTGCTGCCTGGTCCCTGTCTCCCTGGCTGAGGATCCCCAGGGAGATGCTGCCCAGAAGACAGATACATCCCACCATGATCAGGATCACCCAACCTTCAACAAGATCACCCCCAACCTGGCTGAGTTCGCCTTCAGCCTATACCGCCAGCTGGCACACCAGTCCAACAGCACCAATATCTTCTTCTCCCCAGTGAGCATCGCTACAGCCTTTGCAATGCTCTCCCTGGGGACCAAGGCTGACACTCACGATGAAATCCTGGAGGGCCTGAATTTCAACCTCACGGAGATTCCGGAGGCTCAGATCCATGAAGGCTTCCAGGAACTCCTCCGTACCCTCAACCAGCCAGACAGCCAGCTCCAGCTGACCACCGGCAATGGCCTGTTCCTCAGCGAGGGCCTGAAGCTAGTGGATAAGTTTTTGGAGGATGTTAAAAAGTTGTACCACTCAGAAGCCTTCACTGTCAACTTCGGGGACACCGAAGAGGCCAAGAAACAGATCAACGATTACGTGGAGAAGGGTACTCAAGGGAAAATTGTGGATTTGGTCAAGGAGCTTGACAGAGACACAGTTTTTGCTCTGGTGAATTACATCTTCTTTAAAG

Excercise 3.

通过设置gRNA约束gRNA序列。模式要求或排除目标站点中的特定功能。

3A。如果第一垒是鸟嘌呤，则来自宿主U6启动子的体内GRNA的合成更有效。最大限度地提高效率，我们可以设置什么grna.pattern？

3 b。使用T7启动子在体外合成grna时，前两个碱基为GG时效率最高，为了使效率最大化，我们可以设定grna的模式?

3C。在GRNA的任何位置的五个连续尿嘧啶将影响RNA聚合酶III的转录伸长。在使用U6启动子的GRNA合成期间避免过早终止，我们可以设置GRNA.Pattern？

3 d。一些研究已经确定了与低核酸酶裂解活性广泛相关的序列特征，如尿嘧啶在引导序列的最后4个位置。为了避免尿嘧啶在这些位置，我们可以指定什么grna。pattern?

Excercise 4.

在我们通过的例子中，我们故意限制在染色体中的搜索偏离目标。如果我们对基因组搜索感兴趣，我们应该将Chromtosearch设置为什么？

Excercise 5.

在不进行脱靶分析的情况下，找到距离在5到15之间的配对的gRNAs

Excercise 6.

创建renscriptdb对象

Excercise 7.

已知不同的CRISPR-cas系统使用不同的PAM序列，需要重置哪些参数?

Excercise 8.

众所周知，不同的CRAP-CAS系统具有不同的GRNA长度，需要重置参数？

Excercise 9.

如果我们有兴趣查找具有限制酶图案的大小或以上的限制酶图案，则需要重置为8个参数？

Excercise 10.

最近导出了新的惩罚矩阵，需要设置哪些参数?

Excercise 11.

已经表明，虽然PAM序列NGG是优选的，但是也易于识别变型nag。研究人员有兴趣执行脱靶搜索，以包括NGG和NAG变体，但需要GRNA必须先于NGG。需要正确设置哪些参数以携带这样的搜索？

Excercise 12.

你能想到其他的用例吗?