内容

1介绍

从成对整体基因组对准中识别保守的非划分产权(CNE)(net.axt.两种物种的文件。UCSC在许多物种之间提供了对齐下载因此,强烈建议在可用时使用它们对齐。当某些新装配/物种的对齐未从UCSC提供时,此Vignette描述了仅由软屏蔽生成对齐的管道2bit.文件或Fasta.文件。这个小插图基于Genomewiki.来自UCSC。

笔记:

2前提

必须在机器上安装外部软件列表:*序列对齐程序*肯特公用事业。在这个管道中,Lavtopsl.Axtchain.Chainmergesort.ChainPrenet.Chainnet.netsyntennettoaxt.Axtsort.是必不可少的。netclass是可选的。

3.对齐

在这里,作为示例,我们将仅在斑马鱼(Zebrafis)之间的“CHR1”,“CHR2”和“CHR3”上获得成对对齐(达尼尔10.)和人(HG38)。

3.1Lastz对齐器

首先,我们需要下载2bit.来自UCSC的文件,并设置了相应的路径大会特拉靶装配奎德和中间文件。然后我们可以跑函数生成lav文件。

## lastz对齐器汇编台号< - “/用户/ gtan / Onedrive / project / csc / cner / 2bit”Axtdir < - “/ Users / Gtan / Onedrive / Project / CSC / CNER / AXT”AssemaryTarget < -  File.Path(系统。file("extdata", package="BSgenome.Drerio.UCSC.danRer10"), "single_sequences.2bit") assemblyQuery <- file.path(system.file("extdata", package="BSgenome.Hsapiens.UCSC.hg38"), "single_sequences.2bit") lavs <- lastz(assemblyTarget, assemblyQuery, outputDir=axtDir, chrsTarget=c("chr1", "chr2", "chr3"), chrsQuery=c("chr1", "chr2", "chr3"), distance="far", mc.cores=4) ## lav files to psl files conversion psls <- lavToPsl(lavs, removeLav=FALSE, binary="lavToPsl")

这里的一个重要论点是距离。它决定了用于使用的评分矩阵对齐器。看?ScoringMatrix.更多细节。

笔记:如果两个组件过分碎片,则该步骤可能会遇到困难,因为染色体/支架可以有数百万计的组合。这由于每个组合的组装,而不是进行实际对准,从读取小块。在这种情况下,另一个对齐器最后的建议并在NEX部分引入。

3.2最后一个对齐器

最后的对齐器被认为是更快的记忆力。它创建MAF.文件,可以转换为PSL.文件。然后可以使用相同的以下过程PSL.文件。

不同于最后的对齐器开始Fasta.文件。目标基因组序列必须建立指数文件首先,然后使用查询基因组序列对齐。

##构建LastDB index System2(命令=“lastdb”,args = c(“ -  c”,file.path(sompenterdir,“danrer10”),file.path(alparessidir,“danrer10.fa”)))##运行最后一个对齐器次数(db = file.path(somponentdir,“danrer10”),queryfn = file.path(alparessidir,“hg38.fa”),outputfn = file.path(axtdir,“danrer10.hg38.maf”),距离=“far”,binary =“腹部”,mc.core = 4l)## maf到psl psls < -  file.path(axtdir,“danrer10.hg38.psl”)system2(命令=“maf-convert”,args = c(“psl”,file.path(axtdir,“danrer10.hg38.maf”),“>”,psls))

3.3ysase aligner.

对齐软件的另一种替代方案是yass.。在我们测试性能后,可以将其添加到该管道中。

4.链接:

如果彼此旁边的两个匹配对齐足够接近,则它们连接到一个片段中。然后是这些文件被排序并组合到一个大文件中。

##加入Close Streetments链接< -  Axtchain(PSL,AssemblyTarget = AssemplyTarget,CommerctionQuery = CommerctionQuery,距离=“far”,Removepsl = False,Binary =“Axtchain”)##排序和组合Allchain < -  ChainMergesort(链接,Assempltarget,AllyChileQuery,Allchain = File.Path(Axtdir,Paste0(Sub(“\\。2bit $”,baseName(AssemblyTarget),Ignore.Case = True),“。”,sub(“\\。2bit $”,“”,BaseName(CommerceQuery),Ignore.Case = True)“.all.chain”)),removechains = false,binary =“chainmergesort”)

5.网:

在这一步骤中,首先,我们过滤了不太可能被净化的链条ChainPrenet.。在对齐期间,每个基因组片段都可以与其他人匹配,当然我们希望保持最好的片段。这是由Chainnet.。然后我们添加了同步信息netsynten

##过滤掉链子Allprechain < -  ChainPrenet(Allchain,AssemblyTarget,CommerctionQuery,AllPrechain = File.Path(Axtdir,Paste0(Sub(Sub(“\\),BaseName(AssemblyTarget),Ignore.Case = True),“。”,sub(“\\。2bit $”,“,baseName(remposequery),ignore.case = true),”.all.pre.chain“),removeallchain = false,binary =”chainprenet“)##保持最佳链和添加Synteny信息Netsyntenitfile < -  ChainNetsynten(Allprechain,Assemptarget,CommerctionQuery,NetSyntenInfile = File.Path(Axtdir,Paste0(Sub(Sub(“\\),BaseName(AssemblyTarget),BaseName(AssemblyTarget),Ignore.case = true),“。”,sub(“\\。2bit $”,“”,“.noclase.case = true),”.noclass.net“),binarychainnet =”chapnet“,binarynetsyntenic =“netsyntenic”)

6.艾斯特网

作为最后一步,我们创造了.NET.AXT.上一个文件文件。

nettoaxt(netsyntenicfile,allprechain,somemplytarget,commercequery,axtfile = file.path(axtdir,paste0(sub(sub(sub),baseName(汇编),ignore.case = true)“。”,sub(“\\。2bit $”,“”,baseName(remposequery),ignore.case = true),“.net.axt”)),removefiles = false,binarynettoaxt =“nettoaxt”,binaryaxtyort =“axtsort”)

7.会话信息

这是输出sessioninfo()在编译本文档的系统上:

## R版本4.1.0(2021-05-18)##平台:X86_64-PC-Linux-GNU(64位)##正在运行:Ubuntu 20.04.2 LTS ## ##矩阵产品:默认##Blas:/home/biocbuild/bbs-3.13-bioc/r/lib/liblblas.so ## lapack:/home/biocbuild/bbs-3.13-bioc/r/lib/librlapack.so ## locale:##[1] lc_ctype = en_us.utf-8 lc_numeric = c ## [3] lc_time = en_gb lc_coollat​​e = c ## [5] lc_monetary = en_us.utf-8 lc_messages = en_us.utf-8 ## [7] lc_paper =EN_US.UTF-8 LC_NAME = C ## [9] LC_ADDRESS = C LC_TELEPHONE = C ## [11] LC_MEASUREMENT = EN_US.UTF-8 LC_IDERTIFICE = C ## ##附加基本包:## [1]网格Stats4并行统计图形grdevices utils ## [8]数据集方法基础## ##其他附加包:## [1] gviz_1.36.0 bsgenome.ggallus.ucsc.galgal3_1.4.0 ## [3] bsgenome.hsapiens.ucc.hg19_1。4.。3.BSgenome_1.60.0 ## [5] rtracklayer_1.52.0 Biostrings_2.60.0 ## [7] XVector_0.32.0 GenomicRanges_1.44.0 ## [9] GenomeInfoDb_1.28.0 IRanges_2.26.0 ## [11] S4Vectors_0.30.0 BiocGenerics_0.38.0 ## [13] CNEr_1.28.0 BiocStyle_2.20.0 ## ## loaded via a namespace (and not attached): ## [1] backports_1.2.1 Hmisc_4.5-0 ## [3] BiocFileCache_2.0.0 plyr_1.8.6 ## [5] lazyeval_0.2.2 splines_4.1.0 ## [7] BiocParallel_1.26.0 ggplot2_3.3.3 ## [9] digest_0.6.27 ensembldb_2.16.0 ## [11] htmltools_0.5.1.1 magick_2.7.2 ## [13] GO.db_3.13.0 fansi_0.4.2 ## [15] magrittr_2.0.1 checkmate_2.0.0 ## [17] memoise_2.0.0 cluster_2.1.2 ## [19] readr_1.4.0 annotate_1.70.0 ## [21] matrixStats_0.58.0 R.utils_2.10.1 ## [23] prettyunits_1.1.1 jpeg_0.1-8.1 ## [25] colorspace_2.0-1 blob_1.2.1 ## [27] rappdirs_0.3.3 xfun_0.23 ## [29] dplyr_1.0.6 crayon_1.4.1 ## [31] RCurl_1.98-1.3 jsonlite_1.7.2 ## [33] VariantAnnotation_1.38.0 survival_3.2-11 ## [35] glue_1.4.2 gtable_0.3.0 ## [37] zlibbioc_1.38.0 DelayedArray_0.18.0 ## [39] scales_1.1.1 DBI_1.1.1 ## [41] Rcpp_1.0.6 xtable_1.8-4 ## [43] progress_1.2.2 htmlTable_2.2.1 ## [45] foreign_0.8-81 bit_4.0.4 ## [47] Formula_1.2-4 htmlwidgets_1.5.3 ## [49] httr_1.4.2 RColorBrewer_1.1-2 ## [51] ellipsis_0.3.2 pkgconfig_2.0.3 ## [53] XML_3.99-0.6 R.methodsS3_1.8.1 ## [55] farver_2.1.0 nnet_7.3-16 ## [57] sass_0.4.0 dbplyr_2.1.1 ## [59] utf8_1.2.1 tidyselect_1.1.1 ## [61] labeling_0.4.2 rlang_0.4.11 ## [63] reshape2_1.4.4 AnnotationDbi_1.54.0 ## [65] munsell_0.5.0 tools_4.1.0 ## [67] cachem_1.0.5 cli_2.5.0 ## [69] generics_0.1.0 RSQLite_2.2.7 ## [71] evaluate_0.14 stringr_1.4.0 ## [73] fastmap_1.1.0 yaml_2.2.1 ## [75] knitr_1.33 bit64_4.0.5 ## [77] purrr_0.3.4 KEGGREST_1.32.0 ## [79] AnnotationFilter_1.16.0 R.oo_1.24.0 ## [81] poweRlaw_0.70.6 pracma_2.3.3 ## [83] biomaRt_2.48.0 compiler_4.1.0 ## [85] rstudioapi_0.13 filelock_1.0.2 ## [87] curl_4.3.1 png_0.1-7 ## [89] tibble_3.1.2 bslib_0.2.5.1 ## [91] stringi_1.6.2 highr_0.9 ## [93] ps_1.6.0 GenomicFeatures_1.44.0 ## [95] lattice_0.20-44 ProtGenerics_1.24.0 ## [97] Matrix_1.3-3 vctrs_0.3.8 ## [99] pillar_1.6.1 lifecycle_1.0.0 ## [101] BiocManager_1.30.15 jquerylib_0.1.4 ## [103] data.table_1.14.0 bitops_1.0-7 ## [105] R6_2.5.0 BiocIO_1.2.0 ## [107] latticeExtra_0.6-29 bookdown_0.22 ## [109] gridExtra_2.3 dichromat_2.0-0 ## [111] assertthat_0.2.1 SummarizedExperiment_1.22.0 ## [113] rjson_0.2.20 GenomicAlignments_1.28.0 ## [115] Rsamtools_2.8.0 GenomeInfoDbData_1.2.6 ## [117] hms_1.1.0 rpart_4.1-15 ## [119] rmarkdown_2.8 MatrixGenerics_1.4.0 ## [121] biovizBase_1.40.0 Biobase_2.52.0 ## [123] base64enc_0.1-3 restfulr_0.0.13