%\VignetteEngine{knitr::knitr} %\VignetteIndexEntry{08 Working with Called Variants——Slides} \documentclass[xcolor=dvipsnames]{beamer} \ useppackage {BioconductorSlides} \hypersetup{colorlinks,linkcolor=,urlcolor=Blue} \AtBeginSection[] {\begin{frame} {Outline} \tableofcontents[currentsection] \end{frame}} \begin{document} < > =库(knitr) opts_chunk美元集(整洁= FALSE) @ \标题{变体}\作者{马丁·摩根(\ href {mailto: mtmorgan@fhcrc.org} {mtmorgan@fhcrc.org}) \ \ \ \西雅图Fred Hutchinson癌症研究中心,佤邦}\日期2014年2月{4}\ maketitle \节*{工作流}{帧}{工作流}\ \开始开始{列举}\项目实验设计——肿瘤/正常对;细胞系;ldots项目测序——DNA或外显子组(Exome),项目对齐,和其他预处理步骤,项目变体发现,和初步分析,项目textbf{变体评估,注释,生物学和实验环境}\{列举}结束\{帧}{帧}\ \开始结束includegraphics[宽度= \ textwidth]{数据/ Broad_Variants_Best_Practices_workflow.png} \{帧}结束\节*{变量调用格式(VCF)文件}\开始{帧}{变量调用格式(VCF)文件}\{逐条列记}\ \项目开始href {https://github.com/samtools/hts-specs}{规范}项目头记录文件内容项目染色体,位置,每个变体的标识符项目引用和替代等位基因序列。样本基因型信息格式,依次为每个基因型\end{itemize} \end{frame} \begin{frame}[脆弱]{VCF内容:location} \begin{逐字}#CHROM POS ID REF ALT QUAL FILTER…20 14370 rs6054257 G A 29 PASS…17330年20。T A 3 q10…20 1110696 rs6040355 A G,T 67 PASS… 20 1230237 . T . 47 PASS ... 20 1234567 microsat1 GTC G,GTCT 50 PASS ... \end{verbatim} Lines: good SNP, poor quality SNP, multipe variants, called monomorphic, indel \end{frame} \begin{frame}[fragile]{VCF content: variant INFO} \begin{verbatim} #CHROM POS ... INFO ... 20 14370 ... NS=3;DP=14;AF=0.5;DB;H2 ... 20 17330 ... NS=3;DP=11;AF=0.017 ... 20 1110696 ... NS=2;DP=10;AF=0.333,0.667;AA=T;DB ... 20 1230237 ... NS=3;DP=13;AA=T ... 20 1234567 ... NS=3;DP=9;AA=G ... \end{verbatim} Information supporting the SNP: NS, \# samples with data; DP, total depth; AF, ancestral frequency; DB, dbSNP membership; H2, HapMap 2 membership. \end{frame} \begin{frame}[fragile]{VCF content: Genotype FORMAT and samples} \begin{verbatim} ... POS ... FORMAT NA00001 NA00002 NA00003 ... 14370 ... GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,. ... 17330 ... GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3 ... 1110696 ... GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4 ... 1230237 ... GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2 ... 1234567 ... GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3 \end{verbatim} Genotype inforamation in three samples. FORMAT specifies the order and type of information: GT, Genotype, `\textbf{|}' phased, vs.\ `\textbf{/}' unphased; GQ, quality; DP, read depth; HQ, haplotype quality. \end{frame} \begin{frame}[fragile]{VCF Header} \begin{small} \begin{verbatim} ##fileformat=VCFv4.2 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta ##contig= # #逐步=部分# #信息= # #信息= …# #过滤器= # #过滤器= …# #格式= # #格式= 非常复杂的数据。非常复杂的数据。INFO的内容,FORMAT字段非常灵活,完全依赖于上游处理。通常只对文件的一部分感兴趣——特定的基因组范围,INFO或FORMAT字段,样本。\end{itemize} \end{frame} \section*{VariantAnnotation} \end{document}