% \VignetteEngine{knitr::knitr} % \VignetteIndexEntry{04。生物导体序列分析- DNA序列}\documentclass{article} < opts_chunk$set(cache=TRUE, db_chunk = db_chunk)整洁= FALSE) @ \标题序列{}\作者{Sonali Arora \脚注{\ url {sarora@fhcrc.org}}}{2014年2月27 - 28日}\ \日期开始{文档}\ maketitle \ tableofcontents \节{Bioconductor概论类和对象的字符串操作}的目的开始本节\{逐条列记}\ \项目熟悉各种容器序列条目阅读和display sequences from a FASTA file \item simple manipulations on sequences stores in a FASTA file such as reverse(), reverseComplement(), translate() \item calculate gc content \end{itemize} < Bioconductor有各种用于存储序列的类。你可以使用以下方法找到可能的容器: 每个方法的一个快速例子是:< >= b <- BString(“我存储任何字符集!”)DNAString("GCATAT-TAC") #创建DNAString对象。RNAString("GCAUAU-UAC") #创建RNAString对象。r <- RNAString(d) #转换为RNAString对象。p < AAString (HCWYHH) @让看看你每天可以使用这些:你研究乳腺癌基因BRCA1和BRCA2——继承了BRCA1和BRCA2的突变,授予终身患乳腺癌或卵巢癌的风险增加,我们要做到以下几点:BRCA1:我们可以在以下网址下载FASTA序列文件:类似地,对于BRCA2,我们可以在\url{http://www.ncbi.nlm.nih.gov/gene/675}了解更多关于该基因的信息,我们可以从以下地方获得FASTA序列:\url{http://www.ncbi.nlm.nih.gov/nuccore/NC_000013.11?report=fasta&from=32302850&to=32412300}这些文件已经为你保存,你可以使用< >= FLS <- list.files(system. conf)那么让我们开始使用DNAStringSet将它们读入一个R会话,DNAStringSet是存储DNAString对象的容器。为此,我们使用readFASTA从ShortReads包在生物导体。readFasta读取存储在fls中的所有fasta格式的文件。它返回一个DNAStringSet,其中包含给定文件中包含的序列和质量。然后,我们将使用ShortRead包中的sread创建一个DNAStringSet,并以一种良好的、用户友好的格式涂抹其中一个基因的序列。<# create a DNAStringSet which is a container for storage a set of DNAString dna <- sread(seq) #Approach-2 dna <- readDNAStringSet(fls) #让我们看看第一个DNAString,brca1存储在[1]#这个[[]]操作将一个DNAStringSet转换为DNAString brca1 <- dna[[1]] brca2 <- dna[[2]] #使输出更容易理解。FASTA格式中的序列表示为一系列的行,每一行#通常不超过80个字符。默认情况下,我们只显示top 5和last 5在给定的视图中。但是我们可以设置\Rcode{options(showHeadLines=Inf)}来显示所有< >= options(showHeadLines=Inf) successiveViews(brca1, width=rep(50,length(dna[[1]])/50+1)) @ \sub - points {Basic operations} \textbf{Exercise:1} a)创建brca1 < b)将你的随机DNA序列翻译成蛋白质。Bioconductor也有一些预定义的常量,你可以使用。< 我们也可以找出我们给定的GOI的各种频率,让我们看看brca2: < >= #唯一的字母是什么?uniquelters (brca2) alphabetFrequency(brca2) alphabetFrequency(brca2, baseOnly=TRUE) dinucleotideFrequency(brca2) trinucleotideFrequency(brca2) @你也可以有oligonucleotideFrequency() \textbf{Exercise:2}你能找到BRCA1和brca2的GC内容吗?提示:使用alphabetFrequency解决方案:< <- function(x) {alf <- alphabetFrequency(x,as.prob=TRUE) sum(alf[c("G"," c ")])} gcContent(brca1) gcContent(brca2) @ \小节{Bioconductor有data Packages for your favourite organism} BSgenome data Packages \begin{itemize}[leftmargin=*] \item完整的基因组存储在Biostrings容器中\item目前支持16个有机体(人类,老鼠,蠕虫,酵母,酵母,你能找出染色体17 (home of BRCA1)的gc内容和染色体13 (home of BRCA2)的gc内容吗? >= library(bsgenome . hsapians . ucsc .hg19) @ < >= gcContent(hapiens [["chr17"]]) gcContent(hapiens [["chr13"]]) @ b.请创建一张所有初级染色体的GC频率图,请将BRCA1和BRCA2的频率叠加在此图上,为轴添加标题、图例和适当的标签。< >= chrs <- paste0(“chr”,c(1:22,“X”,“Y”))data <- sapply(chrs, function(X) gcContent(haspens [[X]])) names(data) <- chrs plot(data, xlab=“染色体”,ylab=“gc频率”,xlim=c(1,24),标题(main="gc Frequecies across Human chromosome ", col.main="blue", font.main=4) legend("topleft",c("chromsomes","brca1","brca2"), cex=0.8, col=c("blue","red","orange"), pch=21:22,以下是sessionInfo在该文档被编译的系统上的输出: >= sessionInfo() @ %% \end{document}