这些笔记是在课程期间创建的,服务器作为所涵盖主题的成绩单。

介绍排序

工作流程

  1. 实验设计
  2. 湿式实验室样品准备,等等
  3. 测序
    • FASTQ文件的读取文件及其质量分数
    • 质量评估(FASTQ程序),修剪或去除流行员,去除光学重复液(FASTX,Trimomatic)
    • quality你的研究问题
  4. 对齐/(装配)
    • 对齐的BAM文件读取到已知的参考基因组
    • 对齐器:从易于使用的难以使用,从“足够好的”对齐(已知基因的RNA-SEQ,芯片-SEQ)到高质量(例如,DNA-SEQ呼叫变体)之间不等
    • Bowtie2(容易,足够好),GMAP(优秀,难以使用)。
    • 用于对齐和减少的专用工具。例如,RNA-SEQ已知基因差异表达 -kalisto.,旗帜
  5. 减少
    • 在芯片SEQ实验中被称为峰值的床(例如,Mac,Findpeaks)
    • 名为Variants的VCF(GATK,BCFTOOLS)
    • 计数表(例如,TSV)在RNA-SEQ实验中(Python Htseq2;GenomicFeatures :: SummarizeOverlaps()
  6. (统计分析
    • 为什么统计分析?数据基本庞大;生物学问题在古典统计方面被帧,例如设计实验,假设检测;技术和其他工件,例如GC偏置,架架架构,批量效果
    • 适当的工具:能够应对统计数据;访问高级统计方法;分析具有要重复(某种脚本);处理大量数据是不是主要标准。
    • R./生物体是最好的最棒的工具。
  7. 理解
    • .rmd或类似的记录工作流程,包括输入,分析步骤,表,数字,interpertation ...

FASTQ和BAM文件

从Linux命令行查看...

  • zcat * fastq.gz |较少的
  • samtools查看-h * bam

......或之内R./生物体:FASTQ文件

图书馆(Shortread)
##加载所需包:Biocgenerics ##加载所需包:并行## ##附加包:'Biocgenerics'## ##以下对象从“包:并行”屏蔽:## ## ClusterApply,ClusterApplylB,ClusterCall,ClusterApplylb,ClusterCall,clusterevalq,## clusterexport,clustermap,parapply,parcapply,parlapply,## parlapplylb,parrapply,parsapply,parsapplylb ######################################以下对象从“包:base”屏蔽:## ##AnyDupleated,Append,As.Data.frame,AS.Vector,Cbind,## Colnames,Do.call,重复,eval,EVALQ,Filter,查找,获取,## Grep,Grepl,Intersect,IS.Unsorted,Lapply,Legress,Map,## Makply,Make,Mget,订单,粘贴,PMAX,PMAX.int,PMIN,## PMIN.INT,位置,位置,等级,rbind,减少,rownames,sapply,## setdiff,sort,table,tappety,Union,unique,dilp,unsplit ##加载所需包:Biocomplallel ##加载所需包:BioStrings ##加载所需的包:S4VectorS ##加载所需包:atts4 ##加载所需包装:装载所需包:Xvector ##加载所需包:RsamTools ##加载所需包:GenomeinfodB ##加载所需包:Genomicranges ##加载所需包装:基因组##加载所需包:摘要,加载所需包装:BioBase ##欢迎来到Biocumon ##### Vignettes包含介绍性材料;与##'BrowSevignettes()'查看。为了引用生物导体,请参阅##'引文(“Biobase”)',以及包装的引文(“PKGNAME”)'。
strm = fastqstreamer(“bigdata / srr1039508_1.fastq.gz”,100000)fq =产量(strm)fq
##类:ShortReadq ##长度:100000读;宽度:63个循环
SREAD(FQ)
##长度100000 ##宽度SEQ ##的DNAStringSet实例[1] 63 CATTGCTGATACCAANNNNNNNNGCATTC ... GTCTTCCTCCTTCCCTTACGGAATTACA ## [2] 63 CCCTGGACTGCTTCTTGAAAAGTGCCATC ... CTATCTTTGGGGAGAGTATGATAGAGAT ## [3] 63 TCGATCCATCGATTGGAAGGCACTGATCT ... TCAGGTTGGTGGTCTTATTTGCAAGTCC ## [4]63 GAAGAGTTAGCAGCGACCGTGACAGACCA ... GCTCCCAACTCCAGGGTGCCAATCCGAT ## [5] 63 CGTGCAGGAGATCATGATCCCCGCGGGCA ... GCCTGGTCATTGGCAAGGGCGGGGAGAC ## ... ... ... ## [99996] 63 GAGAGAAGCTTTGTATGGCTGTCATGCTT ... TGATTCCTGCAACTTGACCTTCAGGCTG ## [99997] 63 TTATGGTGCAGACATGGCCAAGTCCAAGA ... CCACACACAACCAGTCCCGAAAATGGCA## [99998] 63 TTAAAGTAGAGCATCTAGTTTGAGAAATA ... AATTATTAAAGATGTCTTTTTTCTACCC ## [99999] 63 TCCCAACTGTAGGCTGAGTGACCTGAAGG ... AGACTGCCGAAGTCCAAAAGCTTCAGCA ## [100000] 63 GTGTTTTCTGGTATCGTCCCTTCGTGGTT ... AAAAAATGGTACTGGAAAGGGGTCCCAA
质量(FQ)
##类:FASTQUALITY ##质量?... JJJJJJJJJJJJGHHIDHIJJHHHHHHF ## [3] 63 HJJJJJJJJJJJJJJJJJJJJJJJJJJJJ ... GHIJJBGIJCGIAHIJHHHHHHHFFFFF ## [4] 63 HIJJJJIIJJJJJJJJJJJIJJJJJJJJJ ... IHHHHHHFFFFEEEEDC @ DDDDDDDDDD ## [5] 63 HIGGIIIIIIIGHIIIGIHIIIIJGIFAC ... @@ DDBDDCCDECCDDDB BBBBBD @ B; <##。... ... ## [99996] 63 HJJJJJJJJJJJJGIJJJJJJGGIJJGHH ... CHJJJGGHIJJJJJIJJJJJJJJIHHHH ## [99997] 63 HJJJIJHHIIJJJJIJJJJJIJIJJIJJI ... HHFFFFDDDDDDDDCDDDDD @ DDDDDDD ## [99998] 63 HJJJJJJHIJJJJJJJJJJJJJIJJJJJJ ... JJJJJJJJJJJJJJJJJJJJJJJJJJIJ ## [99999] 63 HJJJJJJJJHIJJJJJJJGHIJJJJJJJJ... JJJJJJJJJJJJJJJHHHHFFFFFFF ## [100000] 63 Haefhijjjjjhijjjjjjjjjihijfh ... Ijjjjjijhhhhhhfffffdd> BDDDD

R.

x = rnorm(1000)y = x + rnorm(1000,sd = .5)df = data.frame(x = x,y = y)图(y〜x,df)

fit = lm(y〜x,df)类(适合)
## [1]“lm”
方法(class = class(fit))
##Kappa ##Vcov ##查看“?方法”用于访问帮助和源代码
方法(“Anova”)
## [1] anova.glm * anova.glmlist * anova.lm * anova.lmlist * ## [5] anova.loess * anova.mlm * anova.nls * ##请参阅“?方法”用于访问帮助和源代码

帮助!

?log?plot#generic'lot'?plot.lm#类'lm'对象的#loc

生物体

广泛使用'S4'课程

库(Shortread)strm = FastQStreamer(“BigData / SRR1039508_1.FastQ.gz”,100000)FQ =产量(strm)#'Shittreadq'S4类类(FQ)#Introspection
## [1]“shortreadq”## attr(,包装“)## [1]”Shortread“
方法(类=类(FQ))
## [1] [[<--phetBycycle ## [4] AlphabetsCore附录Clean ## [7]胁迫详细散热镜头## [10] ID长度窄## [13] Pirewisealignment QA续订## [16]可再生逆转逆转## [19]显示srdistance srdupleatics ## [22] srad srorder srrank ## [25] srsort表trimends ## [28] trimlrpatterns trimtails trimtailw ## [31]宽度writea writeftq ##请参阅“?方法”以访问帮助和源代码
reads = sread(fq)#catororor  - 获取读取读取#'dnastringset's s4类
##长度100000 ##宽度SEQ ##的DNAStringSet实例[1] 63 CATTGCTGATACCAANNNNNNNNGCATTC ... GTCTTCCTCCTTCCCTTACGGAATTACA ## [2] 63 CCCTGGACTGCTTCTTGAAAAGTGCCATC ... CTATCTTTGGGGAGAGTATGATAGAGAT ## [3] 63 TCGATCCATCGATTGGAAGGCACTGATCT ... TCAGGTTGGTGGTCTTATTTGCAAGTCC ## [4]63 GAAGAGTTAGCAGCGACCGTGACAGACCA ... GCTCCCAACTCCAGGGTGCCAATCCGAT ## [5] 63 CGTGCAGGAGATCATGATCCCCGCGGGCA ... GCCTGGTCATTGGCAAGGGCGGGGAGAC ## ... ... ... ## [99996] 63 GAGAGAAGCTTTGTATGGCTGTCATGCTT ... TGATTCCTGCAACTTGACCTTCAGGCTG ## [99997] 63 TTATGGTGCAGACATGGCCAAGTCCAAGA ... CCACACACAACCAGTCCCGAAAATGGCA## [99998] 63 TTAAAGTAGAGCATCTAGTTTGAGAAATA ... AATTATTAAAGATGTCTTTTTTCTACCC ## [99999] 63 TCCCAACTGTAGGCTGAGTGACCTGAAGG ... AGACTGCCGAAGTCCAAAAGCTTCAGCA ## [100000] 63 GTGTTTTCTGGTATCGTCCCTTCGTGGTT ... AAAAAATGGTACTGGAAAGGGGTCCCAA
方法(类=类(读取))
## [1]!!= ## [3] [[[## [5] [[< -  ## [7]%<## [9] <= == ##]>> = ##[13] $ < -  ## [15]聚合字母频道## [17] ANYNA附加## [19] AS.CHARACTER AS.COPLED ## [21] AS.DATA.FRAME AS.ENV ## [23]As.Integer as.list ## [25] As.Logical AS.Matrix ## [27] As.Numeric AS.raw ## [29] AS.Vector C ## [31] Chartr Clean ## [33]胁迫Compact ## [35]比较比较比较## [37]补充共识usmatrix ##SmoteScore元素长度##] Head High2Low ## [63] IFELSE交叉## [65]是.NA是。une.unsorted ## [67] isempty ismatchingithingat ###[75]匹配## [到达Getop(“max.print”) - 省略了102条条目] ##查看“?方法”用于访问帮助和源代码
GC = Letterfrequency(读取,“GC”,AS.Prob = True)HOST(GC)

帮助!

?Dnastringset#类,通常经常使用方法?Letterfrequency#通用方法(“Letterfrequency”)?“Letterfrequency,XStringset-方法”

和…

关键软件包......

......和班级

注解

使用大数据的策略

所有材料课程材料