这些笔记是在课程期间创建的，服务器作为所涵盖主题的成绩单。

介绍排序

工作流程

实验设计
湿式实验室样品准备，等等
测序
- FASTQ文件的读取文件及其质量分数
- 质量评估（FASTQ程序），修剪或去除流行员，去除光学重复液（FASTX，Trimomatic）
- quality你的研究问题
对齐/（装配）
- 对齐的BAM文件读取到已知的参考基因组
- 对齐器：从易于使用的难以使用，从“足够好的”对齐（已知基因的RNA-SEQ，芯片-SEQ）到高质量（例如，DNA-SEQ呼叫变体）之间不等
- Bowtie2（容易，足够好），GMAP（优秀，难以使用）。
- 用于对齐和减少的专用工具。例如，RNA-SEQ已知基因差异表达 -kalisto.，旗帜
减少
- 在芯片SEQ实验中被称为峰值的床（例如，Mac，Findpeaks）
- 名为Variants的VCF（GATK，BCFTOOLS）
- 计数表（例如，TSV）在RNA-SEQ实验中（Python Htseq2;GenomicFeatures :: SummarizeOverlaps（））
（统计分析
- 为什么统计分析？数据基本庞大;生物学问题在古典统计方面被帧，例如设计实验，假设检测;技术和其他工件，例如GC偏置，架架架构，批量效果
- 适当的工具：能够应对统计数据;访问高级统计方法;分析具有要重复（某种脚本）;处理大量数据是不是主要标准。
- R./生物体是最好的最棒的工具。
理解
- .rmd或类似的记录工作流程，包括输入，分析步骤，表，数字，interpertation ...

FASTQ和BAM文件

从Linux命令行查看...

zcat * fastq.gz |较少的
samtools查看-h * bam

......或之内R./生物体：FASTQ文件

图书馆（Shortread）

##加载所需包：Biocgenerics ##加载所需包：并行## ##附加包：'Biocgenerics'## ##以下对象从“包：并行”屏蔽：## ## ClusterApply，ClusterApplylB，ClusterCall，ClusterApplylb，ClusterCall，clusterevalq，## clusterexport，clustermap，parapply，parcapply，parlapply，## parlapplylb，parrapply，parsapply，parsapplylb ######################################以下对象从“包：base”屏蔽：## ##AnyDupleated，Append，As.Data.frame，AS.Vector，Cbind，## Colnames，Do.call，重复，eval，EVALQ，Filter，查找，获取，## Grep，Grepl，Intersect，IS.Unsorted，Lapply，Legress，Map，## Makply，Make，Mget，订单，粘贴，PMAX，PMAX.int，PMIN，## PMIN.INT，位置，位置，等级，rbind，减少，rownames，sapply，## setdiff，sort，table，tappety，Union，unique，dilp，unsplit ##加载所需包：Biocomplallel ##加载所需包：BioStrings ##加载所需的包：S4VectorS ##加载所需包：atts4 ##加载所需包装：装载所需包：Xvector ##加载所需包：RsamTools ##加载所需包：GenomeinfodB ##加载所需包：Genomicranges ##加载所需包装：基因组##加载所需包：摘要，加载所需包装：BioBase ##欢迎来到Biocumon ##### Vignettes包含介绍性材料;与##'BrowSevignettes（）'查看。为了引用生物导体，请参阅##'引文（“Biobase”）'，以及包装的引文（“PKGNAME”）'。

strm = fastqstreamer（“bigdata / srr1039508_1.fastq.gz”，100000）fq =产量（strm）fq

##类：ShortReadq ##长度：100000读;宽度：63个循环

SREAD（FQ）

##长度100000 ##宽度SEQ ##的DNAStringSet实例[1] 63 CATTGCTGATACCAANNNNNNNNGCATTC ... GTCTTCCTCCTTCCCTTACGGAATTACA ## [2] 63 CCCTGGACTGCTTCTTGAAAAGTGCCATC ... CTATCTTTGGGGAGAGTATGATAGAGAT ## [3] 63 TCGATCCATCGATTGGAAGGCACTGATCT ... TCAGGTTGGTGGTCTTATTTGCAAGTCC ## [4]63 GAAGAGTTAGCAGCGACCGTGACAGACCA ... GCTCCCAACTCCAGGGTGCCAATCCGAT ## [5] 63 CGTGCAGGAGATCATGATCCCCGCGGGCA ... GCCTGGTCATTGGCAAGGGCGGGGAGAC ## ... ... ... ## [99996] 63 GAGAGAAGCTTTGTATGGCTGTCATGCTT ... TGATTCCTGCAACTTGACCTTCAGGCTG ## [99997] 63 TTATGGTGCAGACATGGCCAAGTCCAAGA ... CCACACACAACCAGTCCCGAAAATGGCA## [99998] 63 TTAAAGTAGAGCATCTAGTTTGAGAAATA ... AATTATTAAAGATGTCTTTTTTCTACCC ## [99999] 63 TCCCAACTGTAGGCTGAGTGACCTGAAGG ... AGACTGCCGAAGTCCAAAAGCTTCAGCA ## [100000] 63 GTGTTTTCTGGTATCGTCCCTTCGTGGTT ... AAAAAATGGTACTGGAAAGGGGTCCCAA

质量（FQ）

##类：FASTQUALITY ##质量？... JJJJJJJJJJJJGHHIDHIJJHHHHHHF ## [3] 63 HJJJJJJJJJJJJJJJJJJJJJJJJJJJJ ... GHIJJBGIJCGIAHIJHHHHHHHFFFFF ## [4] 63 HIJJJJIIJJJJJJJJJJJIJJJJJJJJJ ... IHHHHHHFFFFEEEEDC @ DDDDDDDDDD ## [5] 63 HIGGIIIIIIIGHIIIGIHIIIIJGIFAC ... @@ DDBDDCCDECCDDDB BBBBBD @ B; <##。... ... ## [99996] 63 HJJJJJJJJJJJJGIJJJJJJGGIJJGHH ... CHJJJGGHIJJJJJIJJJJJJJJIHHHH ## [99997] 63 HJJJIJHHIIJJJJIJJJJJIJIJJIJJI ... HHFFFFDDDDDDDDCDDDDD @ DDDDDDD ## [99998] 63 HJJJJJJHIJJJJJJJJJJJJJIJJJJJJ ... JJJJJJJJJJJJJJJJJJJJJJJJJJIJ ## [99999] 63 HJJJJJJJJHIJJJJJJJGHIJJJJJJJJ... JJJJJJJJJJJJJJJHHHHFFFFFFF ## [100000] 63 Haefhijjjjjhijjjjjjjjjihijfh ... Ijjjjjijhhhhhhfffffdd> BDDDD

R.

统计编程语言
矢量化（有效地在向量上工作;矢量符号非常富有表现力和紧凑）
对象帮助协调相关数据管理
内省帮助发现可以使用对象完成的操作。

x = rnorm（1000）y = x + rnorm（1000，sd = .5）df = data.frame（x = x，y = y）图（y〜x，df）

fit = lm（y〜x，df）类（适合）

## [1]“lm”

方法（class = class（fit））

##Kappa ##Vcov ##查看“？方法”用于访问帮助和源代码

方法（“Anova”）

## [1] anova.glm * anova.glmlist * anova.lm * anova.lmlist * ## [5] anova.loess * anova.mlm * anova.nls * ##请参阅“？方法”用于访问帮助和源代码

帮助！

？log？plot＃generic'lot'？plot.lm＃类'lm'对象的#loc

生物体

主要的网站，包括Biocviews.
包裹着陆页，例如，Chipseeker.
这支持论坛
1100+套餐用于分析和理解高通量基因组数据：测序（RNA，芯片，变体，......），微阵列（表达，甲基化，拷贝数等），流式细胞术，蛋白质组学，成像，......

广泛使用'S4'课程

合身（从lm（））是S3类的一个例子
SREAD（FQ）返回A.dnastringset，S4类的一个例子

库（Shortread）strm = FastQStreamer（“BigData / SRR1039508_1.FastQ.gz”，100000）FQ =产量（strm）#'Shittreadq'S4类类（FQ）＃Introspection

## [1]“shortreadq”## attr（，包装“）## [1]”Shortread“

方法（类=类（FQ））

## [1] [[<--phetBycycle ## [4] AlphabetsCore附录Clean ## [7]胁迫详细散热镜头## [10] ID长度窄## [13] Pirewisealignment QA续订## [16]可再生逆转逆转## [19]显示srdistance srdupleatics ## [22] srad srorder srrank ## [25] srsort表trimends ## [28] trimlrpatterns trimtails trimtailw ## [31]宽度writea writeftq ##请参阅“？方法”以访问帮助和源代码

reads = sread（fq）#catororor  - 获取读取读取＃'dnastringset's s4类

##长度100000 ##宽度SEQ ##的DNAStringSet实例[1] 63 CATTGCTGATACCAANNNNNNNNGCATTC ... GTCTTCCTCCTTCCCTTACGGAATTACA ## [2] 63 CCCTGGACTGCTTCTTGAAAAGTGCCATC ... CTATCTTTGGGGAGAGTATGATAGAGAT ## [3] 63 TCGATCCATCGATTGGAAGGCACTGATCT ... TCAGGTTGGTGGTCTTATTTGCAAGTCC ## [4]63 GAAGAGTTAGCAGCGACCGTGACAGACCA ... GCTCCCAACTCCAGGGTGCCAATCCGAT ## [5] 63 CGTGCAGGAGATCATGATCCCCGCGGGCA ... GCCTGGTCATTGGCAAGGGCGGGGAGAC ## ... ... ... ## [99996] 63 GAGAGAAGCTTTGTATGGCTGTCATGCTT ... TGATTCCTGCAACTTGACCTTCAGGCTG ## [99997] 63 TTATGGTGCAGACATGGCCAAGTCCAAGA ... CCACACACAACCAGTCCCGAAAATGGCA## [99998] 63 TTAAAGTAGAGCATCTAGTTTGAGAAATA ... AATTATTAAAGATGTCTTTTTTCTACCC ## [99999] 63 TCCCAACTGTAGGCTGAGTGACCTGAAGG ... AGACTGCCGAAGTCCAAAAGCTTCAGCA ## [100000] 63 GTGTTTTCTGGTATCGTCCCTTCGTGGTT ... AAAAAATGGTACTGGAAAGGGGTCCCAA

方法（类=类（读取））

## [1]！！= ## [3] [[[## [5] [[< -  ## [7]％<## [9] <= == ##]>> = ##[13] $ < -  ## [15]聚合字母频道## [17] ANYNA附加## [19] AS.CHARACTER AS.COPLED ## [21] AS.DATA.FRAME AS.ENV ## [23]As.Integer as.list ## [25] As.Logical AS.Matrix ## [27] As.Numeric AS.raw ## [29] AS.Vector C ## [31] Chartr Clean ## [33]胁迫Compact ## [35]比较比较比较## [37]补充共识usmatrix ##SmoteScore元素长度##] Head High2Low ## [63] IFELSE交叉## [65]是.NA是。une.unsorted ## [67] isempty ismatchingithingat ##＃[75]匹配## [到达Getop（“max.print”） - 省略了102条条目] ##查看“？方法”用于访问帮助和源代码

GC = Letterfrequency（读取，“GC”，AS.Prob = True）HOST（GC）

帮助！

？Dnastringset＃类，通常经常使用方法？Letterfrequency＃通用方法（“Letterfrequency”）？“Letterfrequency，XStringset-方法”

和…

关键软件包......

缩短for fastq文件
基因管理对于对齐的阅读
VariantAnnotation.对于VCF文件
rtracklayer.进口（）进口床，假发，GFF，GTF，...，文件
GVIZ.为了可视化基因组数据;eporttools.报告;闪亮的用于互动可视化

......和班级

dnastringset那dnastring.对于序列数据
隆重那格兰德莱斯列表用于在基因组空间中代表坐标
概括分析（表达式）：集成数据包含：Rows X列（功能X样本）
- 测定（）
- rowranges（）用于排行的注释
- Coldata（）用于列注释

注解

纯粹的“数据”包
标识符映射org。*包
基因模型TXDB。*包
全基因组序列bsgenome。*包
生物雕用于访问基于Ensembl的生物图表;annotationhub.用于基因组级注释资源

使用大数据的策略

写高效R.代码 - 矢量化
在块中处理数据，例如，FASTQSTREAMER（）那RSAMTOOLS :: BAMFILE（...，ExeciendSize = 1000000）;GenomicFiles :: DreambyByield（）（见示例？reamenyByield.）
并行过程生物相投

所有材料课程材料页

课程笔记

马丁摩根

2015/10/19.

介绍排序

FASTQ和BAM文件

R.

生物体

和…