转录组学习笔记06-reads计数

发表于 2017-10-06 | 分类于生信实战项目

| 字数统计: 443 | 阅读时长 ≈ 2

在这一部分中，对前面生成的SAM文件进行定量，用到的工具是htseq，如下所示：

mkdir -p RNA-Seq/matrix/
for i in `seq 56 58`
do
    htseq-count -s no -r pos -f bam bio/bio/RAW_DATA/RNA-seq/01/outmice/SRR35899${i}_sorted.bam reference/gencode.vM10.chr_patch_hapl_scaff.annotation.gtf > bio/bio/RAW_DATA\RNA-seq/01/reads/SRR35899${i}count 2> RNA-Seq/matrix/SRR35899${i}.log
done

生成的数据如下所示：

mark

用Notepad++打开其中的一个文件，例如SRR3589959count，如下所示：

mark

数据分为两列，第1列是基因名，第2列是reads数。现在就要把这4个文件给合并起来，构成一个矩阵，如下所示

options(stringsAsFactors = FALSE) 
# 首先将四个文件分别赋值：control1，control2，rep1，rep2
control1 <- read.table("F:/RAW_DATA/RNA-seq/01/reads/SRR3589959count", sep="\t", col.names = c("gene_id","control1"))
control2 <- read.table("F:/RAW_DATA/RNA-seq/01/reads/SRR3589961count", sep="\t", col.names = c("gene_id","control2")) 
rep1 <- read.table("F:/RAW_DATA/RNA-seq/01/reads/SRR3589960count", sep="\t", col.names = c("gene_id","akap951")) 
rep2 <- read.table("F:/RAW_DATA/RNA-seq/01/reads/SRR3589962count", sep="\t",col.names = c("gene_id","akap952"))
# 将四个矩阵按照gene_id进行合并，并赋值给raw_count
raw_count <- merge(merge(control1, control2, by="gene_id"), merge(rep1,rep2, by="gene_id"))
head(raw_count)
raw_count_filt <- raw_count[-c(1:5),]# 删除前五行
# 因为我们无法在EBI数据库上直接搜索找到ENSMUSG00000024045.5这样的基因，只能是ENSMUSG00000024045的整数，没有小数点，所以需要进一步替换为整数的形式。
# 第一步将匹配到的.以及后面的数字连续匹配并替换为空，并赋值给ENSEMBL
ENSEMBL <- gsub("\\.\\d*", "", raw_count_filt$gene_id) 
# 将ENSEMBL重新添加到raw_count_filt1矩阵
row.names(raw_count_filt) <- ENSEMBL
# 看一些基因的表达情况，在UniProt数据库找到AKAP95的id，并从矩阵中找到访问，并赋值给AKAP95变量
AKAP95 <- raw_count_filt[rownames(raw_count_filt)=="ENSMUSG00000024045",]
# 查看AKAP95
AKAP95

参考资料

转录组学习笔记05-序列比对

发表于 2017-10-05 | 分类于生信实战项目

| 字数统计: 1,138 | 阅读时长 ≈ 5

任务：

搞懂hisat2的用法。

直接去hisat2的主页下载index文件即可，然后把fastq格式的reads比对上去得到sam文件。

接着用samtools把它转为bam文件，并且排序(注意N和P两种排序区别)索引好，载入IGV，再截图几个基因看看。

顺便对bam文件进行简单QC，参考直播我的基因组系列。来源于生信技能树：http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost

比对软件

HISAT2：http://ccb.jhu.edu/software/hisat2/index.shtml
参考资料：http://blog.biochen.com/archives/337

STAR：https://codeload.github.com/alexdobin/STAR/zip/master
参考资料：http://www.bio-info-trainee.com/727.html

TopHat：http://ccb.jhu.edu/software/tophat/index.shtml
参考资料：http://blog.sina.com.cn/s/blog_8808cae20101amqp.html

RapMap：https://github.com/COMBINE-lab/RapMap
参考：https://academic.oup.com/bioinformatics/article/32/12/i192/2288985/RapMap-a-rapid-sensitive-and-accurate-tool-for

CIDANE：http://ccb.jhu.edu/software/cidane/
参考文献：https://genomebiology.biomedcentral.com/articles/10.1186/s13059-015-0865-0

CLASS2 ：https://sourceforge.net/projects/splicebox/files/?source=navbar
参考文献：https://academic.oup.com/nar/article/44/10/e98/2516329/CLASS2-accurate-and-efficient-splice-variant

内容主要参考：http://www.360doc.com/content/16/1223/13/29483982_617058719.shtml

1. HISAT2的使用

人类和小鼠的索引有现成的，HISAT2官网可以直接下载进行序列比对。如下图所示：选择hg19和mm10的index，文章中RNA-Seq测序数据，可以包括人类的3个数据和小鼠的4个数据，因此需要小鼠和人类的索引。

人类和小鼠index下载

mkdir -p ~/disk2/data/reference/index
cd ~/disk2/data/reference/index
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz
 wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/mm10.tar.gz
# 解压得到两个目录，hg19和mm10
tar -zxvf *.tar.gz
# 删除压缩包
rm -rf *.tar.gz

解压后的结果如下所示（小鼠基因组的index）：

mark

需要注意的是，小鼠的基因组index这几个件，前面都是genome为前缀。

比对序列，得到sam文件

Usage：hisat2 [options]* -x {-1 -2 | -U | —sra-acc } [-S ]

参数：

-x 指定index文件
-1 双端测序第一个文件
-2 双端测序第二个文件
-U 单端测序文件
—sra-acc SRA accession number
-S 指定输出的格式，一般指定为sam

代码如下：

for ((i=56;i<=58;i++));
do hisat2 -t -x /media/w/新加卷/Download/reference/hg19/genome -1 /media/w/新加卷/Download/outdata/_media_w_新加卷_Download_data_SRR35899${i}.sra_1.fastq.gz -2 /media/w/新加卷/Download/outdata/_media_w_新加卷_Download_data_SRR35899${i}.sra_2.fastq.gz -S /media/w/新加卷/Download/align/SRR35899${i}.sam;
done for ((i=59;i<=62;i++));
do hisat2 -t -x /media/w/新加卷/Download/reference/mm10/genome -1 /media/w/新加卷/Download/outdata/_media_w_新加卷_Download_data_SRR35899${i}.sra_1.fastq.gz -2 /media/w/新加卷/Download/outdata/_media_w_新加卷_Download_data_SRR35899${i}.sra_2.fastq.gz -S /media/w/新加卷/Download/align/SRR35899${i}.sam;
done

这里需要注意的是，在进行比对的时候，我们使用的命令是这个样子的/media/w/新加卷/Download/reference/mm10/genome，最后一个是genome，它代表的是前面的小鼠基因组index的8个文件，在输入的时候，不能只输入文件夹，也就是只输入/media/w/新加卷/Download/reference/mm10这一部分，还要添加上genome。

序列比对后得到SAM文件，这里只看小鼠数据的比对结果（也就是59到62这一部分），如下所示：

mark

SAMTools

SAM（sequence Alignment/mapping)数据格式是目前高通量测序中存放比对数据的标准格式，当然他可以用于存放未比对的数据。所以，SAM的格式说明

而目前处理SAM格式的工具主要是SAMTools，这是Heng Li大神写的，除了C语言版本，还有Java的Picard，Python的Pysam，Common lisp的cl-sam等其他版本。SAMTools的主要功能如下：

view: BAM-SAM/SAM-BAM 转换和提取部分比对
sort: 比对排序
merge: 聚合多个排序比对
index: 索引排序比对
faidx: 建立FASTA索引，提取部分序列
tview: 文本格式查看序列
pileup: 产生基于位置的结果和 consensus/indel calling
最常用的三板斧就是格式转换，排序，索引。而进阶教程就是看文档提高。

for i in `seq 56 58`
do
    samtools view -S SRR35899${i}.sam -b > SRR35899${i}.bam 
    # 将sam文件转化为bam文件；参数-S表示输入sam文件，参数-b表示输出文件为bam，最后重定向输入bam文件
    
    samtools sort SRR35899${i}.bam -o SRR35899${i}_sorted.bam
    # 对所有的bam文件进行排序；
    
    samtools index SRR35899${i}_sorted.bam
    将所有的排序文件建立索引，索引文件
done

最终的BAM文件结果如下所示：

mark

参考资料

转录组入门（5）：序列比对

转录组学习笔记04-了解参考基因组及基因注释

发表于 2017-10-04 | 分类于生信实战项目

| 字数统计: 1,935 | 阅读时长 ≈ 7

目标

在UCSC下载hg19参考基因组，群主博客有详细说明，从gencode数据库下载基因注释文件，并且用IGV去查看你感兴趣的基因的结构，例如TP53，EGFR等等。截图几个基因的IGV可视化结构！还可以下载ENSEMBL，NCBI的GTF，也导入IGV看看，截图基因结构。了解IGV常识。来源于生信技能树：http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost

什么是参考基因组？

测序得到的是几百bp的短read，相当于把拼图打散了给你。如果没有参考基因组，从头(de novo)组装等于是重走人类基因组计划的老路，也就是打散了拼图，却不告诉你原来是什么样子，那么任务将会及其艰巨。还好人类基因组已经组装好了，我们只需要把我们测得序列回贴（mapping)回去，毕竟人与人之间的差距只有不到1%差异, 允许mismatch就行。

参考基因组对新手来说，是一个很大的坑，hg19、GRCH37、 ensembl 75这3种基因组版本应该是大家见得比较多的了，国际通用的人类参考基因组，其实他们储存的是同样的fasta序列，只是分别对应着三种国际生物信息学数据库资源收集存储单位，即NCBI，UCSC及ENSEMBL各自发布的基因组信息而已。有一些参考基因组比较小众，存储的序列也不一样，比如BGI做的炎黄基因组，还有DNA双螺旋结构提出者沃森（Watson）的基因组，还有2016年发表在nature上面的号称最完善的韩国人做的基因组。前期我们先不考虑这些小众基因组，主要就下载hg19和hg38，都是UCSC提供的，虽然hg38相比hg19来说，做了很多改进，优点也不少，但因为目前为止很多注释信息都是针对于hg19的坐标系统来的，我们就都下载了，正好自己探究一下。也顺便下载一个小鼠的最新版参考基因组吧，反正比对也就是睡个觉的功夫，顺便分析一下结果，看看比对率是不是很低。

参考基因组hg19下载

这里下载的是USCS版本的参考基因组。

下载USCS版本的hg19

mkdir -p ~/disk2/data/reference/genome
cd ~/disk2/data/reference/genome
nohup wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
# 解压，得到所有染色体的信息
tar -zxvf chromFa.tar.gz
# 将所有的染色体信息整合在一起，重定向写入hg19.fa文件，得到参考基因组
cat *.fa > hg19.fa
# 将多余的染色体信息文件删除，节省空间
$ rm -rf chr*

由于下载速度慢，我就改用迅雷下载了，将所有染色体信息整合后，得到新的hg19.fa文件。

什么是参考基因组注释？

参考基因组是一部无字天书，要想解读书中的内容，需要额外的注释信息协助。因此下载完参考基因后，就是去gencode数据库（http://www.gencodegenes.org/)下载基因组注释文件。简单来讲注释文件就是基因组的说明书，告诉我们哪些序列是编码蛋白的基因，哪些是非编码基因，外显子、内含子、UTR等的位置等等。注释文件在以上三个提供参考基因组的网站中都有提供，比如Ensemble。但是现在最权威的人类和小鼠基因组的注释还属Gencode数据库。

参考基因组注释下载

进入人和小鼠基因组注释信息官网GENCODE，选择data->human->GRCh37-mapped Releases，下载最新第26版本的hg19人类基因组注释信息。点击进入下载页面，将GTF和GFF3全部下载，解压，如下所示：

可以看到已经有新的参考基因组注释了，不过现在还用老的，跟参考资料中的保持一致一样，单击26，进入下载界面，下载第一行的注释信息，即Comprehensive gene annotaton中的GTF和GFF3，如下所示：

GFF文件与GTF文件的区别

GFF全称为general feature format，这种格式主要是用来注释基因组。
GTF全称为gene transfer format，主要是用来对基因进行注释。

GFF

GFF文件是一种用来描述基因组特征的文件，现在我们所使用的大部分都是第三版）（GFF3）。GFF允许使用#作为注释符号，例如很多GFF文件都会使用如下的两行来表明其版本其创建日期：

1 2	##gff-version 2 ##created 11/11/11

GFF文件每一列所代表的含义后面表格中有，但请注意，它的第3列feature type是不受约束的，你可以使用任意的名称。我们需要注意的是GFF文件的第9列，从第二版开始(GFF2)，所有的属性都以标签=值的方式呈现，各个属性之间以;作为分隔符

1	ID=geneAExon1;Name=geneA;Parent=geneA;Organism=human

在最新版本的GFF文件中(GFF3)，有一些是已经预先定义的属性特征，并且这些特征往往还有特殊的含义：ID这个标签实在各行都要有的；另外有一个Parent的属性，它表明了当前的特征是Parent特征的子集。

1
2
3

Contig01  PFAM  gene  501  750  .  +  0  ID=geneA;Name=geneA
Contig01  PFAM  exon  501  650  .  +  2  ID=exonA1;Parent=geneA
Contig01  PFAM  exon  700  750  .  +  2  ID=exonA2;Parent=geneA

GTF

当前所广泛使用的GTF格式为第二版(GTF2)，它主要是用来描述基因的注释。GTF格式有两个硬性标准：

根据所使用的软件的不同，feature types是必须注明的。
第9列必须以gene_id以及transcript_id开头,GTF文件的第9列同GFF文件不同，虽然同样是标签与值配对的情况，但标签与值之间以空格分开，且每个特征之后都要有分号;（包括最后一个特征）

列|GTF2|GFF3

IGV下载及使用

Integrative Genomics Viewer(IGV)是一种探索大型综合基因组数据的高性能交互式可视化工具。它支持各种各样的数据类型，包括基于芯片测序、二代测序数据和基因组注释数据等。

IGV下载

wget http://data.broadinstitute.org/igv/projects/downloads/IGV_2.3.97.zip
unzip IGV_2.3.97.zip && mv IGV_2.3.97 ~/biosoft
# 添加环境变量
vim ~/.bashrc
PATH=$PATH:~/biosoft/IGV_2.3.97
source ~/.bashrc
# 运行IGV，Linux直接运行igv.sh可以开启IGV窗口，但是会比较慢，要耐心等待。
igv.sh

如下所示：

将gff3进行排序，选择Tools-Run igvtools，进入以下igvtools窗口：
获得sorted文件：command选择sort，再选择输入的注释文件，点击Run，就可以生成sorted.gff3文件。
通过file->load from file…选择sorted文件，打开。选择区域的大小，来看某些基因的信息，蓝色的粗线条就是代表基因。说到底，IGV就是一个将基因组及其注释信息可视化的工具。
载入基因组，选择Genome菜单，load我们之前已经下载好的hg19.fa基因组。

参考资料

转录组学习笔记03-了解fastq测序数据

发表于 2017-10-03 | 分类于生信实战项目

| 字数统计: 3,124 | 阅读时长 ≈ 12

任务

需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件，并且用fastqc软件测试测序文件的质量！作业，理解测序reads，GC含量，质量值，接头，index，fastqc的全部报告，搜索中文教程，并发在论坛上面。来源于生信技能树：http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost

将sra转换为fastq格式

sra格式

下载的原始数据是sra格式，SRA（Sequence ReadArchive）数据库是用于存储二代测序的原始数据，包括 454，Illumina，SOLiD，IonTorrent，Helicos 和 CompleteGenomics。除了原始序列数据外，SRA现在也存在raw reads在参考基因的比对信息。

fastq格式：

Fastq格式是一种基于文本的存储生物序列和对应碱基（或氨基酸）质量的文件格式。最初由桑格研究所（Wellcome Trust Sanger Institute）开发出来，现已成为存储高通量测序数据的事实标准。

fastq格式说明

FASTQ文件中每个序列通常有四行：

序列标识以及相关的描述信息，以‘@’开头；后面跟着序列的唯一ID以及相关说明内容。
第二行是核酸序列，是有ATCGN字符组成
第三行以‘+’开头，后面是序列标示符、描述信息，或者什么也不加
第四行，每个测序碱基质量，是用ASCII码来表示的，与第二行的字符数一致。碱基质量得分与错误率的换算关系： Q = -10log10p（p表示测序的错误率，Q表示碱基质量分数） ASCII值与碱基质量得分之间的关系： Phred64 Q=ASCII转换后的数值-64 Phred33 Q=ASCII转换后的数值-33

一个典型的fastq文件如下所示：

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

如何判断是Phred64 还是 Phred33 ？ ASCII值小于等于58（相应的质量得分小于等于25）对应的字符只有在Phred+33的编码中被使用，所有Phred+64所使用的字符的ASCII值都大于等于59。在通常情况下，ASCII值大于等于74的字符只出现在Phred+64中。如果是最近两年的测序数据，一般都是Phred33形式的。参考文章：http://blog.csdn.net/huyongfeijoe/article/details/51613827

转换工具：fastq-dump

将sra格式转换为fastq格式的工具是sratoolkit的fastq-dump，可以先用fastq-dump -h看一下帮助文件，分为如下几个部分：

输入： -A|—accession 序列号
处理中: Read Splitting, Full Spot Filters, Common Filters, Filters based on alignments, Filters for individual reads。基本都是些过滤参数。不太常用
输出： -O|—outdir 输出文件夹， -Z|—stdout 输出到标准输出， —gzip/—bzip2 输出为压缩格式
多文件选项：常用的就是—split-3，split-3表示如果是单端测序则一个sra文件出来一个fastq文件，如果是双末端，则一个sra问件对应两个fastq问件SRRXXXXXX_1.fastq,SRRXXXXXX_2.fastq
格式化：分为序列，质量等，不常用
—gzip 使得输出的结果是.gz 的格式

现在将disk2/sra下的sra文件转化为fastq格式，其中输入目录为disk2/sra，输出目录为/disk2/data/rna-seq，命令如下所示：

1
2
3

for ((i=56;i<=62;i++))
do fastq-dump --gzip --split-3 -A ~/disk2/sra/SRR35899$i.sra -O ~/disk2/data/rna-seq
done

转换后的结果如下所示：

对fastqc格式进行质控

工具：Fastqc

用法如下所示：

fastqc [-o output dir] [—(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

参数： -o 输出目录，需自己创建目录

—(no)extract 是否解压输出文件，默认是自动解压缩zip文件。加上—noextract不解压文件。

-f 指定输入文件的类型，支持fastq|bam|sam三种格式的文件，默认自动识别。

-t 同时处理的文件数目。

-c 是contaminant 文件，会从中搜索overpresent 序列。

代码如下所示：

mkdir -p ~/disk2/data/QC
cd ~/disk2/data/rna-seq
# 将所有的数据进行质控，得到zip的压缩文件和html文件
fastqc -o ~/disk2/data/QC *.fastq.gz

质控结果查看：

1. 质控后的文件如下所示：

质控结果有14个html文件，可以选择用浏览器打开查看最终的QC reports。随便打开一个质控结果文件，如下所示：

2. 质控报告的内容

左边是目录概要，一共12项内容，如下所示：

Basic Statistics
Per base sequence quality
Per tile sequence quality
Per sequence quality scores
Per base sequence content
Per sequence GC content
Per base N content
Sequence Length Distribution
Sequence Duplication Levels
Overrepresented sequences
Adapter Content
Kmer Content

可以点击想要看的结果，右边会跳转到特定详细的可视化结果。绿色代表“通过”，黄色代表“警告”，红色代表“不通过，失败”，如下所示：

2.1 Basic Statistics

基本的数据统计包括文件名，文件类型，编码形式，总的序列数，质量差的序列，序列平均长度，GC含量。

2.2 Per base sequence quality

图片太大，下部图片如下所示：

上图表示的是每个read各位置碱基的测序质量，具体的理解如下所示：

横轴表示碱基的位置，数字就是表示碱基，即1到51个碱基。
纵轴是质量分数，Quality score=-10log10p（p代表错误率），所以当质量分数为40的时候，p就是0.0001，质量算高了。
图中每1个boxplot，都是该位置的所有序列的测序质量的一个统计，上面的bar是90%分位数，下面的bar是10%分位数，箱子的中间的横线是50%分位数，箱子的上边是75%分位数，下边是25%分位数。
红色线代表中位数，蓝色代表平均数的连线，黄色是25%-75%区间，触须是10%-90%区间。若任一位置的下四分位数低于10或者中位数低于25，出现“警告”；若任一位置的下四分位数低于5或者中位数低于20，出现“失败，Fail”。

一般要求此图中，所有位置的10%分位数大于20,也就是我们常说的Q20过滤（即质量数低于20的reads清除掉）W。

2.3 Per tile sequence quality

检查reads中每一个碱基位置在不同的测序小孔之间的偏离度，蓝色代表偏离度小，质量好，越红代表偏离度越大，质量越差。纵轴是tail的Index编号。
这个图主要是为了防止，在测序过程中，某些tail受到不可控因素的影响而出现测序质量偏低。蓝色代表测序质量很高，暖色代表测序质量不高，如果某些tail出现暖色，可以在后续分析中把该tail测序的结果全部都去除

2.4 Per sequence quality scores，reads

质量的分布，当峰值小于27时，警告；当峰值小于20时，fail。可以看出这个测序的报告峰值在38左右。
假如我测的1条序列长度为101bp，那么这101个位置每个位置Q之的平均值就是这条reads的质量值。该图横轴是0-40，表示Q值，纵轴是每个值对应的reads数目

2.5 Per base sequence content

对所有reads的每一个位置，统计ATCG四种碱基的分布，横轴为位置，这里是1-51bp，纵轴为碱基含量（百分数），正常情况下每个位置每种碱基出现的概率是相近的，四条线应该平行且相近。当部分位置碱基的比例出现bias时，即四条线在某些位置纷乱交织，往往提示我们有overrepresented sequence的污染。本结果前10个位置，每种碱基频率有明显的差别，说明有污染。当任一位置的A/T比例与G/C比例相差超过10%，报”WARN”；当任一位置的A/T比例与G/C比例相差超过20%，报”FAIL”。
理论上来说，A和T应该相等，G和C应该相等，但是一般测序的时候，刚开始测序仪状态不稳定，很可能出现上图的情况。像这种情况，即使测序的得分很高，也需要cut开始部分的序列信息，一般遇到到这种情况，会cut前面5bp。

2.6 Per Sequence GC Content

统计reads的平均GC含量的分布。横轴是0 - 100%；纵轴是每条序列GC含量对应的数量。红线是实际情况，蓝线是理论分布（正态分布，均值不一定在50%，而是由平均GC含量推断的），两个应该比较接近才比较好。曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差（overrepresented reads）。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。偏离理论分布的reads超过15%时，报”WARN”；偏离理论分布的reads超过30%时，报”FAIL”。当红色的线出现双峰，基本肯定是混入了其他物种的DNA序列。这张图中的信息良好。

2.7 Per base N content

当测序仪器不能辨别某条reads的某个位置到底是什么碱基时，就会产生“N”，统计N的比率。正常情况下，N值非常小。当任意位置的N的比例超过5%，报”WARN”；当任意位置的N的比例超过20%，报”FAIL”。

2.8 Sequence Length Distribution

reads长度分布，每次测序仪测出来的长度在理论上应该是完全相等的，但是总会有一些偏差。比如此图中，51bp是主要的，但是还是有少量的50和52的长度，不过数量比较少，不影响后续分析。当测序的长度不同时，如果很严重，则表明测序仪在此次测序过程中产生的数据不可信。当reads长度不一致时报”WARN”；当有长度为0的read时报“FAIL”。

2.9 Sequence Duplication Levels

统计不同拷贝数的reads的频率。测序深度越高，越容易产生一定程度的duplication，这是正常的现象，但如果duplication的程度很高，就提示我们可能有bias的存在。横坐标是duplication的次数，纵坐标是duplicated reads的数目，以unique reads的总数作为100%。下图中，横坐标表示序列重复水平；纵坐标代表重复水平序列占所有序列的百分比。下图中大于10个重复的reads占总序列的20%以上，其他依次类推。当非unique的reads占总数的比例大于20%时，报”WARN”；当非unique的reads占总数的比例大于50%时，报”FAIL“。

2.10 Overrepresented sequences

一条序列的重复数，因为一个转录组中有非常多的转录本，一条序列再怎么多也不太会占整个转录组的一小部分（比如1%），如果出现这种情况，不是这种转录本巨量表达，就是样品被污染。这个模块列出来大于全部转录组1%的reads序列，但是因为用的是前200,000条，所以其实参考意义不大，完全可以忽略。

2.11 Adapter content

接头含量。①此图衡量的是序列中两端adapter的情况；②如果在当时fastqc分析的时候-a选项没有内容，则默认使用图例中的四种通用adapter序列进行统计；③本例中adapter都已经去除，如果有adapter序列没有去除干净的情况，在后续分析的时候需要先使用cutadapt软件进行去接头。

2.12 Kmer content

①这个图统计的是，在序列中某些特征的短序列重复出现的次数；② 我们可以看到1-8bp的时候图例中的几种短序列都出现了非常多的次数，一般来说，出现这种情况，要么是adapter没有去除干净，而又没有使用-a参数；要么就是序列本身可能重复度比较高，如建库PCR的时候出现了bias；④ 对于这种情况，我的办法是可以cut掉前面的一些长度，可以试着cut 5~8bp

批量质控结果查看MultiQC

# 安装multiqc
$ conda install -c bioconda multiqc
# 测试
$ multiqc --help
# 进入存放QC结果的文件夹，空白处右键“在终端打开”
# 扫描结果文件，忽略html文件
$ multiqc ./*fastqc.zip --ignore *.html
# 最后会默认生成一个名为multiqc_report.html文件，用浏览器查看

参考资料：

孟浩巍.20160410 测序分析——使用 FastQC 做质控

转录组学习笔记02-读文献下载测序数据

发表于 2017-10-02 | 分类于生信实战项目

| 字数统计: 1,984 | 阅读时长 ≈ 8

任务目标：

本系列课程学习的文章是：AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034 很容易在文章里面找到数据地址GSE81916 这样就可以下载sra。

文章主要内容

测序物种

人类，小鼠；

实验类型

高通量测序

摘要

pre-mRNA的可变剪切与高等生物基因表达的复杂性有关，但是可变剪切位点的选择却未研究清楚。作者在以前的研究中发现了一个染色质相关的蛋白AKAP95（AKAP8）在强化染色质转录方向有着明显的影响。在本文的研究中，APAKP95能与许多涉及转录和RNA加工的因子相互作用，调节pre-mRNA的剪接。AKAP95直接促进内源基因FAM126A的特异性外显子的体外剪接和包含。 AKAP95N-末端富含YG的结构域在与RNA加工因子（例如hnRNP蛋白）结合的过程中有着重要的作用，它的锌指结构域对于pre-mRNA的结合至关重要。基因组结合的分析显示，AKAP95优先结合人类转录组中大量pre-mRNA的近端内含子区域，AKAP95的敲除能导致多外显子增加的减少。AKAP95还可以选择性地协调hnRNP H/ F和U蛋白来调节可变剪接事件。进一步表明，AKAP95与自身直接相互作用。总之，实验的研究结果表明，AKAP95是pre-mRNA剪接的新型，并且是正向调节因子，它有可能是一个转录和剪接调节整合子，并且实验提出了一个模型，即AKAP95通过支架RNA和RNA加工因子调节pre-mRNA剪接，并促进剪接位点之间的信息交流。

原英文摘要：

Alternative splicing of pre-mRNAs significantly contributes to the complexity of gene expression in higher organisms, but the regulation of the splice site selection remains incompletely understood. We have previously demonstrated that a chromatin-associated protein, AKAP95 (AKAP8), has a remarkable activity in enhancing chromatin transcription. In this study, we have shown that AKAP95 physically interacts with many factors involved in transcription and RNA processing, and functionally regulates pre-mRNA splicing. AKAP95 directly promotes splicing in vitro and the inclusion of a specific exon of an endogenous gene FAM126A. The N-terminal YG-rich domain of AKAP95 is important for its binding to RNA processing factors including selective groups of hnRNP proteins, and its zinc finger domains are critical for pre-mRNA binding. Genome-wide binding assays revealed that AKAP95 bound preferentially to proximal intronic regions on a large number of pre-mRNAs in human transcriptome, and AKAP95 depletion predominantly resulted in reduced inclusion of many exons. AKAP95 also selectively coordinates with hnRNP H/F and U proteins in regulating alternative splicing events. We have further shown that AKAP95 directly interacts with itself. Taken together, our results establish AKAP95 as a novel and mostly positive regulator of pre-mRNA splicing and a possible integrator of transcription and splicing regulation, and support a model that AKAP95 regulates pre-mRNA splicing via through scaffolding RNAs and RNA processing factors and facilitating the splice site communication.

样本信息

样本1-8是RIP-seq的数据，研究的是AKAP95与转录组的结合，样本9-15是mRNA-seq的数据，研究的是在293细胞或小鼠ES细胞中敲减了AKAP95的数据（其中9-11是293细胞的数据，有3个，12-15是小鼠ES细胞的数据，有4个）。

文章思路

1.AKAP95的N末端区域参与该蛋白与RNA加工因子的结合，这些RNA加工因子包括hnRNPs。
2.APAK95与许多RNA加工因子的结合暗示了AKAP95在RNA加工方面发挥了作用，这些作用包括pre-RNA剪接。实验结果表明，AKAP95直接调控minigene pre-mRNA剪接，AKAP95的N末端与ZFs是其功能发挥的结构域。
3.为了寻找AKAP95剪接调控的内源靶点。经过一系列实验表明：AKAP95和hnRNP F参与调节FAM126A外显子11的剪接（实验中提到了敲减AKAP95后，FAM126A的外显子11会被跳过，而在野生型中则正常剪接）。
4.利用深度测序的方法寻的找内源AKAP95与人类转录组的结合。测序手段是RIP，其结果是发现AKAp95能与pre-mRNAs结合。
5. （核心，也就是这个笔记学习的部分）问题：评估AKAP95对可变剪接的全局影响，实验手段是：①人类294细胞和小鼠ES细胞中敲减了AKAP95基因->②RNA-seq->③DEXseq分析。AKAP95的敲减会导致更多的外显子使用（exon）减少，这表明AKAP95会全局促进外显子增加（exon inclusion）。看文献我的理解是，有了AKAP95基因后，该基因的表达产物会导致FAM126A的外显子10，11，12连接起来，如果敲低了AKAP95这个基因，FAM126A的外显子10与12连接起来，会跳过外显子11。因此AKAP95的功能就在于调节FAM126A的可变剪接。exon inclusion我的理解是，外显子的利用，以此文献为例说明，exon inclusion指的就是FAM126A的外显子11的利用，AKAP95会促进AKAP95外显子11的利用，如果没有AKAP95，则FAM126A的外显子10就会跳过外显子11，与外显子12连接起来，exon inclusion就降低。
6.后续的实验作者又研究了AKA95的一些作用机理，略。

文章结果

a.b图

a图是火山图。火山图常用于展示显著差异表达的基因，这里有两个关键词：显著是指P<0.05，差异表达一般我们按照fold change(倍数变化)="">=2.0作为标准。
当我们拿到基因表达的P值和倍数后，为了用火山图展示结果，一般需要把倍数进行Log2的转化（下图a的x轴），比如某基因在实验组表达水平是对照组的4倍，log2（4）=2，同样的如果是1/4，也就是0.25，转换后的结果就是-2。
P值进行-log10的转化，-log10（0.01）约等于2，由于P值越小表示越显著，所以我们进行-log10（P value）转化后，转化值越大表示差异约显著，比如-log10（0.001）=3 > -log10(0.01)=2 > -log10(0.05)=1.30（下图a的y轴）。

火山图有三种颜色，黄色与红色都是Padj小于0.01的基因（P值经过了FDR校正，即false discovery rate）。红色又表示基因变化超过2倍的基因。b图是饼图，它表示外显子使用(exon usage)的增加与降低数目。

c.d图

e图

f图

文章所用的生信方法

在后文的Bioinformatic analyses部分

比对

比对软件：TopHat (v2.0.13)
参考基因组：human reference genome (GRCh37/hg19)
GTF文件： GTF version GRCh37.70
只保留MQ >30的map结果
Picard-tools (v1.126)：计算平均插入大小(mean insert sizes)和标准差
read count: 软件：HTSeq v0.6.0

差异表达分析

DESeq (v3.0)
DEXSeq (v3.1)

富集分析

GO分析：DAVID (http://david.ncifcrf.gov/)

数据下载

进入NCBI的GEO数据库https://www.ncbi.nlm.nih.gov/geo/
搜索GSE81916，如下所示：

输入GSE81916，单击Search即可，见到数据说明及下载页面，如下所示：

下面有一段话是对这些数据的描述，即：

Overall design Samples 1-8 are RNA-immunoprecipitation > (RIP)-seq to determine AKAP95 binding to the
transcriptome. Samples 9-15 are mRNA-seq to determine
effect of AKAP95 knockdown in human 293 cells (9-11) or > mouse ES cells (12-15).

大意就是样本9-15是mRNA-seq的数据，而样本1-8是RNA免疫组化的数据。我们只需要9-15的数据，单击红框链接即可进入数据下载页面，如下所示：

单击第一行的SRP/SRP075/SRP075747右侧的ftp，即可进入数据下载界面：

现在下载SRR3589956-SRR3589962的7个数据（3个人类，4个小鼠），命令如下：

此命令是将数据下载到disk2/sra的目录下，

1 2	cd ~/disk2 && mkdir sra for ((i=56;i<=62;i=i++));do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR35899$i/SRR35899$i.sra ;done

当时觉得数据下载慢，我就直接用迅雷下载了，数据下载后如下所示：

参考资料

转录组学习笔记01-计算机及软件安装

发表于 2017-10-01 | 分类于生信实战项目

| 字数统计: 1,978 | 阅读时长 ≈ 9

前言

转录组的这几篇入门笔记主要是参照了生信技能树论坛，公众号，生信媛公众号，徐更洲的博客，沈梦圆的博客及公众号，Jimmy等人的博客完成的。

软件安装（一）——miniconda

首先要安装：Miniconda

先了解一下conda，Anaconda,Miniconda。
conda是一个工具，也是一个可执行命令，其核心功能是包管理与环境管理。包管理与pip的使用类似，环境管理则允许用户方便地安装不同版本的python并可以快速切换。
Anaconda是一个用于科学计算的Python发行版，支持 Linux, Mac, Windows系统，提供了包管理与环境管理的功能，可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda则是一个打包的集合，里面预装好了conda、某个版本的python、众多packages、科学计算工具等等，所以也称为Python的一种发行版。
Miniconda则是Anaconda的微缩版，它只包含最基本的内容，即python与conda，以及相关的必须依赖项，对于空间要求严格的用户，Miniconda是一种选择。
bioconda是conda上一个分发生物信息软件的频道。多数软件都可以通过conda来安装，可查看可用软件列表。

第一步：下载miniconda2

1	wget https://repo.continuum.io/miniconda/Miniconda2-latest-Linux-x86_64.sh

第二步：安装miniconda2

1	bash Miniconda2-latest-Linux-x86_64.sh

安装过程基本上就是按Enter或输入yes，仔细看说明就行。

第三步：将miniconda2保存到环境变量

1 2	echo "export PATH=/home/bio/miniconda2/bin:"'$PATH' >> ~/.bashrc source ~/.bashrc

第四步：添加通道

Conda默认的源访问速度有些慢，可以增加国内的源（国内的源是清华源，其中参考文献中给出的；另外还可以增加几个源，以便于安装更多的软件，尤其是bioconda安装生信类工具。conda-forge通道是Conda社区维护的包含很多不在默认通道里面的通用型软件。r通道是向后兼容性通道，尤其是使用R3.3.1版本时会用到。后添加的通道优先级更高，因此一般用下面列出的顺序添加。

conda config --set show_channel_urls yes
conda config --add channels r # Optional, lowest priority
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda

如果命令行添加不了，可以用vim ~/.condarc来进行安装，如果安装错误了，可以删除.condarc文件，然后再用命令行来安装。用conda config --get channels可以查看已经添加的频道，而用conda config --show可查看已有的配置。如下所示：

Conda基本使用

列出安装的软件包

1	conda list

如下所示：

搜索需要安装的软件包，获取其完成名字

命令是conda search <package ambigious name> ，以搜索fastqc为例：

1	conda search fastqc # * 表示对于版本的包已安装

如下所示：

安装包

命令为conda install <package name>
以安装 numpy=1.7.2为例说明

1
2
3

conda install numpy=1.7.2 
# 安装特定版本的软件包
# 也可以不加

更新软件包

conda update <package name>

移除软件包

conda remove <package name>

获取帮助信息

conda -h # 查看conda可用的命令
conda install -h #查看install子命令的帮助

关于环境

condas可以创建多个分析环境，这是它的优势之一，不过目前用不到，以后用到了再学。

查看已有环境

虚拟环境管理：conda比较好用的就是它能够建立多个互不干扰的分析环境。通过conda info --envs可以查看环境，如下所示：

1 2	conda info --envs # 或 conda info -e

目前就只有一个默认环境，也就是root：

卸载miniconda

1	rm -rf ~/miniconda2

从环境变量中去掉miniconda：打开~/.bash_profile文件，删掉其中miniconda的路径，关闭并保存
删除隐藏的.condarc 、.conda以及.continuum文件

软件安装（二）——其它生信工具

目前所用的生信工具如下所示：

(1)sratoolkit

sratoolkit：把NCBI SRA（Sequence Read Archive）数据库中的NGS序列数据从 sra 格式转换到 fastq 格式。

conda安装：

1	conda install -c jfear sratoolkit=2.8.1

如果安装不成功，可采用下列安装方式（我的笔记本上上基本上都是conda安装，对于下面的安装方式并没有试过）：

cd mynotes
cd src
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2-1/sratoolkit.2.8.2-1-ubuntu64.tar.gz
tar -zxvf sratoolkit.2.8.2-1-ubuntu64.tar.gz
mv sratoolkit.2.8.2-1-ubuntu64 ~/biosoft
# 加入环境变量
echo 'PATH=$PATH:~/biosoft/sratoolkit.2.8.2-1-ubuntu64/bin' >> ~/.bashrc
# 测试
prefetch -v
# 尝试下载，默认存放在家目录下的ncbi文件夹中
prefetch -c SRR390728

fastqc

fastqc:二代测序数据质量分析软件。

安装如下：

1	conda install fastqc

或者是采用常规的安装方式：

# 判断系统是否安装java
java -version
# 安装java， 请改成openjdk-9-jdk，下面的是错误演示
sudo apt install  openjdk-9-jre-headless
# 验证
java -version
# openjdk version "9-internal"
# OpenJDK Runtime Environment (build 9-internal+0-2016-04-14-195246.buildd.src)
# OpenJDK 64-Bit Server VM (build 9-internal+0-2016-04-14-195246.buildd.src, mixed mode)
# 安装fastqc
cd src
wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip
unzip fastqc_v0.11.5.zip
mv FastQC/ ~/biosoft/
cd ~/biosoft/FastQC/
chmod 770 fastqc
# 添加环境变量， 我用sed修改
sed -i '/^PATH/s/\(.*\)/\1:~\/biosoft\/FastQC\//' ~/.bashrc
source ~/.bashrc
fastqc -v
# FastQC v0.11.5

hisats

hisats：将测序结果比对到人类参考基因组上。HISAT2是TopHat2/Bowti2的继任者，使用改进的BWT算法，实现了更快的速度和更少的资源占用。

1	conda install -c bioconda hisat2

samtools

samtools:处理SAM、BAM文件的工具软件。BAM格式文件是存放高通量测序中比对结果的标准格式文件。

1	conda install -c bioiconda samtools

或者如下安装：

cd src
#  prerequsite
## system requirement
sudo apt install autoconf libz-dev libbz2-dev liblzma-dev libssl-dev
### zlib2
wget http://zlib.net/zlib-1.2.11.tar.gz
tar -zxvf zlib-1.2.11.tar.gz && cd zlib-1.2.11 && make && sudo make install && cd .. && rm -rf zlib-1.2.11
### bzip2
wget http://bzip.org/1.0.6/bzip2-1.0.6.tar.gz
tar -zxvf bzip2-1.0.6.tar.gz && cd bzip2-1.0.6 && make && sudo make install && cd .. && rm -rf  bzip2-1.0.6
### curses
sudo apt-get install libncurses5-dev 
### htslib
git clone https://github.com/samtools/htslib.git
cd htslib
autoreconf
# building samtools
git clone https://github.com/samtools/samtools.git
cd samtools
autoconf -Wno-syntax
./configure 
make && make install prefix=$HOME/biosoft/samtools
## add PATH
sed  '/^PATH/s/\(.*\)/\1:~\/biosoft\/samtools\/bin/' .bashrc -i
source ~/.bashrc
samtools --help

htseq-count

htseq-count：用于reads计数的软件，他能对位于基因组上的一些单位的reads数进行统计，这里所说的单位主要是指染色体上的一组位置区间（我们常见的就是gene exon）

优先conda安装

1	conda install -c bioconda htseq=0.7.2

如果conda无法安装，采用下列安装方式：

## Download and install HISAT 
# https://ccb.jhu.edu/software/hisat2/index.shtml
cd ~/biosoft
mkdir HISAT  &&  cd HISAT 
#### readme: https://ccb.jhu.edu/software/hisat2/manual.shtml
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.0.4-Linux_x86_64.zip
unzip hisat2-2.0.4-Linux_x86_64.zip
ln -s hisat2-2.0.4  current 
## ~/biosoft/HISAT/current/hisat2-build
## ~/biosoft/HISAT/current/hisat2

或者如下：

# prerequsites
sudo apt-get install python-pip
pip install --upgrade pip
sudo apt-get install build-essential python2.7-dev python-numpy python-matplotlib
## 验证， 保证无报错
python -V
## python
python
>>> import numpy 
>>> import matplotlib 
## install HTSeq
pip install htseq
## 验证
python
>>> import HTSeq

R

R：统计与数据可视化工具。

conda install -c r r-base
R #运行的时候要大写
## conda install -c r r-essentials 
## -essentials表示安装R,及80多个常用的数据分析包, 包括idplyr, shiny, ggplot2, tidyr, caret 和 nnet

Rstudio的安装

1 2	conda install rstudio rstudio

后面涉及有关R的分析是在Sindows平台下完成的，并没有用到Linux下的R工具。

fastx-toolkit安装

1	conda install -c biobuilds fastx-toolkit

参考资料：

因子分析笔记

发表于 2017-09-23 | 分类于生物统计

| 字数统计: 599 | 阅读时长 ≈ 2

因子分析思想

在医学研究中有一些现象是难以直接观测的，通常称为不可测现象，它们只能通过其他多个可观测的指标来间接地反映。例如，脑部疾病患者的意识清醒状态是一个不可测现象，但可以通过患者的语言能力、辨识能力、记忆能力、理解能力、思维的逻辑能力等一系列可观测的指标来反映。这里，由于各个可观测指标都不同程度地反映了意识清醒状态这一不可测现象，因此这些可观测指标之间呈现出一定的相关性。很自然地，人们可能认为这些可观测指标之间的相关性主要是由它们反共同反映的不可测现象支配的。
一般地，对于多指标数据中呈现出来的相关性，是否存在对这种相关性起支配作用的潜在因素？如果存在，如何找出这些潜在因素？这些潜在因素是怎样对原始指标起支配作用的？这些问题，都可以通过因子分析来解决。事实上，因子分析是一种从分析多个原始指标的相关关系入手，找到支配这种相关关系的有限个不可观测的潜在变量，并用这些潜在变量来解释原始指标之间的相关性或协方差关系的多元统计分析方法。

因子分析的数学模型

因子模型的性质

公共度

因子贡献及因子贡献率

因子载荷及因子载荷阵

因子载荷阵的求解及计算步骤

案例如下：
例22-2 某医院为了合理地评价该院各月的医疗工作质量，搜集了三年有关门诊人次、出院人数、病床利用率、病床周转次数、平均住院天数、治愈好转率、病死率、诊断符合率、抢救成功率等9个指标数据，如表22-8。现采用因子分析方法，探讨其综合评价指标体系。

参考资料

hexo公式渲染

发表于 2017-09-22 | 分类于生信工具

| 字数统计: 56 | 阅读时长 ≈ 1

安装hexo-math

1	npm install hexo-math --save

2._config.yml的配置
添加以下信息：

math:
  engine: 'mathjax' # or 'katex'
  mathjax:
    src: custom_mathjax_source
    config:
      # MathJax config
  katex:
    css: custom_css_source
    js: custom_js_source # not used
    config:
      # KaTeX config

参考资料：

https://github.com/hexojs/hexo-math

主成分分析笔记

发表于 2017-09-22 | 分类于生物统计

| 字数统计: 5,036 | 阅读时长 ≈ 20

主成分分析简介及主要思想

主成分分析（principal components analysis，PCA），是由1901年被Pearson首先引入的，1933年由Hotelling作了进一步的发展，主成分分析是从多个数值变量（指标）之间的相互关系入手，利用降维的思想，将多个变量（指标）化为少数几个互不相关的综合变量（指标）的统计方法。

在医学研究中，为了客观、全面地分析问题，常要记录多个观察指标并考虑众多的影响因素，这样的数据虽然可以提供丰富的信息，但同时也使用数据的分析工作更趋复杂化。例如在儿童生长发育的评价中，收集到的数据包括每一个儿童的身高、体重、胸围、坐高、肺活量等十多个指标。怎样利用这类多指标的数据对每一个儿童的生长发育水平作出正常的评价？如果仅用其中任一指标来作评价，其结论显然是片面的，而且不能充分利用已有的数据信息。如果分别利用每一指标进行评价，然后再综合各指标评价的结论，这样做一是可能会出现各指标评价的结论不一致，甚至相互冲突，从而给最后的综合评价带来困难；二是工作量明显增大，不利于进一步的统计分析。事实上，在实际工作中，所涉及的众多指标之间经常是有相互联系和影响的，从这一点出发，希望通过对原始相互关系的研究，找出少数几个综合指标，这些综合指标是原始指标的纯属绵且，它既保留了原始指标的主要信息，且又互不相关。这样一种从众多原始指标之间相互关系入手，寻找少数综合指标以根据原始指标信息的多元统计方法称为主成分分析。

主成分分析的数学模型及几何意义

（一）主成分分析的数学模型

设有m个指标，即$X_{1},X_{2},\dots,X_{m}$,欲寻找可以概括这m个指标主要信息的综合指标$Z_{1},Z+{2},\dots,Z_{m}$，从数学上讲，就是寻找一组常数，即$a_{i1},a_{i2},\dots,a_{im}(i=1,2,\dots,m）$，使这m个指标的线性组合为（以下为公式1-1——：

$\left\{\begin{array}{c}{Z_{1}=a_{11} X_{1}+a_{12} X_{2}+\cdots+a_{1 m} X_{m}} \\ {Z_{2}=a_{21} X_{1}+a_{2} X_{2}+\cdots+a_{2 m} X_{m}} \\ {\vdots} \\ {Z_{m}=a_{m 1} X_{1}+a_{m 2} X_{2}+\cdots+a_{m m} X_{m}}\end{array}\right.$

能够根据m个原始指标$X_{1},X_{2},\dots,X_{m}$的主要信息，且各$Z_{i}(i=1,2,\dots,m)$互不相关，为叙述方便，可以引入以下的矩阵形式，令

则公式1-1可以表示为：

$\bf {Z=AX} (1-2)$

或者是

如果$Z_{1}=\bf a’_{1}X$满足$\bf a’_{1}a_{1}=1$，且
$Var(Z_{1})=\mathop{Max}\limits_{\bf a’a=1}^{}{Var(\bf a’X)}$，刚称$Z_{1}$是原始指标$X_{1},X_{2},\dots,X_{m}$的第一主成分。

通常情况下，如果$Z_{i}=\bf a’X$满足：
(1)$\bf a’_{i}a_{i}=1$，当i>1时，$\bf a’_{i}a_{j}=0(i=1,2,\dots,i-1)$
(2)$Var(Z_{i})=\mathop{Max{Var(a’\bf X)}}\limits_{\bf a’a=1,\bf a’a_{j}=0(j=1,2,\dots,i-1)}^{}$
刚称$Z_{i}$是原始指标的第$i$主成分（$i=2,\dots,m$）。

由上述定义可知，当$i\neq j$时，主成分$Z_{i}$与$Z_{j}$是互不相关的，并且$Z_{1}$是原始指标$X_{1},X_{2},\dots,X_{m}$的一切线性组合中方差最大者，$Z_{2}$是与$Z_{1}$不相关的、除$Z_{1}$以外的$X_{1},X_{2},\dots,X_{m}$一切线性组合中方差最大者，$Z_{m}$是与$Z_{1},Z_{2},\dots,Z_{m}-1$都不相关的，除$Z_{1},Z_{2},\dots,Z_{m}-1$以外的$X_{1},X_{2},\dots,X_{m}$一切线性组合中方差最大者。从理论上讲，求得的主成分个数最多可能有m个，这时，m个主成分就反映了全部原始指标所提供的信息，鉴于主成分分析的目的主要是用较少的综合指标来反映全部原始指标中的主要信息，因此在实际工作中，所确定的主成分个数总是小于原始指标的个数。

（二）主成分的几何意义

为方便讨论，以m=2为例说明主成分分析的几何意义，设个体具有两个观测指标X1和X2，它们之间具有较强的相关性，测量n例这样的个体的值，将所得的n对数据在以X1为横轴，X2为纵轴的二维坐标平面中的苫，得到如下的散点图：

由上图可以看出，由于$X_{1}$和$X_{2}$具有较强的相关性，这n个点的分页呈现出直接化的趋势；同时它们沿$X_{1}$轴方向和$X_{2}$轴方向都具有较大的变异变。个体在某个方向上的变异度可以用该方向上相应观测变量的方差来定量地表示。显然，如果只考虑$X_{1}$和$X_{2}$中任何一个方向上的方差，就将损失原始观测数据中很大一部分信息。如果我们将坐标轴$X_{1}$和$X_{2}$同时按逆时针方向作一个放置，得到新的坐标轴$Z_{1}$和$Z_{2}$，使得在亲折坐标平面上，这n个点的分布基本上不再具有有相关性，且它们的变异主要集中在Z1方向上，而在Z2方向上的变异较小，此时若取$Z_{1}$作为第一主成分，则$Z_{1}$就反应了原始指标$X_{1}$和$X_{2}$所包含的主要信息。

主成分的求法及性质

（一）主成分的求法

由主成分的定义可知，各主成分互不相关，即任意两个主成分$Z_{i},Z_{j}$的协方差为0，即

$Cov(Z_{i},Z_{j})=0,i\neq j$

且各主成分的方差满足：

$Var(Z_{1}) \geq Var(Z_{2}) \dots Var(Z_{m})$

于是由公式(1-2)定义的随机向量$Z$的协方差矩阵为：

由主成分定义中的条件（1）可知，这里的方阵$A$是正交阵，即$A’A=I$（I为单位矩阵），由此可得：

由上述公式可知，求原始指标$X_{1},X_{2},\dots,X_{m}$的主成分问题，实际上就是要求满足上述条件的正交阵$A$，即随机微量$X=(X_{1},X_{2},\dots,X_{m}$的协方差矩阵$Cov(X)$的特征值（eigenvalue）与特征向量(eigenvector)。

主成分的计算过程

下面讨论怎么由一组$X_{1},X_{2},\dots,X_{m}$的样本观测值求出主成分，假设收集到的原始数据共有n例，每例测得m个指标的数值，记录如下所示：

1. 对各原始指标数据进行标准化，先按下式进行：

$X'_{ij}=\frac{X_{ij}-\bar{X_{j}}}{S_{J}}(j=1,2,3,\dots,m)$

将原始指标标准化（标准化通俗讲就是每一列的每个数字每去这一列的均值，然后除以标准差），然后用标准化的数据$X’_{ij}$来计算主成分，为了方便计算，下面的公式中仍用$X_{ij}$表示标准化后的指标数据，$\bf X$为标准化后的数据矩阵，则：

2. 求出$X$的协方差矩阵$R$

标准化后，$X$的相关矩阵即为协方差矩阵$Cov({\bf X})$

对角线上分别是$r_{11}$，$r_{22}$和$r_{mm}$的方差，非对角线上是协方差。协方差是衡量两个变量同时变化的变化程度。以两个变量x、y来举例，例如协方差大于0，表示x和y若一个增，另一个也增；小于0表示一个增，一个减。如果ｘ和ｙ是统计独立的，那么二者之间的协方差就是０；但是协方差是０，并不能说明ｘ和ｙ是独立的。协方差绝对值越大，两者对彼此的影响越大，反之越小。协方差是没有单位的量，因此，如果同样的两个变量所采用的量纲发生变化，它们的协方差也会产生数字上的变化。

3. 求出相关矩阵的特征值和特征值对应的特征向量

由公式1-3得知，求主成分的问题，实际上是求出$X$的协方差矩阵$Cov(X)$（这里即为$X$的相关矩阵$R$）的特征值和特征向量，由于$R$为半正定矩阵，故可由R的特征方程

$|{\bf R} -\lambda{\bf I|} = 0$

解得每一特征值$\lambda_{i}$对应的单位特征向量$a_{i}=(a_{i1} a_{i2} \dots a_{im}’$，从而求得各主成分，即

$Z_{i}={\bf a'_{i}X}={a_{i1}X_{1}+a_{i2}X_{2}+ \dots +a_{im}X_{m}} i=1,2,\dots,m$

有关特征值和特征向量的理解可以参考后文引用的文章。这里简单提一下，如果把矩阵看作是运动，对于运动而言，最重要的就是运动的速度和方向，那么特征值就是运动的速度，特征向量就是运动的方向。

（二）主成分的性质

1. 各主成分互不相关

即$Z_{i}$与$Z_{j}$的相关系数为0，即：

$r_{z_{i},z_{j}}=\frac{Cov(Z_{i},Z_{j})}{\sqrt{Cov(Z_{i},Z_{j})Cov(Z_{j},Z{j})}}=0(i \neq j)$

因此各主成分间的相关系统矩阵为单位矩阵。

2. 主成分的贡献率和累积贡献率

可以证明，各原始指标$X_{1},X_{2},\dots,X_{m}$的方差和与各主成分$Z_{1},Z_{2},\dots,Z_{m}$的方差和相等，将数据标准化后，原始指标的方差和为$\sum\limits_{i=1}^m \lambda_{i}$，即有$m=\sum\limits_{i=1}^m \lambda_{i}$

各指标所提供的信息量是用其方差来衡量的。由此可知，主成分分析是把m个原始指标$X_{1},X_{2},\dots,X_{m}$的总方差分解为m个互不相关的综合指标$Z_{1},Z_{2},\dots,Z_{m}$的方差之和，使第一主成分的方差达到最大，即变化最大的方向微量所相应的线性函数，最大方差为$\lambda$。其中${\lambda}/{\sum\limits_{i=1}^m \lambda_{i}}$表明了第一主成分$Z_{1}$的方差在全部方差中所占的比值，称为第一主成分的贡献率，这个值越大，表明$Z_{1}$这个指标综合原指标$X_{1},X_{2},\dots,X_{m}$的能力越强，也可以说，由$Z_{1}$的差异来解释$X_{1},X_{2},\dots,X_{m}$的差异的能力越强，正是因为这一点，才把$Z_{1}$称为$X_{1},X_{2},\dots,X_{m}$的第一主成分，也就是$X_{1},X_{2},\dots,X_{m}$的主要部分，了解到这一点，就可以知道为什么主成分是按特征值$\lambda_{1},\lambda_{2},\dots,\lambda_{m}$进行排序的。

通常情况下

$\frac{\lambda_{i}}{\sum\limits_{i=1}^m}=\frac{\lambda_{i}}{m}(k=1,2,\dots,m)$

为第i主成分的贡献率；而称

$\sum\limits_{i=1}^k \frac{\lambda_{i}}{m}(k \leq m)$

为前k个主成分的累积贡献率。

3. 主成分个数的选取

通常并不需要全部的主成分，只用其中的前几个，一般来说，主成分的保留个数按以下的原则来进行：

(1)以累积贡献率来确定：

当前k个主成分的累积贡献率达到某一特定值时（一般以大于70%为宜，有的时候会要求大于80%），则保留前k个主成分。

(2)以特征值的大小来确定：

即若主成分$Z_{i}$的特征值$\lambda_{i} \geq 1$，则保留$Z_{i}$，否则就去掉该主成分。这个与碎石图类似。

4. 因子载荷

为了了解各主成分与各原始指标之间的关系，在主成的表达式中，第$i$主成分$Z_{i}$的特征值的平方根$\sqrt{\lambda_{i}}$与第$j$原始指标$X_{j}$的系数$a_{ij}$的乘积，即

$q_{ij}=\sqrt{\lambda_{i}a_{ij}}$

为因子载荷（factor loading），由因子载荷构成的矩阵称为因子载荷阵，事实上因子载荷$q_{ij}$就是第$i$主成分$Z_{i}$与第$j$原始指标$X_{j}$之间的相关系数，它反映了主成分$Z_{i}$与原始指标X_{i}$之间联系的密切程度与作用的方向。

5. 样品的主成得分

对于具有原始指标测定值$(X_{i1},X_{i2},\dots,X_{im})$的任一样品，可先用标准化变换式将原始数据标化，即：

$X'_{ij}=\frac{X_{ij}-\bar{X_{j}}}{S_{J}}(j=1,2,3,\dots,m)$

然后代入各主成分的表达式，即

$Z_{i}={\bf a'_{i}X}={a_{i1}X_{1}+a_{i2}X_{2}+ \dots +a_{im}X_{m}} i=1,2,\dots,m$

求出该样本各主成分值，这样求得的主成分值称为该样本的主成分得分，利用样品的主成分得分，可以对样品的特征进行推断和评价。

案例分析

案例一

例22-1 某研究者测得84名10岁男孩的身高、坐高、体重、胸围、肩宽、肺活量等6项生长发育指标，数据见表22-2。试作主成分分析。

第1步：导入数据

raw_pca <- read.csv("https://raw.githubusercontent.com/20170505a/raw_data/master/data_szq_2201.csv")
# 这是原始数据，放在了github上
head(raw_pca)
str(raw_pca)
raw_pca <- raw_pca[-1]
#第1列是序号，没用，剔除掉

剔除掉第1列后的数据：

第2步：数据的简单统计量

1 2	apply(raw_pca,2,sd) # 求各列的标准差 apply(raw_pca,2,mean) # 求各列的均数

第3步：相关矩阵的特征值

1 2	raw.pr<- prcomp(raw_pca, scale = TRUE) # 标准误、方差贡献率和累积贡献率 summary(raw.pr,loadings=TRUE) # 标准误、方差贡献率和累积贡献率

在上图中，其中第二行，即Proportion of Variance表示的是贡献率；而第3行，即Cumulative Proportion表示的是累积贡献率；由这个表可以看出，主成分取3个比较合适，此时的累积贡献率为88.92%，接近于90.00%。

第4步：相关矩阵的特征向量

1	prcomp(raw_pca, scale = TRUE)

这张表的结果可以得出各个主成分的与相应变量的系数，如果取3个主成分，则可以得出前三个主成分为：

第5步：因子载荷矩阵

前面的第1到第5步用的是R中的base的函数，没有找到计算因载荷的矩阵方法，现在用psych包来进行计算。

碎石图

1
2
3

# 利用paych包进行分析
library(psych)
fa.parallel(raw_pca,fa='pc',n.iter=100,show.legend = FALSE,main='PCA analysis')

psych包中的fa.parallel用来提取主成分，绘制的图形如下所示：

这种图叫碎石图，把对应各个主成分的特征值按从大到小的顺序在图上绘出，选取主成分个数至碎石图发生斜率明显变化为止。其中，蓝线是基于观测特征值的碎石检验，根据100个随机数据矩阵推导出来的特征值均值是红线，从图中可以看出：碎石检验图形最大变化处上面只有一个成分；特征值大于随机模拟数据的也只有一个主成分；特征值大于1的也只有一个主成分。所以这一组数据使用一个主成分即可保留数据集的大部分信息（这一点与书上的不符，但主成分的挑选我觉得参入了一定的主观成分在里面，选取几个主成分，要综合几个因素来看，书上选取的是3个主成分，为了保持一致，我们后面的分析也选3个主成分）。

提取主成分

提取3个主成分，如下所示：

raw2.pca <- principal(r = raw_pca, nfactors = 3, rotate = 'none')
# nfactors=3表示，提取3个主成分
# rotate指定旋转的方法，默认是最大方差旋转；scores设定是否需要计算主成分得分，默认不计算。
raw2.pca

结果如下所示：

红色框中就是因子载荷矩阵。

由因子载荷矩阵可知，第一主成分$Z_{1}$在各原始指标上的因子载荷较为均匀，故可认为该主成分反映的是各原始指标的综合信息；第二主成分$Z_{2}$在$X_{1}$（身高）、$X_{3}$（坐高）及$X_{4}$（胸围）上的因子载荷较大，故可认为该主成分反映的是体型方面的信息；而第三主成分$Z_{3}$则主要反映了来自原始指标$X_{6}$（肺活量）的信息。此外，还可知道，第一主成分$Z_{1}$与各原始变量之间的关系较为密切，第二主成分$Z_{2}$与原始变量$X_{1}$、$X_{2}$及$X_{4}$之间的关系较为密切，而第三主成分$Z_{3}$与原始变量$X_{6}$之间的关系较为密切。

此外，结果中还有h2和u2以及com，它们的解释如下：
h2栏指成分公因子方差，主成分对每个变量的方差解释度；
u2栏指成分唯一性，就是方差不能被主成分解释的比例。显然u2=1-h2；

主成分旋转

当我们提取的主成分不止一个时，使用主成分旋转会使各主成分所代表的实际意义更容易被解释。主要的旋转方法包括以下两种：

正交旋转：选择的成分保持不相关
斜交旋转：选择的成分保持相关
在本案例中，我们选择使用正交旋转中的方差极大旋转，它试图对载荷阵的列进行去噪，使得每个成分只由一组有限的变量来解释（即载荷阵每列只有少数几个很大的载荷，其他都是很小的载荷）。

1
2
3

# varimax:方差极大旋转
raw_pca_xz <- principal(raw_pca,nfactors = 3,rotate = 'varimax')
raw_pca_xz

经过主成分旋转的三个主成分仍然不相关，对变量的解释性不变，这是因为变量的群组没有发生变化。另外，三个主成分旋转后的累积方差解释性没有变化（89%），变的只是各个主成分对方差的解释度（第一主成分从71%变为39%，第二主成分从10%变为30%，第三主成分从8%变为20%）。

获取主成分与原始变量的线性关系（保存在模型的weights部分）：

1	head(raw_pca_xz$weights)

这样，我们就可以得到主成分与原始变量之间的相关关系：

RC1 = -0.18X1 - 0.273X2 + 0.47X3 + …
RC2 =0.535X1 + 0859X2 - 0.067X3 + …
RC3 = 0.049X1 - 0.267X2 - 0.173X3 + …

代码总结与美化

上面的代码只是为了说明PCA的原理，在实际绘图中可以使用其他的R包来进行PCA图的生成，下面是一段生成PCA的代码：

## README
# 0. Set working directory 
rm(list=ls())
temp_path <- file.path("D:","FIGURE","PCA")
dir.create(temp_path,recursive = TRUE)
# dir.create() function need to add recursive = TRUE when create multi-level directory
setwd(temp_path)
getwd()
# 1. Generation test dataset
test_dataset <- matrix(nrow=100, ncol=10)
data.matrix <- test_dataset
colnames(data.matrix) <- c(
  paste("wt",1:5,sep=""),
  paste("ko",1:5,sep=""))
rownames(data.matrix) <- paste("gene", 1:100, sep="")
for (i in 1:100){
  wt.values <- rpois(5, lambda = sample(x=10:1000, size=1))
  ko.values <- rpois(5, lambda = sample(x=10:1000, size=1))
  
  data.matrix[i,] <- c(wt.values, ko.values)
}
head(data.matrix)
# If you have data for PCA analysis 
# Plaease Transform your data into type same to data.matrix
# 2. Calculate PCA
pca <- prcomp(t(data.matrix),scale=TRUE)
plot(pca)
pca.var <- pca$sdev^2
pca.var.per <- round(pca.var/sum(pca.var)*100,1)
# 3. Calcualte loading scores
loading_score <- pca$rotation[,1]
# prcomp() calcuate results inclding loading score, namely, rotation term
gene_scores <- abs(loading_score)
# Some numbers in loading _score is negative
# Use abs() function transform them into positive
gene_score_ranked <- sort(gene_scores, decreasing = TRUE)
# Sort all loading score after abs()
top_10_genes <- names(gene_score_ranked[1:10])
top_10_genes
# Obtain top10 genes in loading score
pca$rotation[top_10_genes,1]
# Examine top10 gene of loading score
# 3. Plot each component  for Scree plot
barplot(pca.var.per, 
        main="Scree Plot", 
        xlab="Principal Component", 
        ylab="Percent Variation")
# 4. ggplot2 foir PCA image
pca.data <- data.frame(Sample=rownames(pca$x),
                       X=pca$x[,1],
                       Y=pca$x[,2])
# one column with the sample ids
# Tow columns for the X and Y coordinates for each sample
pca.data
library(ggplot2)
ggplot(data=pca.data, aes(x=X, y=Y, label=Sample))+
  geom_text() +
  xlab(paste("PC1 - ", pca.var.per[1], "%", sep=""))+
  ylab(paste("PC2 - ", pca.var.per[2], "%", sep=""))+
  theme_bw()+
  ggtitle("My PCA Graph")
# 5. Save reulst
ggsave("PCA.pdf",
       device = "pdf",
       dpi = 300,
       limitsize = FALSE
       )

参考资料

生信笔记-RNA-Seq分析简介

发表于 2017-09-20 | 分类于生信工具

| 字数统计: 3,366 | 阅读时长 ≈ 12

这是对沈梦圆PPT的整理。是一篇非常好的关于RNA-seq数据分析的文章。

RNA-seq到底测的是什么？

mRNA在生物个体内RNA的组分中只占很小的一部分，rRNA占绝大多数。一般我们说RNA-seq指的都是mRNA-seq，后面的流程也都是主要针对mRNA-seq数据分析的。在科学家们的努力下，可以把那些非编码RNA提取出来建库，进行测序。
一个成功的RNA-seq研究，起决定性因素的是一个好的实验设计。还依赖于建库的类型、测序深度和设置适于的生物重复。并且尽量减少测序本身以外带来的数据误差。

真核生物与原核生物的mRNA结构差异

真核生物mRNA由5’端帽子结构、5’端非翻译区、翻译区、3’端聚腺苷酸尾巴构成。
原核生物mRNA无5’端帽子结构和3’端聚腺苷酸尾巴。

数据分析前工作

如下所示：

实验设计

需要注意的问题：

单端测序还是双端测序？
测序读长是多少？
是否建链特异性文库？
需要多少数据量？（测序深度）
设置多少个生物学重复比较合适？
如果我们做了生物重复还要做技术重复么？

文库构建

1.一般生物体中的的RNA中，rRNA占绝大多数，含量超过90%，而mRNA的含量在1-2%左右。对于真核生物，一般使用加poly(A)选择性富集mRNA或者而原核生物则是通过去除rRNA；
2.是否建stand-preserving库；
3.对于Illumina，测序插入片段一般小于500bp。确定合适长度的插入片段是后续测序和分析的关键；
4.单端还是双端测序毫无疑问的是，单端测序更便宜一些，如果你研究的某个物种的基因表达水平，并且它的转录组已经被注释很好了，单端测序产生的数据量一般是足够的了。双端测序呢，它的读长更长，更适合于那些没有被注释的转录组物种的研究，便于其转录本的从头拼接。

测序深度和重复数

测序深度和数据量不能一味加大。测序深度虽然可以提高基因定量和检测的敏感性（低丰度的基因），但是同时也会增加一些噪音和一些无用的转录本。
重复数，很重要。（举例子：比较两个班的语文成绩，抽取一个人代表一个班来比较，显然是不科学的。）增加重复数可以减少实验误差，对提高结果的可靠性，是非常有意义的。

误差分为技术误差和生物学差异。技术误差-可以通过选择最优化的实验测序程序；生物误差-三个生物学重复。
然后设定生物学重复对差异基因的检出率（真阳性率，TPR）的提高具有明显效果。上面说增加测序深度可以检测到低丰度基因，但是对任何样品来说的当测序深度增加再增加，它就会到达平台期。由于科研经费有限，无法无限制地增加样本数或数据量。
所以在生物学重复数和单个样本测序量上必须找到平衡点。在总数据量不变的情况下，将总数据量分配到更多的生物学重复样本中，差异分析结果的可靠性在不断提升。对于RNA-seq，生物学重复数的价值要大于单个样本测序量。但增加生物学重复的样本数，意味着要增加建库费用。因此，即使总数据不变，设置过多的生物学重复也是不合理的。
我们最终确定设置多少生物学重复还是需要看样本个体之间的差异大不大，这点我们一般都很清楚，在测序之前，如果你所研究的现象在两个实验样本之间差异很稳定的话，就可以少设置一些重复，差异不稳定的话有时候设置10个/20个都不够。具体问题具体分析.

测序深度（Sequencing depth），也叫乘数，指每个碱基被测序的平均次数，是用来衡量测序量的首要参数。研究表明，增加测序深度，测序量从1.6M条reads增加到20M条reads,（75bp）但到10M条reads时就已经达到平衡了，80%的基因转录本被检测到。在此基础上增加测序量，它们会比对到已经存在的转录本上。因此即使提高测序深度，低表达水平的基因的检测是比较困难的。并且提高测序深度确实能够增加基因差异表达的敏感度，但是并不能保证检测到的差异具有生物学意义。

直观一些说，如果某个基因在RNA-seq结果显示差异表达，但QPCR结果表明这个基因表达差异不显著，可以认为这个基因RNA-seq结果为假阳性；反之，这个结果就是真阳性。

生物学重复对差异表达分析的影响

在单样本测序量保持不变的情况下，随着生物学重复(n)的提高，差异分析的假阳性率（FP R）基本稳定，但真阳性率（TPR）在不断提高。也就是说提高生物学重复数，实验对差异基因的检测更加敏感，那些差异倍数较小或差异量较低的差异表达基因（此类基因的差异检测难度较大）能够更加容易被检测到。

判定差异分析结果可靠性的指标

假阳性与真阳性
假阳性率（FPR）：真实非差异表达的基因中，被错误判定为差异表达的比例，FPR越低越好。
真阳性率（TRP）：真实差异表达的基因中，能够正确判定为差异表达的比例，TRP越高越好。

提高生物学重复数，实验对差异基因的检验更加敏感。那些差异倍数较小或差异量较低的差异表达基因（此类基因的差异检测难度较大）能够更加容易被检测到。

在一定的生物学重复数（n）的情况下，随着单样本测序量（Depth）的提高（25% → 100%），真阳性率（TPR）都只有有限的提高（图1）。例如在n=3的情况下，单个样本的测序量从25%提高到100%，TPR仅仅从6.24%提高到8.95%。在表3中，如果Depth等于25%不变，当n从2提高到12，TPR的提高则是非常明显的。因此测序深度对结果改善效果不如增加生物学重复。

总数据量不变，生物学重复数与单样品测序量最佳组合
如果保持总测序量不变（即如果生物量重复数为n,则单个样品的测序量降低为1/n,总数据量为n*1/n=1,保持不变）。如图A,灰色实线代表不同的生物学重复数（n）和单样本数据量（1/n）组合的情况下，真阳性率（TPR）的变化。结果表明，随着n的提高，TPR率不断提高。例如n=2,TPR约为3%，如果n=6,TPR则提高到24.3%。

同时我们也可以对“单样本测序量对差异表达分析的影响”再进行深入观察。如果n保持不变，但单个样本的数据量不断降低，TPR的降低十分缓慢。例如，n=3,单个样本的数据量从100%降低到15%，TPR的值一直处于平台期，仅仅从9%降低到5%。但是不同的生物学重复数和单样本测序量的组合，对假阳性率（ FPR）的影响却较小。如图B，灰色实线代表不同生物学重复数（n）和单样本数据量（1/n）组合的情况下，真阳性率（FPR）的变化。虽然 n 从2 变化到 96，FPR 基本没有太大变化。

从图中我们很容易发现，基于负二项分布的差异分析检验（P value），FPR 对生物学重复数和单个样本数据量均不敏感，始终保持低于 0.1%水平。或者说，这个算法对 FPR 的控制还是非常理想的。

讨论

随着测序单价的下降，目前市场上 RNA-seq 类项目的单样本测序量正在不断提高。以 2G，PE100 测序的表达谱项目为例，其对应的测序量为 20M 条 reads。如果一条长度为 1kbp 的低表达基因的表达量为 RPKM=0.5，其理论上可以检测到的 reads 数为 20×0.5=10。所以低丰度基因的检测，对 RNA-seq 这个技术来说并非最大问题。

第二个问题“转录本表达量的高低变化”比“转录本的有无”更具有普遍的生物学意义。虽然个别基因的表达量变化程度，可以使用 Qpcr 来验证。但我们往往也使用所有差异基因来统计某些规律。例如使用差异基因的 pathway 富集分析来寻找与性状相关的 pathway。如果在全局水平的差异基因集并不可靠，那么 pathway富集分析得出的结论的可靠性自然也受到影响。而全局水平的差异基因数量巨大，是难以使用 Qpcr 验证的。因此，定量以及差异分析的准确性是在 RNA-seq 中更值得关心的问题。

测序设计

RNA-seq文库的制备和测序过程：RNA碎裂，cDNA合成，接头连接，PCR扩增，加标签（多样品混合测序），上泳池测序;

如何减少误差：

使用末端带随机核酸的接头或者使用化学碎裂法代替Rnase III碎裂法；
不同批次实验或者不同runs。
a. 如果样品太多在一个批次或者一个run跑不完，为了避免技术误差造成太大的实验误差，要把样品随机分配到每个批次或runs中;(到底怎么设计，我们要讨论一下！！)
b. 如果你的样品是多样品混合测序，每个样品要单独加上标签，每个lanes要保证足够的测序深度，为了保证所有的样品在每个lane中都有。如果送给公司去做的话，我们要选择建库水平好些的，并且要求他们这么去做，应该会更好。

质量控制

重复数：

技术重复（spearman秩相关系数R²>0.9）;
生物重复（主成分分析PCA）

原始数据的质量控制：

原始数据回来后，你做完备份以后，做的第一件事情就是看看数据质量如何，一般来自llumina测序平台用软件FastQC看；其他平台的数据用软件NGSQC。一般会有原始数据的序列质量，GC含量，存在的接头以及K-mers子串图并且重复序列太多的reads。并且reads 3‘末端的质量低于前段，原因是随着测序读长的增加，酶活性下降，荧光强度也在下降，因此测序数据质量逐渐降低乃是自然趋势。常用的数据过滤的软件有FASTX-Toolkit and Trimmomatic，其他还有许多，你也可以自己写代码处理数据。