RNA-seq结果解读

测序质量过滤统计表

样本测序数据质量的评估标准常规包括:样本原始测序数据的Q20百分比需超过90%,样本原始测序数据过滤比例(Clean Data Rate)大于80%。

数据质量过滤表的表头包括以下部分:

Samples:样品名称;

  • RawDataSize(bp):样本原始测序数据的总碱基数;
  • RawReads :样本原始测序数据的pair-end Reads总数;
  • CleanDataSize(bp):样本原始测序数据过滤后的总碱基数;
  • CleanReads:样本原始测序数据过滤后的pair-end Reads总数;
  • CleanReadsRatio(%):样本原始测序数据过滤比例;
  • RawReadsQ20(%):样本原始测序数据中测序质量值大于或等于20的碱基所占百分比。

RNA-seq的比对结果中还包括与参考基因组的比对。

通过样本来源的物种基因组参考序列比对,可判断样本测序数据的利用效率,也可间接推测建库实验过程是否存在污染,值得注意的是基因组参考序列比对效率除了受测序质量影响外,还与指定的参考基因组组装的优劣、参考基因组与测序样品的生物学分类关系远近有关。通常样本可用读长数据测比对到参考基因组的比例大于80 %,即TotalMappedRate(%) ≥ 80 %。

数据比对参考基因组统计表的表头包括以下部分:

Samples:样品名称;
Total Reads:样本过滤后的测序reads数目,代表样本可用读长的数据量;
Total Mapped Reads(%):样本可用读长数据比对到参考基因组上的比例;
Unique Match Reads(%):样本可用读长数据比对到参考基因组唯一位置的比例;
Multi-position Match Reads(%):样本可用读长数据比对到参考基因组多个位置的比例;
Total Unmapped Reads(%):样本可用读长数据没有比对到参考基因组的比例。

rRNA数据统计表

过滤rRNA的样本读长数据,将去除rRNA读长数据的样本可用数据(rRNA-Clean Reads)用于后续分析,表头包括以下部分:

Samples:样品名称;
TotalReads:样本过滤后的测序reads数目,代表样本可用的数据量;
rRNA-CleanReads:去除了rRNA数据后的样本可用数据;
rRNA-CleanProportion:去除rRNA数据后样本可用数据占比。

参考基因集比对结果

 参考基因集为某物种已注释基因的mRNA序列数据集合,将样本可用读长数据与样本物种参考基因集比对,可获得样本测序数据的基因表达信息。影响样品数据比对效率比例的因素包括:物种参考基因转录本的内含子序列、rRNA、线粒体RNA、非编码RNA等序列信息,而且样品质量、参考基因组注释不完善等因素也会影响样品数据比对到参考基因集的比例。
  通常样本可用读长数据测比对到参考基因数据集的比例大于40%,即表5中的TotalMappedRate(%) ≥ 40%。

Samples:样品名称;
Total Mapped Reads(%):比对到参考基因集上的Reads在Clean reads中占的百分比;
Unique Match Reads (%):比对到参考基因集唯一位置的Reads在Clean reads中占的百分比;
Multi-position Match Reads(%):比对到参考基因集多个位置的Reads在Clean reads中的百分比;
Total Unmapped Reads(%):没有比对到参考基因集的Reads在Clean Reads中的百分比。

3.4. 基因表达量标准化

  为了消除样本测序数据量、基因序列长度等差异引起的基因表达量统计偏差,采用FPKM(Fragments Per Kilobase of exon model per Million mapped fragments)方法对样本基因表达量进行标准化,FPKM计算方法见注释5.2.4。
  采用小提琴图(Violin Plot)绘制样本基因表达谱标准化数据的分布情况),小提琴形状可反映出样本中基因表达量集中的区域,小提琴图不仅可以查看单个样品基因表达水平的离散程度,还可以直观地比较不同样品的整体基因表达水平。由于篇幅限制,当样本分组多于9个分组,图3.2 中仅展示了前9个分组样本的表达量分布情况,否则将会显示全部分组的表达量分布情况。其中对于每一个分组重复样本数大于6个时,图中只显示前6个重复样本的小提琴分布图。在报告结果目录:FPKM中存储了所有分组样本的表达谱分布图和数据

X轴表示样品的名称,Y轴标识基因的表达水平(Log2 FPKM)

差异基因表格的表头包括:

Gene.Symbol-基因名称;
Entrez.ID-Entrez名称;
baseMean-差异基因标准化后的表达量估计值;
log2FoldChange-FoldChange值log2转化后的值
lfcSE-log2FoldChange的标准误差
stat-log2FoldChangelfcSE
pvalue-Wald检验的P值
padj-BH矫正之后的pvalue