GSEA图
这篇教程翻译自生信博客DAVE TANGE’S BLOG(https://davetang.org/muse/)上的一篇教程,参考资料中已经列出了地址。
fgsea
这个包用于做GSEA分析,先来看一下使用这个包做的图,如下所示:
现在简单解释一下这个图形:
x轴——排序后的基因列表L
位置对应的坐标,也就是我们自己通过RNA-seq,芯片,qPCR等手段获得的基因表达值倍数变化,或p值排序,总之,这是一个有序列表。
垂直的黑色细胞——上图中类似条形码的图形,这是指的是某一个基因集S
中基因对应于L
基因中,的位置,在上图中,这个基因集是细胞周期(Cell Cycle),明天看到S
中的成员在L
的左侧比较密集。
y轴——富集分布,从上面我们可以看到,细胞周期(Cell Cycle)这个基因集在左侧富集,也就是绿色曲线表示的位置。
fgsea使用
安装
先安装fgsea
包,如下所示:
|
|
数据
fgsea
包中内置的有数据集examplePathways
,如下所示:
|
|
运行结果如下所示:
|
|
分析
现在我们使用上面的数据进行GSEA分析,进行GSEA分析时,我们的通路文件(也就是GSEA官网中的GMT文件,对应的就是基因集S
)储存在pathways
参数中,用户自己的数据(排过序的数据)放在stats
数据集中,剩下的参数不用管,如下所示:
|
|
分析的结果fgseaRes是一个data.table
格式的文件,使用plotEnrichment
函数可以绘制出GSEA分析的结果,如下所示:
结果如下所示:
|
|
可以画出具体的某条通路,如下所示;
|
|
还可以在一张图中绘制出前10个富集通路,以及后10个富集通路,一共20个,如下所示:
|
|
Reactome
也可以使用Reactome通路来进行GSEA分析,此时需要安装reactome.db
包,这个包很大,600多M,下载的时间很长,安装过程如下所示:
|
|
结果如下所示:
|
|
Leading edge
在GSEA分析中,我们通常会提取那些构成高得分的核心基因。我们对高得分的核心基因的定义就是,基因集S
中位于排序基因列表L
位置中的得分最大处之前或之后的那些基因集(也就是GSEA结果中绿色曲线最高点的前面或后面)。
前面我们注意到,GSEA分析的结果中有1列被命名为leadingEdge
。这一列包含了高得分的基因。我们使用Reactome通路的富集结果来提取这些基因,如下所示:
|
|
结果如下所示:
|
|
总结
GSEA是于2005年首次提出来的,现在已经成了基因表达分析中的常规分析手段,它不同于GO分析,GO分析只关注差异基因,而GSEA分析则关注所有的基因。fgsea
包可以使用预先排列好的基因一R中进行GSEA分析。p值的计算结果是基于置换检验(permutation test),这种方法并不是十分精我,因为它忽略了基因之间的相关性,有可能会导致假阳性。但是,在这种方法在研究上调与上调基因方面还是很有用的。即使你计算出的GSEA结果中,p值大于0.05,但是是也可以参考leading edge基因集,为你的实验进行指导。
案例分析
作者提供了用于生成类似于exampleRanks文件的R脚本,不过使用的GEO的数据,平时自己利用fgsea
包进行GSEA分析时,生成就好,现在看一下如何将GEO的数据生成类似于exampleRanks文件的排序信息,如下所示:
|
|
结果如下所示:
|
|
现在绘制一下上述数据中6个上升与6个下降的基因热图:
|
|