转录组学习笔记02-读文献下载测序数据

任务目标:

本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034 很容易在文章里面找到数据地址GSE81916 这样就可以下载sra。

文章主要内容

测序物种

人类,小鼠;

实验类型

高通量测序

摘要

pre-mRNA的可变剪切与高等生物基因表达的复杂性有关,但是可变剪切位点的选择却未研究清楚。作者在以前的研究中发现了一个染色质相关的蛋白AKAP95(AKAP8)在强化染色质转录方向有着明显的影响。在本文的研究中,APAKP95能与许多涉及转录和RNA加工的因子相互作用,调节pre-mRNA的剪接。AKAP95直接促进内源基因FAM126A的特异性外显子的体外剪接和包含。 AKAP95N-末端富含YG的结构域在与RNA加工因子(例如hnRNP蛋白)结合的过程中有着重要的作用,它的锌指结构域对于pre-mRNA的结合至关重要。基因组结合的分析显示,AKAP95优先结合人类转录组中大量pre-mRNA的近端内含子区域,AKAP95的敲除能导致多外显子增加的减少。AKAP95还可以选择性地协调hnRNP H/ F和U蛋白来调节可变剪接事件。进一步表明,AKAP95与自身直接相互作用。总之,实验的研究结果表明,AKAP95是pre-mRNA剪接的新型,并且是正向调节因子,它有可能是一个转录和剪接调节整合子,并且实验提出了一个模型,即AKAP95通过支架RNA和RNA加工因子调节pre-mRNA剪接,并促进剪接位点之间的信息交流。

原英文摘要:

Alternative splicing of pre-mRNAs significantly contributes to the complexity of gene expression in higher organisms, but the regulation of the splice site selection remains incompletely understood. We have previously demonstrated that a chromatin-associated protein, AKAP95 (AKAP8), has a remarkable activity in enhancing chromatin transcription. In this study, we have shown that AKAP95 physically interacts with many factors involved in transcription and RNA processing, and functionally regulates pre-mRNA splicing. AKAP95 directly promotes splicing in vitro and the inclusion of a specific exon of an endogenous gene FAM126A. The N-terminal YG-rich domain of AKAP95 is important for its binding to RNA processing factors including selective groups of hnRNP proteins, and its zinc finger domains are critical for pre-mRNA binding. Genome-wide binding assays revealed that AKAP95 bound preferentially to proximal intronic regions on a large number of pre-mRNAs in human transcriptome, and AKAP95 depletion predominantly resulted in reduced inclusion of many exons. AKAP95 also selectively coordinates with hnRNP H/F and U proteins in regulating alternative splicing events. We have further shown that AKAP95 directly interacts with itself. Taken together, our results establish AKAP95 as a novel and mostly positive regulator of pre-mRNA splicing and a possible integrator of transcription and splicing regulation, and support a model that AKAP95 regulates pre-mRNA splicing via through scaffolding RNAs and RNA processing factors and facilitating the splice site communication.

样本信息

样本1-8是RIP-seq的数据,研究的是AKAP95与转录组的结合,样本9-15是mRNA-seq的数据,研究的是在293细胞或小鼠ES细胞中敲减了AKAP95的数据(其中9-11是293细胞的数据,有3个,12-15是小鼠ES细胞的数据,有4个)。

文章思路

1.AKAP95的N末端区域参与该蛋白与RNA加工因子的结合,这些RNA加工因子包括hnRNPs。
2.APAK95与许多RNA加工因子的结合暗示了AKAP95在RNA加工方面发挥了作用,这些作用包括pre-RNA剪接。实验结果表明,AKAP95直接调控minigene pre-mRNA剪接,AKAP95的N末端与ZFs是其功能发挥的结构域。
3.为了寻找AKAP95剪接调控的内源靶点。经过一系列实验表明:AKAP95和hnRNP F参与调节FAM126A外显子11的剪接(实验中提到了敲减AKAP95后,FAM126A的外显子11会被跳过,而在野生型中则正常剪接)。
4.利用深度测序的方法寻的找内源AKAP95与人类转录组的结合。测序手段是RIP,其结果是发现AKAp95能与pre-mRNAs结合。
5. (核心,也就是这个笔记学习的部分)问题:评估AKAP95对可变剪接的全局影响,实验手段是:①人类294细胞和小鼠ES细胞中敲减了AKAP95基因->②RNA-seq->③DEXseq分析。AKAP95的敲减会导致更多的外显子使用(exon)减少,这表明AKAP95会全局促进外显子增加(exon inclusion)。看文献我的理解是,有了AKAP95基因后,该基因的表达产物会导致FAM126A的外显子10,11,12连接起来,如果敲低了AKAP95这个基因,FAM126A的外显子10与12连接起来,会跳过外显子11。因此AKAP95的功能就在于调节FAM126A的可变剪接。exon inclusion我的理解是,外显子的利用,以此文献为例说明,exon inclusion指的就是FAM126A的外显子11的利用,AKAP95会促进AKAP95外显子11的利用,如果没有AKAP95,则FAM126A的外显子10就会跳过外显子11,与外显子12连接起来,exon inclusion就降低。
6.后续的实验作者又研究了AKA95的一些作用机理,略。

文章结果

a.b图

a图是火山图。火山图常用于展示显著差异表达的基因,这里有两个关键词:显著是指P<0.05,差异表达一般我们按照fold change(倍数变化)="">=2.0作为标准。
当我们拿到基因表达的P值和倍数后,为了用火山图展示结果,一般需要把倍数进行Log2的转化(下图a的x轴),比如某基因在实验组表达水平是对照组的4倍,log2(4)=2,同样的如果是1/4,也就是0.25,转换后的结果就是-2。
P值进行-log10的转化,-log10(0.01)约等于2,由于P值越小表示越显著,所以我们进行-log10(P value)转化后,转化值越大表示差异约显著,比如-log10(0.001)=3 > -log10(0.01)=2 > -log10(0.05)=1.30(下图a的y轴)。

火山图有三种颜色,黄色与红色都是Padj小于0.01的基因(P值经过了FDR校正,即false discovery rate)。红色又表示基因变化超过2倍的基因。b图是饼图,它表示外显子使用(exon usage)的增加与降低数目。

c.d图

e图

f图

文章所用的生信方法

在后文的Bioinformatic analyses部分

比对

比对软件:TopHat (v2.0.13)
参考基因组:human reference genome (GRCh37/hg19)
GTF文件: GTF version GRCh37.70
只保留MQ >30的map结果
Picard-tools (v1.126): 计算平均插入大小(mean insert sizes)和标准差
read count: 软件:HTSeq v0.6.0

差异表达分析

DESeq (v3.0)
DEXSeq (v3.1)

富集分析

GO分析:DAVID (http://david.ncifcrf.gov/)

数据下载

进入NCBI的GEO数据库https://www.ncbi.nlm.nih.gov/geo/
搜索GSE81916,如下所示:

输入GSE81916,单击Search即可,见到数据说明及下载页面,如下所示:

下面有一段话是对这些数据的描述,即:

>

Overall design Samples 1-8 are RNA-immunoprecipitation > (RIP)-seq to determine AKAP95 binding to the
transcriptome. Samples 9-15 are mRNA-seq to determine
effect of AKAP95 knockdown in human 293 cells (9-11) or > mouse ES cells (12-15).

大意就是样本9-15是mRNA-seq的数据,而样本1-8是RNA免疫组化的数据。我们只需要9-15的数据,单击红框链接即可进入数据下载页面,如下所示:

单击第一行的SRP/SRP075/SRP075747右侧的ftp,即可进入数据下载界面:

现在下载SRR3589956-SRR3589962的7个数据(3个人类,4个小鼠),命令如下:

此命令是将数据下载到disk2/sra的目录下,

1
2
cd ~/disk2 && mkdir sra
for ((i=56;i<=62;i=i++));do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR35899$i/SRR35899$i.sra ;done

当时觉得数据下载慢,我就直接用迅雷下载了,数据下载后如下所示:

参考资料

  1. 浙大植物学小白的转录组笔记
  2. 转录组入门(2):读文章拿到测序数据
  3. 如何看懂和绘制火山图?
  4. 人气推文p值、E值、FDR、q值…你晕菜了吗?续集来啦!
  5. 揭秘:FDR背后的真相