转录组学习笔记04-了解参考基因组及基因注释

目标

在UCSC下载hg19参考基因组,群主博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,例如TP53,EGFR等等。 截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的GTF,也导入IGV看看,截图基因结构。了解IGV常识。 来源于生信技能树:http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost

什么是参考基因组?

测序得到的是几百bp的短read, 相当于把拼图打散了给你。如果没有参考基因组,从头(de novo)组装等于是重走人类基因组计划的老路,也就是打散了拼图,却不告诉你原来是什么样子,那么任务将会及其艰巨。还好人类基因组已经组装好了,我们只需要把我们测得序列回贴(mapping)回去,毕竟人与人之间的差距只有不到1%差异, 允许mismatch就行。

参考基因组对新手来说,是一个很大的坑,hg19、GRCH37、 ensembl 75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC及ENSEMBL各自发布的基因组信息而已。有一些参考基因组比较小众,存储的序列也不一样,比如BGI做的炎黄基因组,还有DNA双螺旋结构提出者沃森(Watson)的基因组,还有2016年发表在nature上面的号称最完善的韩国人做的基因组。前期我们先不考虑这些小众基因组,主要就下载hg19和hg38,都是UCSC提供的,虽然hg38相比hg19来说,做了很多改进,优点也不少,但因为目前为止很多注释信息都是针对于hg19的坐标系统来的,我们就都下载了,正好自己探究一下。也顺便下载一个小鼠的最新版参考基因组吧,反正比对也就是睡个觉的功夫,顺便分析一下结果,看看比对率是不是很低。

参考基因组hg19下载

这里下载的是USCS版本的参考基因组。

下载USCS版本的hg19

1
2
3
4
5
6
7
8
9
mkdir -p ~/disk2/data/reference/genome
cd ~/disk2/data/reference/genome
nohup wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
# 解压,得到所有染色体的信息
tar -zxvf chromFa.tar.gz
# 将所有的染色体信息整合在一起,重定向写入hg19.fa文件,得到参考基因组
cat *.fa > hg19.fa
# 将多余的染色体信息文件删除,节省空间
$ rm -rf chr*

由于下载速度慢,我就改用迅雷下载了,将所有染色体信息整合后,得到新的hg19.fa文件。

什么是参考基因组注释?

参考基因组是一部无字天书,要想解读书中的内容,需要额外的注释信息协助。因此下载完参考基因后,就是去gencode数据库(http://www.gencodegenes.org/)下载基因组注释文件。简单来讲注释文件就是基因组的说明书,告诉我们哪些序列是编码蛋白的基因,哪些是非编码基因,外显子、内含子、UTR等的位置等等。注释文件在以上三个提供参考基因组的网站中都有提供,比如Ensemble。但是现在最权威的人类和小鼠基因组的注释还属Gencode数据库。

参考基因组注释下载

进入人和小鼠基因组注释信息官网GENCODE,选择data->human->GRCh37-mapped Releases,下载最新第26版本的hg19人类基因组注释信息。点击进入下载页面,将GTF和GFF3全部下载,解压,如下所示:

可以看到已经有新的参考基因组注释了,不过现在还用老的,跟参考资料中的保持一致一样,单击26,进入下载界面,下载第一行的注释信息,即Comprehensive gene annotaton中的GTF和GFF3,如下所示:

GFF文件与GTF文件的区别

GFF全称为general feature format,这种格式主要是用来注释基因组。
GTF全称为gene transfer format,主要是用来对基因进行注释。

GFF

GFF文件是一种用来描述基因组特征的文件,现在我们所使用的大部分都是第三版)(GFF3)。GFF允许使用#作为注释符号,例如很多GFF文件都会使用如下的两行来表明其版本其创建日期:

1
2
##gff-version 2
##created 11/11/11

GFF文件每一列所代表的含义后面表格中有,但请注意,它的第3列feature type是不受约束的,你可以使用任意的名称。我们需要注意的是GFF文件的第9列,从第二版开始(GFF2),所有的属性都以标签=值的方式呈现,各个属性之间以;作为分隔符

1
ID=geneAExon1;Name=geneA;Parent=geneA;Organism=human

在最新版本的GFF文件中(GFF3),有一些是已经预先定义的属性特征,并且这些特征往往还有特殊的含义:ID这个标签实在各行都要有的;另外有一个Parent的属性,它表明了当前的特征是Parent特征的子集。

1
2
3
Contig01 PFAM gene 501 750 . + 0 ID=geneA;Name=geneA
Contig01 PFAM exon 501 650 . + 2 ID=exonA1;Parent=geneA
Contig01 PFAM exon 700 750 . + 2 ID=exonA2;Parent=geneA
GTF

当前所广泛使用的GTF格式为第二版(GTF2),它主要是用来描述基因的注释。GTF格式有两个硬性标准:

  • 根据所使用的软件的不同,feature types是必须注明的。
  • 第9列必须以gene_id以及transcript_id开头,GTF文件的第9列同GFF文件不同,虽然同样是标签与值配对的情况,但标签与值之间以空格分开,且每个特征之后都要有分号;(包括最后一个特征)

列|GTF2|GFF3

|:-:|:-:|:-:|
|1.reference sequence name|same|same|
|2.annotation source |same| same|
|3.feature type| feature requirements depend on software| can be anything|
|4.start coordinate| same| same|
|5. end coordinate |same |same|
|6.score |not used |optional
|7.strand |same| same|
|8.frame |same |same|
|9.attributes |空格分隔|=分隔|

IGV下载及使用

Integrative Genomics Viewer(IGV)是一种探索大型综合基因组数据的高性能交互式可视化工具。它支持各种各样的数据类型,包括基于芯片测序、二代测序数据和基因组注释数据等。

IGV下载

1
2
3
4
5
6
7
8
wget http://data.broadinstitute.org/igv/projects/downloads/IGV_2.3.97.zip
unzip IGV_2.3.97.zip && mv IGV_2.3.97 ~/biosoft
# 添加环境变量
vim ~/.bashrc
PATH=$PATH:~/biosoft/IGV_2.3.97
source ~/.bashrc
# 运行IGV,Linux直接运行igv.sh可以开启IGV窗口,但是会比较慢,要耐心等待。
igv.sh

如下所示:

  1. 将gff3进行排序,选择Tools-Run igvtools,进入以下igvtools窗口:
  2. 获得sorted文件:command选择sort,再选择输入的注释文件,点击Run,就可以生成sorted.gff3文件。
  3. 通过file->load from file…选择sorted文件,打开。选择区域的大小,来看某些基因的信息,蓝色的粗线条就是代表基因。说到底,IGV就是一个将基因组及其注释信息可视化的工具。
  4. 载入基因组,选择Genome菜单,load我们之前已经下载好的hg19.fa基因组。

参考资料

  1. 西瓜要吃我:GTF/GFF文件的差异及其相互转换
  2. 从零开始学转录组:了解参考基因组及基因注释
  3. 【直播】我的基因组(五):测试数据及参考基因组的准备
  4. 如何下载注释文件并查看基因结构