转录组学习笔记04-了解参考基因组及基因注释

目标

在UCSC下载hg19参考基因组，群主博客有详细说明，从gencode数据库下载基因注释文件，并且用IGV去查看你感兴趣的基因的结构，例如TP53，EGFR等等。截图几个基因的IGV可视化结构！还可以下载ENSEMBL，NCBI的GTF，也导入IGV看看，截图基因结构。了解IGV常识。来源于生信技能树：http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost

什么是参考基因组？

测序得到的是几百bp的短read，相当于把拼图打散了给你。如果没有参考基因组，从头(de novo)组装等于是重走人类基因组计划的老路，也就是打散了拼图，却不告诉你原来是什么样子，那么任务将会及其艰巨。还好人类基因组已经组装好了，我们只需要把我们测得序列回贴（mapping)回去，毕竟人与人之间的差距只有不到1%差异, 允许mismatch就行。

参考基因组对新手来说，是一个很大的坑，hg19、GRCH37、 ensembl 75这3种基因组版本应该是大家见得比较多的了，国际通用的人类参考基因组，其实他们储存的是同样的fasta序列，只是分别对应着三种国际生物信息学数据库资源收集存储单位，即NCBI，UCSC及ENSEMBL各自发布的基因组信息而已。有一些参考基因组比较小众，存储的序列也不一样，比如BGI做的炎黄基因组，还有DNA双螺旋结构提出者沃森（Watson）的基因组，还有2016年发表在nature上面的号称最完善的韩国人做的基因组。前期我们先不考虑这些小众基因组，主要就下载hg19和hg38，都是UCSC提供的，虽然hg38相比hg19来说，做了很多改进，优点也不少，但因为目前为止很多注释信息都是针对于hg19的坐标系统来的，我们就都下载了，正好自己探究一下。也顺便下载一个小鼠的最新版参考基因组吧，反正比对也就是睡个觉的功夫，顺便分析一下结果，看看比对率是不是很低。

参考基因组hg19下载

这里下载的是USCS版本的参考基因组。

下载USCS版本的hg19

mkdir -p ~/disk2/data/reference/genome
cd ~/disk2/data/reference/genome
nohup wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
# 解压，得到所有染色体的信息
tar -zxvf chromFa.tar.gz
# 将所有的染色体信息整合在一起，重定向写入hg19.fa文件，得到参考基因组
cat *.fa > hg19.fa
# 将多余的染色体信息文件删除，节省空间
$ rm -rf chr*

由于下载速度慢，我就改用迅雷下载了，将所有染色体信息整合后，得到新的hg19.fa文件。

什么是参考基因组注释？

参考基因组是一部无字天书，要想解读书中的内容，需要额外的注释信息协助。因此下载完参考基因后，就是去gencode数据库（http://www.gencodegenes.org/)下载基因组注释文件。简单来讲注释文件就是基因组的说明书，告诉我们哪些序列是编码蛋白的基因，哪些是非编码基因，外显子、内含子、UTR等的位置等等。注释文件在以上三个提供参考基因组的网站中都有提供，比如Ensemble。但是现在最权威的人类和小鼠基因组的注释还属Gencode数据库。

参考基因组注释下载

进入人和小鼠基因组注释信息官网GENCODE，选择data->human->GRCh37-mapped Releases，下载最新第26版本的hg19人类基因组注释信息。点击进入下载页面，将GTF和GFF3全部下载，解压，如下所示：

可以看到已经有新的参考基因组注释了，不过现在还用老的，跟参考资料中的保持一致一样，单击26，进入下载界面，下载第一行的注释信息，即Comprehensive gene annotaton中的GTF和GFF3，如下所示：

GFF文件与GTF文件的区别

GFF全称为general feature format，这种格式主要是用来注释基因组。
GTF全称为gene transfer format，主要是用来对基因进行注释。

GFF

GFF文件是一种用来描述基因组特征的文件，现在我们所使用的大部分都是第三版）（GFF3）。GFF允许使用#作为注释符号，例如很多GFF文件都会使用如下的两行来表明其版本其创建日期：

1 2	##gff-version 2 ##created 11/11/11

GFF文件每一列所代表的含义后面表格中有，但请注意，它的第3列feature type是不受约束的，你可以使用任意的名称。我们需要注意的是GFF文件的第9列，从第二版开始(GFF2)，所有的属性都以标签=值的方式呈现，各个属性之间以;作为分隔符

1	ID=geneAExon1;Name=geneA;Parent=geneA;Organism=human

在最新版本的GFF文件中(GFF3)，有一些是已经预先定义的属性特征，并且这些特征往往还有特殊的含义：ID这个标签实在各行都要有的；另外有一个Parent的属性，它表明了当前的特征是Parent特征的子集。

1
2
3

Contig01  PFAM  gene  501  750  .  +  0  ID=geneA;Name=geneA
Contig01  PFAM  exon  501  650  .  +  2  ID=exonA1;Parent=geneA
Contig01  PFAM  exon  700  750  .  +  2  ID=exonA2;Parent=geneA

GTF

当前所广泛使用的GTF格式为第二版(GTF2)，它主要是用来描述基因的注释。GTF格式有两个硬性标准：

根据所使用的软件的不同，feature types是必须注明的。
第9列必须以gene_id以及transcript_id开头,GTF文件的第9列同GFF文件不同，虽然同样是标签与值配对的情况，但标签与值之间以空格分开，且每个特征之后都要有分号;（包括最后一个特征）

列|GTF2|GFF3

IGV下载及使用

Integrative Genomics Viewer(IGV)是一种探索大型综合基因组数据的高性能交互式可视化工具。它支持各种各样的数据类型，包括基于芯片测序、二代测序数据和基因组注释数据等。

IGV下载

wget http://data.broadinstitute.org/igv/projects/downloads/IGV_2.3.97.zip
unzip IGV_2.3.97.zip && mv IGV_2.3.97 ~/biosoft
# 添加环境变量
vim ~/.bashrc
PATH=$PATH:~/biosoft/IGV_2.3.97
source ~/.bashrc
# 运行IGV，Linux直接运行igv.sh可以开启IGV窗口，但是会比较慢，要耐心等待。
igv.sh

如下所示：

将gff3进行排序，选择Tools-Run igvtools，进入以下igvtools窗口：
获得sorted文件：command选择sort，再选择输入的注释文件，点击Run，就可以生成sorted.gff3文件。
通过file->load from file…选择sorted文件，打开。选择区域的大小，来看某些基因的信息，蓝色的粗线条就是代表基因。说到底，IGV就是一个将基因组及其注释信息可视化的工具。
载入基因组，选择Genome菜单，load我们之前已经下载好的hg19.fa基因组。