目标
在UCSC下载hg19参考基因组,群主博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,例如TP53,EGFR等等。 截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的GTF,也导入IGV看看,截图基因结构。了解IGV常识。 来源于生信技能树:http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost
什么是参考基因组?
测序得到的是几百bp的短read, 相当于把拼图打散了给你。如果没有参考基因组,从头(de novo)组装等于是重走人类基因组计划的老路,也就是打散了拼图,却不告诉你原来是什么样子,那么任务将会及其艰巨。还好人类基因组已经组装好了,我们只需要把我们测得序列回贴(mapping)回去,毕竟人与人之间的差距只有不到1%差异, 允许mismatch就行。
参考基因组对新手来说,是一个很大的坑,hg19、GRCH37、 ensembl 75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC及ENSEMBL各自发布的基因组信息而已。有一些参考基因组比较小众,存储的序列也不一样,比如BGI做的炎黄基因组,还有DNA双螺旋结构提出者沃森(Watson)的基因组,还有2016年发表在nature上面的号称最完善的韩国人做的基因组。前期我们先不考虑这些小众基因组,主要就下载hg19和hg38,都是UCSC提供的,虽然hg38相比hg19来说,做了很多改进,优点也不少,但因为目前为止很多注释信息都是针对于hg19的坐标系统来的,我们就都下载了,正好自己探究一下。也顺便下载一个小鼠的最新版参考基因组吧,反正比对也就是睡个觉的功夫,顺便分析一下结果,看看比对率是不是很低。
参考基因组hg19下载
这里下载的是USCS版本的参考基因组。
下载USCS版本的hg19
|
|
由于下载速度慢,我就改用迅雷下载了,将所有染色体信息整合后,得到新的hg19.fa文件。
什么是参考基因组注释?
参考基因组是一部无字天书,要想解读书中的内容,需要额外的注释信息协助。因此下载完参考基因后,就是去gencode数据库(http://www.gencodegenes.org/)下载基因组注释文件。简单来讲注释文件就是基因组的说明书,告诉我们哪些序列是编码蛋白的基因,哪些是非编码基因,外显子、内含子、UTR等的位置等等。注释文件在以上三个提供参考基因组的网站中都有提供,比如Ensemble。但是现在最权威的人类和小鼠基因组的注释还属Gencode数据库。
参考基因组注释下载
进入人和小鼠基因组注释信息官网GENCODE,选择data->human->GRCh37-mapped Releases,下载最新第26版本的hg19人类基因组注释信息。点击进入下载页面,将GTF和GFF3全部下载,解压,如下所示:
可以看到已经有新的参考基因组注释了,不过现在还用老的,跟参考资料中的保持一致一样,单击26,进入下载界面,下载第一行的注释信息,即Comprehensive gene annotaton中的GTF和GFF3,如下所示:
GFF文件与GTF文件的区别
GFF全称为general feature format,这种格式主要是用来注释基因组。
GTF全称为gene transfer format,主要是用来对基因进行注释。
GFF
GFF文件是一种用来描述基因组特征的文件,现在我们所使用的大部分都是第三版)(GFF3)。GFF允许使用#作为注释符号,例如很多GFF文件都会使用如下的两行来表明其版本其创建日期:
GFF文件每一列所代表的含义后面表格中有,但请注意,它的第3列feature type是不受约束的,你可以使用任意的名称。我们需要注意的是GFF文件的第9列,从第二版开始(GFF2),所有的属性都以标签=值的方式呈现,各个属性之间以;作为分隔符
在最新版本的GFF文件中(GFF3),有一些是已经预先定义的属性特征,并且这些特征往往还有特殊的含义:ID这个标签实在各行都要有的;另外有一个Parent的属性,它表明了当前的特征是Parent特征的子集。
|
|
GTF
当前所广泛使用的GTF格式为第二版(GTF2),它主要是用来描述基因的注释。GTF格式有两个硬性标准:
- 根据所使用的软件的不同,feature types是必须注明的。
- 第9列必须以gene_id以及transcript_id开头,GTF文件的第9列同GFF文件不同,虽然同样是标签与值配对的情况,但标签与值之间以空格分开,且每个特征之后都要有分号;(包括最后一个特征)
列|GTF2|GFF3
|:-:|:-:|:-:|
|1.reference sequence name|same|same|
|2.annotation source |same| same|
|3.feature type| feature requirements depend on software| can be anything|
|4.start coordinate| same| same|
|5. end coordinate |same |same|
|6.score |not used |optional
|7.strand |same| same|
|8.frame |same |same|
|9.attributes |空格分隔|=分隔|
IGV下载及使用
Integrative Genomics Viewer(IGV)是一种探索大型综合基因组数据的高性能交互式可视化工具。它支持各种各样的数据类型,包括基于芯片测序、二代测序数据和基因组注释数据等。
IGV下载
|
|
如下所示:
- 将gff3进行排序,选择Tools-Run igvtools,进入以下igvtools窗口:
- 获得sorted文件:command选择sort,再选择输入的注释文件,点击Run,就可以生成sorted.gff3文件。
- 通过file->load from file…选择sorted文件,打开。选择区域的大小,来看某些基因的信息,蓝色的粗线条就是代表基因。说到底,IGV就是一个将基因组及其注释信息可视化的工具。
- 载入基因组,选择Genome菜单,load我们之前已经下载好的hg19.fa基因组。