任务:
- 搞懂hisat2的用法。
- 直接去hisat2的主页下载index文件即可,然后把fastq格式的reads比对上去得到sam文件。
- 接着用samtools把它转为bam文件,并且排序(注意N和P两种排序区别)索引好,载入IGV,再截图几个基因看看。
- 顺便对bam文件进行简单QC,参考直播我的基因组系列。 来源于生信技能树:http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost
比对软件
HISAT2:http://ccb.jhu.edu/software/hisat2/index.shtml
参考资料:http://blog.biochen.com/archives/337
STAR:https://codeload.github.com/alexdobin/STAR/zip/master
参考资料:http://www.bio-info-trainee.com/727.html
TopHat:http://ccb.jhu.edu/software/tophat/index.shtml
参考资料:http://blog.sina.com.cn/s/blog_8808cae20101amqp.html
RapMap:https://github.com/COMBINE-lab/RapMap
参考:https://academic.oup.com/bioinformatics/article/32/12/i192/2288985/RapMap-a-rapid-sensitive-and-accurate-tool-for
CIDANE:http://ccb.jhu.edu/software/cidane/
参考文献:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-015-0865-0
CLASS2 :https://sourceforge.net/projects/splicebox/files/?source=navbar
参考文献:https://academic.oup.com/nar/article/44/10/e98/2516329/CLASS2-accurate-and-efficient-splice-variant
内容主要参考:http://www.360doc.com/content/16/1223/13/29483982_617058719.shtml
1. HISAT2的使用
人类和小鼠的索引有现成的,HISAT2官网可以直接下载进行序列比对。如下图所示:选择hg19和mm10的index,文章中RNA-Seq测序数据,可以包括人类的3个数据和小鼠的4个数据,因此需要小鼠和人类的索引。
人类和小鼠index下载
|
|
解压后的结果如下所示(小鼠基因组的index):
需要注意的是,小鼠的基因组index这几个件,前面都是genome
为前缀。
比对序列,得到sam文件
Usage:hisat2 [options]* -x {-1 -2 | -U | —sra-acc } [-S ]
参数:
-x 指定index文件
-1 双端测序第一个文件
-2 双端测序第二个文件
-U 单端测序文件
—sra-acc SRA accession number
-S 指定输出的格式,一般指定为sam
代码如下:
这里需要注意的是,在进行比对的时候,我们使用的命令是这个样子的/media/w/新加卷/Download/reference/mm10/genome
,最后一个是genome
,它代表的是前面的小鼠基因组index的8个文件,在输入的时候,不能只输入文件夹,也就是只输入/media/w/新加卷/Download/reference/mm10
这一部分,还要添加上genome
。
序列比对后得到SAM文件,这里只看小鼠数据的比对结果(也就是59到62这一部分),如下所示:
SAMTools
SAM(sequence Alignment/mapping)数据格式是目前高通量测序中存放比对数据的标准格式,当然他可以用于存放未比对的数据。所以,SAM的格式说明
而目前处理SAM格式的工具主要是SAMTools,这是Heng Li大神写的,除了C语言版本,还有Java的Picard,Python的Pysam,Common lisp的cl-sam等其他版本。SAMTools的主要功能如下:
view: BAM-SAM/SAM-BAM 转换和提取部分比对
sort: 比对排序
merge: 聚合多个排序比对
index: 索引排序比对
faidx: 建立FASTA索引,提取部分序列
tview: 文本格式查看序列
pileup: 产生基于位置的结果和 consensus/indel calling
最常用的三板斧就是格式转换,排序,索引。而进阶教程就是看文档提高。
|
|
最终的BAM文件结果如下所示: