前言
转录组的这几篇入门笔记主要是参照了生信技能树论坛,公众号,生信媛公众号,徐更洲的博客,沈梦圆的博客及公众号,Jimmy等人的博客完成的。
软件安装(一)——miniconda
首先要安装:Miniconda
先了解一下conda,Anaconda,Miniconda。
conda是一个工具,也是一个可执行命令,其核心功能是包管理与环境管理。包管理与pip的使用类似,环境管理则允许用户方便地安装不同版本的python并可以快速切换。
Anaconda是一个用于科学计算的Python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda则是一个打包的集合,里面预装好了conda、某个版本的python、众多packages、科学计算工具等等,所以也称为Python的一种发行版。
Miniconda则是Anaconda的微缩版,它只包含最基本的内容,即python与conda,以及相关的必须依赖项,对于空间要求严格的用户,Miniconda是一种选择。
bioconda是conda上一个分发生物信息软件的频道。多数软件都可以通过conda来安装,可查看可用软件列表。
第一步:下载miniconda2
|
|
第二步:安装miniconda2
|
|
安装过程基本上就是按Enter或输入yes,仔细看说明就行。
第三步:将miniconda2保存到环境变量
|
|
第四步:添加通道
Conda默认的源访问速度有些慢,可以增加国内的源(国内的源是清华源,其中参考文献中给出的;另外还可以增加几个源,以便于安装更多的软件,尤其是bioconda安装生信类工具。conda-forge通道是Conda社区维护的包含很多不在默认通道里面的通用型软件。r通道是向后兼容性通道,尤其是使用R3.3.1版本时会用到。后添加的通道优先级更高,因此一般用下面列出的顺序添加。
|
|
如果命令行添加不了,可以用vim ~/.condarc
来进行安装,如果安装错误了,可以删除.condarc文件,然后再用命令行来安装。用conda config --get channels
可以查看已经添加的频道,而用conda config --show
可查看已有的配置。如下所示:
Conda基本使用
列出安装的软件包
|
|
如下所示:
搜索需要安装的软件包,获取其完成名字
命令是conda search <package ambigious name>
,以搜索fastqc为例:
如下所示:
安装包
命令为conda install <package name>
以安装 numpy=1.7.2为例说明
|
|
更新软件包
conda update <package name>
移除软件包
conda remove <package name>
获取帮助信息
conda -h # 查看conda可用的命令
conda install -h #查看install子命令的帮助
关于环境
condas可以创建多个分析环境,这是它的优势之一,不过目前用不到,以后用到了再学。
查看已有环境
虚拟环境管理:conda比较好用的就是它能够建立多个互不干扰的分析环境。通过conda info --envs
可以查看环境,如下所示:
|
|
目前就只有一个默认环境,也就是root:
卸载miniconda
|
|
从环境变量中去掉miniconda:打开~/.bash_profile文件,删掉其中miniconda的路径,关闭并保存
删除隐藏的.condarc 、.conda以及.continuum文件
软件安装(二)——其它生信工具
目前所用的生信工具如下所示:
(1)sratoolkit
sratoolkit:把NCBI SRA(Sequence Read Archive)数据库中的NGS序列数据从 sra 格式转换到 fastq 格式。
conda安装:
|
|
如果安装不成功,可采用下列安装方式(我的笔记本上上基本上都是conda安装,对于下面的安装方式并没有试过):
|
|
fastqc
fastqc:二代测序数据质量分析软件。
安装如下:
或者是采用常规的安装方式:
hisats
hisats:将测序结果比对到人类参考基因组上。HISAT2是TopHat2/Bowti2的继任者,使用改进的BWT算法,实现了更快的速度和更少的资源占用。
|
|
samtools
samtools:处理SAM、BAM文件的工具软件。BAM格式文件是存放高通量测序中比对结果的标准格式文件。
|
|
或者如下安装:
htseq-count
htseq-count:用于reads计数的软件,他能对位于基因组上的一些单位的reads数进行统计,这里所说的单位主要是指染色体上的一组位置区间(我们常见的就是gene exon)
优先conda安装
|
|
如果conda无法安装,采用下列安装方式:
|
|
或者如下:
R
R:统计与数据可视化工具。
Rstudio的安装
|
|
后面涉及有关R的分析是在Sindows平台下完成的,并没有用到Linux下的R工具。
fastx-toolkit安装
|
|