转录组学习笔记01-计算机及软件安装

前言

转录组的这几篇入门笔记主要是参照了生信技能树论坛,公众号,生信媛公众号,徐更洲的博客,沈梦圆的博客及公众号,Jimmy等人的博客完成的。

软件安装(一)——miniconda

首先要安装:Miniconda

先了解一下conda,Anaconda,Miniconda。
conda是一个工具,也是一个可执行命令,其核心功能是包管理与环境管理。包管理与pip的使用类似,环境管理则允许用户方便地安装不同版本的python并可以快速切换。
Anaconda是一个用于科学计算的Python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda则是一个打包的集合,里面预装好了conda、某个版本的python、众多packages、科学计算工具等等,所以也称为Python的一种发行版。
Miniconda则是Anaconda的微缩版,它只包含最基本的内容,即python与conda,以及相关的必须依赖项,对于空间要求严格的用户,Miniconda是一种选择。
bioconda是conda上一个分发生物信息软件的频道。多数软件都可以通过conda来安装,可查看可用软件列表

第一步:下载miniconda2

1
wget https://repo.continuum.io/miniconda/Miniconda2-latest-Linux-x86_64.sh

第二步:安装miniconda2

1
bash Miniconda2-latest-Linux-x86_64.sh

安装过程基本上就是按Enter或输入yes,仔细看说明就行。

第三步:将miniconda2保存到环境变量

1
2
echo "export PATH=/home/bio/miniconda2/bin:"'$PATH' >> ~/.bashrc
source ~/.bashrc

第四步:添加通道

Conda默认的源访问速度有些慢,可以增加国内的源(国内的源是清华源,其中参考文献中给出的;另外还可以增加几个源,以便于安装更多的软件,尤其是bioconda安装生信类工具。conda-forge通道是Conda社区维护的包含很多不在默认通道里面的通用型软件。r通道是向后兼容性通道,尤其是使用R3.3.1版本时会用到。后添加的通道优先级更高,因此一般用下面列出的顺序添加。

1
2
3
4
5
conda config --set show_channel_urls yes
conda config --add channels r # Optional, lowest priority
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda

如果命令行添加不了,可以用vim ~/.condarc来进行安装,如果安装错误了,可以删除.condarc文件,然后再用命令行来安装。用conda config --get channels可以查看已经添加的频道,而用conda config --show可查看已有的配置。如下所示:

Conda基本使用

列出安装的软件包

1
conda list

如下所示:

搜索需要安装的软件包,获取其完成名字

命令是conda search <package ambigious name> ,以搜索fastqc为例:

1
conda search fastqc # * 表示对于版本的包已安装

如下所示:

安装包

命令为conda install <package name>
以安装 numpy=1.7.2为例说明

1
2
3
conda install numpy=1.7.2
# 安装特定版本的软件包
# 也可以不加

更新软件包

conda update <package name>

移除软件包

conda remove <package name>

获取帮助信息

conda -h # 查看conda可用的命令
conda install -h #查看install子命令的帮助

关于环境

condas可以创建多个分析环境,这是它的优势之一,不过目前用不到,以后用到了再学。

查看已有环境

虚拟环境管理:conda比较好用的就是它能够建立多个互不干扰的分析环境。通过conda info --envs可以查看环境,如下所示:

1
2
conda info --envs
# 或 conda info -e

目前就只有一个默认环境,也就是root:

卸载miniconda

1
rm -rf ~/miniconda2

从环境变量中去掉miniconda:打开~/.bash_profile文件,删掉其中miniconda的路径,关闭并保存
删除隐藏的.condarc 、.conda以及.continuum文件

软件安装(二)——其它生信工具

目前所用的生信工具如下所示:

(1)sratoolkit

sratoolkit:把NCBI SRA(Sequence Read Archive)数据库中的NGS序列数据从 sra 格式转换到 fastq 格式。

conda安装:

1
conda install -c jfear sratoolkit=2.8.1

如果安装不成功,可采用下列安装方式(我的笔记本上上基本上都是conda安装,对于下面的安装方式并没有试过):

1
2
3
4
5
6
7
8
9
10
11
12
13
cd mynotes
cd src
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2-1/sratoolkit.2.8.2-1-ubuntu64.tar.gz
tar -zxvf sratoolkit.2.8.2-1-ubuntu64.tar.gz
mv sratoolkit.2.8.2-1-ubuntu64 ~/biosoft
# 加入环境变量
echo 'PATH=$PATH:~/biosoft/sratoolkit.2.8.2-1-ubuntu64/bin' >> ~/.bashrc
# 测试
prefetch -v
# 尝试下载,默认存放在家目录下的ncbi文件夹中
prefetch -c SRR390728

fastqc

fastqc:二代测序数据质量分析软件。

安装如下:

1
conda install fastqc

或者是采用常规的安装方式:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
# 判断系统是否安装java
java -version
# 安装java, 请改成openjdk-9-jdk,下面的是错误演示
sudo apt install openjdk-9-jre-headless
# 验证
java -version
# openjdk version "9-internal"
# OpenJDK Runtime Environment (build 9-internal+0-2016-04-14-195246.buildd.src)
# OpenJDK 64-Bit Server VM (build 9-internal+0-2016-04-14-195246.buildd.src, mixed mode)
# 安装fastqc
cd src
wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip
unzip fastqc_v0.11.5.zip
mv FastQC/ ~/biosoft/
cd ~/biosoft/FastQC/
chmod 770 fastqc
# 添加环境变量, 我用sed修改
sed -i '/^PATH/s/\(.*\)/\1:~\/biosoft\/FastQC\//' ~/.bashrc
source ~/.bashrc
fastqc -v
# FastQC v0.11.5

hisats

hisats:将测序结果比对到人类参考基因组上。HISAT2是TopHat2/Bowti2的继任者,使用改进的BWT算法,实现了更快的速度和更少的资源占用。

1
conda install -c bioconda hisat2

samtools

samtools:处理SAM、BAM文件的工具软件。BAM格式文件是存放高通量测序中比对结果的标准格式文件。

1
conda install -c bioiconda samtools

或者如下安装:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
cd src
# prerequsite
## system requirement
sudo apt install autoconf libz-dev libbz2-dev liblzma-dev libssl-dev
### zlib2
wget http://zlib.net/zlib-1.2.11.tar.gz
tar -zxvf zlib-1.2.11.tar.gz && cd zlib-1.2.11 && make && sudo make install && cd .. && rm -rf zlib-1.2.11
### bzip2
wget http://bzip.org/1.0.6/bzip2-1.0.6.tar.gz
tar -zxvf bzip2-1.0.6.tar.gz && cd bzip2-1.0.6 && make && sudo make install && cd .. && rm -rf bzip2-1.0.6
### curses
sudo apt-get install libncurses5-dev
### htslib
git clone https://github.com/samtools/htslib.git
cd htslib
autoreconf
# building samtools
git clone https://github.com/samtools/samtools.git
cd samtools
autoconf -Wno-syntax
./configure
make && make install prefix=$HOME/biosoft/samtools
## add PATH
sed '/^PATH/s/\(.*\)/\1:~\/biosoft\/samtools\/bin/' .bashrc -i
source ~/.bashrc
samtools --help

htseq-count

htseq-count:用于reads计数的软件,他能对位于基因组上的一些单位的reads数进行统计,这里所说的单位主要是指染色体上的一组位置区间(我们常见的就是gene exon)

优先conda安装

1
conda install -c bioconda htseq=0.7.2

如果conda无法安装,采用下列安装方式:

1
2
3
4
5
6
7
8
9
10
## Download and install HISAT
# https://ccb.jhu.edu/software/hisat2/index.shtml
cd ~/biosoft
mkdir HISAT && cd HISAT
#### readme: https://ccb.jhu.edu/software/hisat2/manual.shtml
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.0.4-Linux_x86_64.zip
unzip hisat2-2.0.4-Linux_x86_64.zip
ln -s hisat2-2.0.4 current
## ~/biosoft/HISAT/current/hisat2-build
## ~/biosoft/HISAT/current/hisat2

或者如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# prerequsites
sudo apt-get install python-pip
pip install --upgrade pip
sudo apt-get install build-essential python2.7-dev python-numpy python-matplotlib
## 验证, 保证无报错
python -V
## python
python
>>> import numpy
>>> import matplotlib
## install HTSeq
pip install htseq
## 验证
python
>>> import HTSeq

R

R:统计与数据可视化工具。

1
2
3
4
5
conda install -c r r-base
R #运行的时候要大写
## conda install -c r r-essentials
## -essentials表示安装R,及80多个常用的数据分析包, 包括idplyr, shiny, ggplot2, tidyr, caret 和 nnet

Rstudio的安装

1
2
conda install rstudio
rstudio

后面涉及有关R的分析是在Sindows平台下完成的,并没有用到Linux下的R工具。

fastx-toolkit安装

1
conda install -c biobuilds fastx-toolkit

参考资料:

  1. 使用Bioconda管理Linux系统中的生物信息软件
  2. PeterYuan,Anaconda使用总结
  3. hoptop.转录组入门(1):软件准备
  4. 生信软件的好帮手-bioconda
  5. 中国科大开源镜像站的bioconda新镜像申请