StatQuest学习笔记06——分位数及其应用

前言——主要内容

这篇笔记的内容是StatQuest视频文件的第23，24，25。文件第23讲的是分位数(quantiles)与百分位数(percentiles)；文件24讲的是QQ图；文件25讲的是分位数的均一化。

分位数

先看一个案例，我们检测了一些基因的表达情况，下图是第1个基因的表达数据：

最终，我们检测了15个基因的表达情况，它们的数据如下所示：

从图上我们可以看出，坐标中一共有15个点，如果我们从下向上数，数到第8个点时，划一条线，这个条的上方有50%的点，即7个点，下方也有50%的点，即7个点，这个点就叫做中位数（median），如下所示：

从技术角度来讲，中位数就是一个百分比数（quantile），因为它把这一组数据划分成了2个部分，每部分所占的点数占总数目都是相同的，有时候，这个点也被标为0.5，也时候也被标为50%。

中位数(median)是将n个变量值从小到大排列，位置居于中间的那个数。当n为奇数时取位次居中的变量值，当n为偶数时，取位次居中的两个变量值的均值。

百分位数(percentile)是一种位置指标，用Px来表示，读作第X百分位数。一个百分位数Px将全部产变量值分为两部分，在Px处若无相同变量值，则在不包含Px的全部变量值中有X%的变量值小于它，有(100-X)%变量值大于它。故百分位数是一个界值，其重要用途是确定医学参考值范围（reference range）。中位数实际上是第50百分位数。

——《医学统计学》（第四版）.孙振球.2014

从下图中我们可以看到，这个中位数的值为4.5，也就是说第50分位数的值为4.5，如下所示：

现在我们再添加两条线，再加上前面的50%分位数的线，这三条线就把整个数据分成了4部分，其中最下面的那条线叫0.25或25%百分位数，因为大概为25%的点低于它，如下所示：

最上面的线叫75%百分位数，因为约有75%的点低于它，如下所示：

通常来说，分位数就是那些能够把数据集分为相同区间组的线，这是技术上的定义。而百分位数（percentiles）则是指那些能够把数据集分为100份相同区间的分位数（quantiles），不过在实际运用中，这个术语非常灵活。例如我们把50%百分位数称为中位数，把75%百分位数称为第75百分位数（这就与我们引用教材中的命名相同了），如下所示：

最低下的数字，也就是最小的数字，称为0%百分位数，也叫第0百分位数，如下所示：

倒数第2个数字则是第7百分位数，如下所示：

在R语言中，有专门计算分位数的函数，就是quantile()，它提供了9种不同的方法来计算分位数，其结果可能略微有所不同。这就说明，如果你的数据集很小，那么这个函数按照不同方法计算出来的分位数就有很大的同，如果数据集很大，那么计算结果就大体相同。

QQ图

QQ图的全称为Quantile-Quantile图，也就是分位数的图，它研究的是数据是否符合正态分布。还以前面的基因表达为例来说明一下，我们检测了15个基因表达值，这些数据服是否服从正态分布？这就需要QQ图来回答，如下所示：

第一步：计算出每个点的百分位数，如下所示：

第二步：绘制出正态分布曲线，如下所示：

第三步：将同样的分位数映射到这个正态分布曲线上（我的理解就是某个数字，例如0.6，它的分位数是0.07的话，那么就在正态分布曲线上找到相应的一条直线x，这条直线与正态分布曲线构成的左边面积为0.07，其余的数字都这么做），如下所示：

数据集中有15个点，它们把这批数据分成了相同区间的组（equal sized group）（注：我的理解就是，这个相同区间指的是分位数的比，而不是实际值，例如我有100个点，这个点从小到大排列，每个点都会有自己相应的分位数，如果把按它们各自的分位数进行划分，那么可以把100%划分为100份1%），那么这些数据对应的分位数都投射到正态分布区间上，就是下面的这个图，从图上可以知道，中间部分的直线间隔小，两边的直线间隔长，这个很好理解，因为划分是按面积进行划分的，面积代表了概率，如下所示：