StatQuest学习笔记01——统计学分布及抽样

前言

这个系列的笔记是StatQuest视频的学习笔记，我的这些笔记有时候会使用一些自己以前收录的数据，外加自己补充的一些笔记。此篇笔记是基础知识，视频教程的1-5。

什么是直方图

如果我们测量一批人的身高，他们的身高并不固定，因此我们先做一个x轴，从左到右身高依次增高，如下所示：

此时，我们开始测量这批人的身高，一个点代表一个人，如下所示：

这种图有个缺陷，就是一些相同身高的人的点会重合，并不直观，因此我们可以转换一下图形，把相同身高的人的点叠加起来，如下所示：

这样的话，我们就能很清楚地看到这批人身高的统计情况，这种图形可以叫直方图（histogram），直方图的下端（也就是x轴）的数据是连续的，可以自己设定，从图中可以明显看到，中间的人的点数多，两边的人点数少。再进一步，我们可以使用“分布（distribution）”这个术语来表示我们这次测量的为数据，将这些数据点的顶端用一个近似曲线连接起来，就成了下面的这个样子：

这种图形类似于一个钟型（bell）我们可以称它为正态分布（normal distribution），如果我们测量出来的数据是下面的这个样子，它就呈现一种指数分布（exponential distribution）：

直方图的特点

如果我们在测量这批人的数据时，以0.5英尺（约合30cm）为单位，也就是说，在绘制直方图时，x轴的坐标上的宽度分布是这个样子的：

可以看到，这次测量把这批人的身高数据划分了4份，分别为小于5，5到5.5，5.5到6，大于6。如果改变一下，把数据划分为8份，也就是说最小的单位值是0.25，就是下面的这个样子：

如果测量更多的人，使用更加小的划分单位，我们就会得到一个对人体身高更加精确的估计值，下图是划分了18份，如下所示：

并且还可以画出一条曲线（curve），对这批数据进行估计，如下所示：

从这张图上我们可以得到以下信息：

测量一个人，得到这个低于4.5或高于6.5的概率比较低，而很大的概率会得到曲线中间凸出来的部分。使用曲线来估计一批人数据比直方图更有优势。第一，直方图有时候并不准，例如上图右侧蓝箭头这部分数据并没有测到，如果换一批人，就有可能测到；第二，使用曲线时，并不用考虑最小数据的分隔单位，就能估计一个数值的概率，例如我们要计算得到5.021和5.317这个数据的概率有多大，就直接利用曲线就能得到。第三，人的精力与资源有限，直接去测量大批数据并不现实，而估计一条曲线只需要我们手中少量数据的标准差与均值即可。