随机变量 - 统计学核心方法及其应用

随机变量概述

统计学的本质是从具有不可预测性的数据中提取信息，随机变量则是为这种可变性建立模型的数学工具。在每一次观测中，随机变量随机取不同的值。我们无法提前预测随机变量的精确取值，但是可以对可能的取值做出概率性的刻画。也就是说，我们可以描述随机变量的取值的分布。本章简要回顾应用随机变量时所涉及的专业知识，以及一些常用的结果。

累积分布函数

随机变量（r.v.）的累积分布函数（c.d.f.）是满足下式的函数 :

即，给出了的取值小于或等于的概率。显然，，并且是单调函数。该定义的一个有用的结论是，如果是连续函数，那么在 [0, 1] 上呈均匀分布：它取 0 和 1 之间任意值的概率是相等的。这是因为

（如果  是连续函数），那么后者是 [0, 1] 上的均匀随机变量的累积分布函数。
定义累积分布函数的反函数为 . 当  为连续函数时，正是  在一般意义下的反函数。  通常叫作  的分位函数。如果  在[0, 1] 上呈均匀分布，那么  的分布就是  的累积分布函数  . 对于可计算的，在给定均匀随机偏差的产生方式的前提下，上述定义给出了任意分布下的随机变量的生成方法。
令  为 0 和 1 之间的一个数。  的  分位数是一个数值，小于或等于该值的概率是，即 . 分位数有广泛的应用，其中一个应用是验证  是否是累积分布函数为  的随机变量的观测值。将  按顺序排列，把它们作为“观测分位数”. 这些点和理论上的分位点共同绘制的图叫作分位数—分位数图。如果观测值来自于累积分布函数为  的分布，那么得到的 QQ 图应该接近直线。

概率函数与概率密度函数

在很多统计学方法中，描述随机变量取某个特定值的概率的函数比累积分布函数更有用。为了探讨这类函数，首先需要区分取离散值（例如非负整数）的随机变量和取值为实数轴上的区间的随机变量。
对于离散型随机变量，概率函数（又叫概率质量函数）是满足下式的函数：

显然，0，并且因为的取值一定存在，所以对的所有可能取值（记为）求和可得.

对于连续型随机变量，因为它所有可能的取值有无限个，所以取任意特定值的概率一般是 0，因此，概率函数对连续型随机变量不适用。取而代之的是概率密度函数，它给出了在附近的单位区间内取值的概率，即 . 更加正式的定义是，对任意常数，

显然，必须满足且. 注意，，因此如果存在，那么 . 附录 A 给出了一些常用的标准分布的概率函数或概率密度函数。
除特别注明外，后续几节主要考虑连续型随机变量，用适当的求和代替积分，可以得到等价的对离散型随机变量适用的结果。为了简洁起见，约定当自变量不同时，概率密度函数不同（例如，和表示不同的概率密度函数）