高考数学的随机变量
高考数学的随机变量
上一个文档中, 讲解了关于概率递推
和马尔科夫链
的问题, 这一节汇总/讲解一下高考中出现的几种随机变量及分布形式.
1. 随机变量与随机变量的数字特征
1.1 随机变量
随机事件中, 数据的数量表现称为随机变量.
对于某事件的样本空间, 每个样本点都唯一对应一个实数 , 则 称为该事件的随机变量.
例如对于掷骰子这一事件, 投掷点数样本空间 , 则记投掷点数为 时, 即为该事件的随机变量, 且数值上 .
随机变量分为两种, 离散型随机变量
和连续型随机变量
. 离散型随机变量
的取值是离散
的, 譬如上述掷骰子的点数随机变量, 只能取值 这些有限个固定值.
连续型随机变量
则可在某范围内连续取值, 譬如在数轴 之间随意取一个点, 它的结果可以是 之间的所有实数, 取值是连续的.
研究随机变量时必然要研究随机变量的概率, 对于离散型随机变量
, 某个取值的概率可以直接计算.
例如掷骰子
中记投掷点数
为 , 则 .
但连续型随机变量
中, 某个取值的概率实际上为 . 也就是如果在数轴 之间随意取一个点, 取到某值 的概率 .
这里也可以说明, 概率为 不等同于不会发生. 毕竟, 当我们真正去取值, 必然可以取得一个值, 这时事件发生了, 即使从概率角度分析它发生的概率为 .
对于随机变量的一组取值, 有如下数字特征:
1.2 期望和方差
数学期望指的是随机变量的均值, 对于离散型随机变量
, 计算公式如下:
对于连续型随机变量
, 计算公式如下(高中不做要求):
随机变量的期望值反映了随机事件的平均结果.
接下来是随机变量的方差, 对于离散型随机变量
, 计算方法和统计数据的方差计算完全相同:
对于期望和方差, 有如下公式:
不难理解, 随着数据的整体上下移动, 期望值也上下移动, 但不改变分布的分散程度; 但如果数据进行缩放, 期望值同比例的缩放, 但方差会以平方倍进行缩放.
此外方差和期望还有如下关系:
1.3 相关系数
两个随机事件中, 它们之间事件发生的概率可能互相干扰, 若其中一方会影响另一方的概率, 则称两个事件不独立, 反之称两个事件独立.
例如掷骰子中, 记事件 奇数点数朝上
, 偶数点数朝上
. 则若 事件发生了, 事件就不可能发生, 而正常情况下 事件发生的概率为 , 可认为 事件受 事件影响. 认为它们不互相独立.
独立性判断的方法为判断 是否成立. 若成立, 则两事件独立.
有一种特殊情况为, 从实际意义上讲 事件显然受 事件影响, 但上式仍成立, 认为 事件概率并未受影响, 仍然判定两事件独立
但上述方法只能判断事件是否独立, 若不独立, 称事件相关. 但具体相关程度无法判断, 因此引入相关系数
概念.
高中数学直接给出了相关系数
的计算式, 十分复杂. 这里我们从协方差
开始慢慢分析.
对于两个随机变量 , 协方差:
协方差
定义为每个时刻两个随机变量分别与其期望之差的乘积的期望. 经过推导, 我们得到了一个比较标准的式子.
它表现力两个随机变量直接的线性关系, 若 , 则说明二者正相关, 且 越大, 正相关程度越高.
同理若 , 则说明二者负相关, 且 越大, 负相关程度越高.
特别地, 若 , 则说明二者不相关.
其中, 方差与协方差有这样的关系:
不难得出协方差有如下性质:
当两个变量按倍数扩大或缩小时, 协方差会跟着扩大或缩小, 不再具备定义大小的能力(例如某分析中 代表的是长度或质量, 我们将单位从 或 换成 或 时, 相当于给 , 则协方差也会扩大 倍. 然而这种情况并不代表正相关程度增大).
但我们只需要 和 相对的分数趋势, 因此对 标准化:
这时:
这个标准化之后的协方差, 就是教材上的线性相关系数
.
高中教材的线性相关系数
公式:
两个公式不要求记忆, 所以考试时会给出. 但是变态的出题人会用很阴的手段, 给出其一个式子但是题中数据只能使用另一个式子进行计算(
因此我们需要了解这两个式子如何互相变形.
2. 常见离散型随机变量分布
2.1 伯努利分布
a) 两点分布(伯努利分布)
当随机变量取值只有两种时, 随机变量的分布称为两点分布
, 又称伯努利分布
.
例如用 代表某问题正确与否, 由于问题非对即错, 则 只能取值 这两个点, 故称两点分布.
两点分布 中, 若 , 则 .
b) 二项分布(多重伯努利分布)
当我们多次进行两点分布
, 则最终结果表现出的分布形式, 称为二项分布
, 又称n重伯努利分布
.
例如: 抽查某生产线产品合格程度, 随机抽取 个零件, 记 为零件合格的个数. 则抽出 件正品的概率为 .
二项分布特征就是有放回的抽查
, 每次抽查过程中, 所抽查对象的概率保持不变. 上述情况中, 若整个生产线产品合格率为 , 则无论第几次抽取, 抽到合格产品的概率都为 .
若 满足伯努利分布, 则记 , 其中 表示总抽查次数
, 表示所需值出现的概率
.
我们计算一下 :
上述公式需要记忆, 则伯努利分布 的分布列为:
X | 0 | 1 | k | n | ||
---|---|---|---|---|---|---|
P(X) |
下面计算伯努利分布下的期望和方差:
由于计算过程实在记不清了...这里不提供计算过程
2.2 超几何分布
上述伯努利分布
指的是概率不变的情况, 即连续有放回的抽签, 下面分析连续无放回的抽签, 抽到签数的随机变量符合的特征.
超几何分布指的是, 总数 中共存在 个符合期望的样本点, 从总数中抽取 次, 抽到期望样品数目记作 , 则 满足超几何分布, 记作 .
其中, 数学书上规定, 的取值为 , 其中 , , 十分晦涩难懂.
为了分析一个 的取值, 我们简化一下超几何分布的要求.
共有 个样品, 其中含有 的次品, 共抽取 次, 抽到次品数目记作 , 则 的上限:
- 抽取到次品数目 不可能超过 , 因为只有这么多次品.
- 抽取到次品数目 不可能超过 , 因为一次只抽一个, 仅抽取这么多次.
综上:
下面分析 的下限:
- 当抽到的都是非次品时, , 此时 必然不超过非次品的数量 . 即 时, 最小值可以取到 .
- 当 超过非次品数量, 即 时, 在所难免的会抽到次品. 此时次品数目最少为 .
综上: .
实际上, 当变量换成数据的时候, 就不难理解了.
在一个口袋中装有 个球, 其中有 个
红球
, 其余为白球
. 这些球除颜色外完全相同. 游戏者一次从中摸出 个球. 摸到至少 个红球
就中一等奖, 那么获一等奖的概率是多少?
记摸球 次摸到红球的数目为 , 即 .
显然 最多摸到的全是红球
, 最少一个都摸不到, 即
在一个口袋中装有 个球, 其中有 个
红球
, 其余为白球
. 这些球除颜色外完全相同. 游戏者一次从中摸出 个球. 摸到至少 个红球
就中一等奖, 那么获一等奖的概率是多少?
显然 最多只能为 , 最少一个都摸不到, 即
在一个口袋中装有 个球, 其中有 个
红球
, 其余为白球
. 这些球除颜色外完全相同. 游戏者一次从中摸出 个球. 摸到至少 个红球
就中一等奖, 那么获一等奖的概率是多少?
显然 最多为 , 最少也能摸到 个红球, 即
也就是只要注意, 最大别把期望样品抽没了, 最少别把剩下的抽没了
下面计算 :
计算式就是所需情况/总情况
, 其中所需情况
不仅仅是从M个期望样品中取出k个
, 因为取出n个物品含有k个期望物品时, 必然还会取出 个非期望物品, 也就是还需要与事件从N - M个非期望物品中取出n - k个
取交集.
即
由于无法确定 的取值, 这里不再提供分布列, 下面需要记忆:
可认为 为次品率, 则上式与伯努利模型类似.
超几何分布的方差不需要记忆, 但下面还是给出一个公式和计算过程:
摘自百度 超几何分布
另一种写法:
摘自知乎 数学派 - 超几何分布、二项分布、几何分布一些小结论
2.3 几何分布
掷硬币过程中, 每次得到正反面的概率均为 , 那么什么时候能得到正面? 可能一发入魂, 也可能永远不中. 那么这样的分布, 是否存在规律可循?
下面介绍一种数学书上并没有指出的分布方式: 几何分布
.
连续独立重复试验中, 试验次数预先不能确定. 设每次试验成功的概率为 . 将试验进行到成功一次为止, 记 为成功所需次数.
由于书上并没有相关知识, 因此这里也不给出几何分布的符号.
下面我们详细推导一下几何分布的相关内容.
这些计算过程看似简单, 实则一点都不难, 但推导过程很值得参考
a) 取值范围
开头即提到, 抛硬币打算得到正面, 可能一发入魂, 也可能永远不中, 所以几何分布中,
b) 分布列
则分布列如下:
X | 1 | 2 | k | ||
---|---|---|---|---|---|
P(X) |
c) 期望
这是我们只需要计算 , 我们构造如下函数:
则有:
对于 , 实际上为等比数列 的各项和, 它的值为:
由于 , 则 时, , 则 , 则:
即
代入上式得:
d) 方差
注意此处, 计算中, 由于 满足几何分布, 但 未知, 所以 的计算需要重新推导
此外, 求 时, 只有取值发生了变化, 而概率仍然为 , 也就是只有分布列 栏发生了变化
1 | 4 | ||||
---|---|---|---|---|---|
P(X) |
同理, 令 并构造如下函数:
则:
那么 是多少呢? 实际上就是上面的 .
代入求解得:
则 .
故:
上述推导过程不要求掌握, 但构造 需要有印象.
概率中, 有时 被成为概率母函数
, 而 则分别为 (的关键).
记住, 遇到 类累加时, 构造 累加的函数
3. 正态分布
上述随机变量指的都是离散型随机变量
, 下面讲解一下连续型随机变量
非常简单常见的分布: 正态分布
.
正态分布的定义很复杂:
若一维随机变量 的密度函数为:
其中 和 为常数且 , 则称随机变量 服从参数为 的正态分布, 记作
但上述定义, 以及密度函数等完全不需要记忆, 它被称为正态
, 因为符合自然界规律, 比较常见. 正态分布英文为Normal distribution
, 其中N
便是其符号的由来.
3.1 分布
由于正态分布为连续型随机变量, 所以无法画出分布列, 但是, 将各个点的概率绘制成图, 可得到如下图像:

引用自知乎他叫小胖子呐 - 正态分布、标准正态分布(定义、期望、方差、例题)
该分布图像即上述公式的图像.
事实上, 生物中S型增长
曲线就是上述图像的前一半, 符合该公式的也被称为逻辑斯谛模型
或高斯模型
分析它的图像:
该图像存在对称轴 , 最大值 , 图像先增后减, 并向 方向趋近于x轴, 即值趋近于 .
其中 越大, 图像越矮胖, 越小, 图像越高瘦.
3.2 数字特征
对于 , 其期望 , 方差 , 只需要记忆这两个值含义即可, 不涉及计算.
3.3 与离散型随机变量的关系
安排失误, 这里应该先讲比较好
对于连续型随机变量 , 若 , 其概率统计图如图所示:

引用自CSDN十大战略工具(6)—— 正态分布&幂律分布
可以直观看到符合伯努利分布
的随机变量概率统计基本上吻合正态分布
, 其中 .
当 很大时, 该图像将更为接近正态分布图像, 当 时, 此时的伯努利分布就是正态分布.
3.4 高尔顿板
高尔顿板
, 又称高尔顿钉板
, 钉板
等, 是英国生物统计学家高尔顿制作的一块三角形钉板.

当小球从最上方自由释放后, 没遇到一次钉子, 有 的概率从右侧滑落, 的概率从左侧滑落.
当小球落到最下面时, 可以计算到各个位置的概率.
一个 层的高尔顿板.
对于最边上的位置, 只有小球一直向左滑落(或一直向右), 则概率为:
对于边上向内一格的位置, 小球需要在一路向左的过程中向右一次, 但 层中无论什么时候向右都可以, 故概率为:
再向内一格, 小球需要两次向右一路向左, 层中有两个向右的结果( ), 则概率为:
依次类推, 实际上, 小球遵循的就是很平均的伯努利分布. 当小球足够多, 钉板足够密, 则形成了正态分布的钟形曲线
(虽然没看出来哪里像钟了).
3.5 特殊概率值
对于正态分布, 大部分值都分布在中央, 少部分值分布在外面, 因此对于检测, 有三个比较特殊的值分布范围:
对于
可以看到, 当 位于对称轴周围 的区域时, 分布的概率高达 , 可以看出正态分布边际是十分难以达到的.
三个值并不需要记忆, 此外, 高中常常取到小数点后一位
3.6 标准正态分布
数据处理常常需要标准化
操作, 也就是将数据通过固定的比例缩小
(或放大
)到一个固定的范围, 通常是 .
我们把数据进行如下标准化处理:
对于
这样
则上述转换将
被称为标准正态分布
.
4. 卡方检测
卡方检测
, 分为卡方独立性检验
和卡方适配度检验
两种, 高中教材中卡方检测特质前者, 即卡方独立性检验
.
卡方检测
可以检测两个随机变量直接的相关性. 如探究是否使用某治疗方法
与是否可以缓解症状
两个事件之间的是否存在联系, 可以准备 4组数据, 列表如下:
疗法/疗效 | 缓解 | 未缓解 | 总合 |
---|---|---|---|
使用 | |||
不使用 | |||
总合 |
其中 .
计算如下式子:
越大, 说明上述两件事之间有关系
的可信程度越高, 其中认定两件事有关
结论出错的概率如下表所示:
0.50 | 0.40 | 0.25 | 0.15 | 0.10 | 0.05 | 0.025 | 0.010 | 0.005 | 0.001 | |
---|---|---|---|---|---|---|---|---|---|---|
0.455 | 0.708 | 1.323 | 2.072 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
或者说, 上述表格表示的是对应 值下, 认定两件事无关
的概率, 越大, 上述概率越小, 两件事有关的概率就越大.
例题:

(1)很轻松, 直接略; (2)如下:
既然题目中卡方
给定的符号为 , 那么我们使用 而非 ( 是老教材的写法)
直接列式:
这里题目都会给出一部分卡方表格, 计算精确程度以表给给出精度为准, 这里统一取.3f
精度
由于 , 故有 的把握认为男女顾客对该商场服务的评价有差异.
从2025.03.27
开始一直写到22025.04.15
, 终于写完了... 希望能帮到你~