样本空间与概率

集合

集合运算

集合的代数

概率模型

样本空间和事件

选择适当的样本空间

序贯模型

概率律

离散模型

连续模型

概率律的性质

模型和现实

条件概率

条件概率是一个概率律

利用条件概率定义概率模型

全概率定义和贝叶斯准则

独立性

条件独立

一组事件的独立性

可靠性

独立试验和二项概率

计数法

计数准则

n 选 k 排列

组合

分割

离散随机变量

基本概念

与随机变量有关的主要概念

  • 随机变量是试验结果的实值函数。

    注意:随机变量需要有数学取值(随机变量的取值),而不能是一个序列或其它无明显取值的量。

  • 随机变量的函数定义了另一个随机变量。
  • 对于一个随机变量,可以定义一些平均量,如均值方差
  • 可以在某事件或随机变量的条件之下定义一个随机变量。
  • 存在一个随机变量与某事件或某随机变量相互独立的概念。

随机变量的分类

  • 离散随机变量
  • 连续随机变量

与离散随机变量相关的概念

  • 离散随机变量是试验结果的一个实值函数,但是它的取值范围只能是有限多个值或可数无限多个值。
  • 一个随机变量有一个分布列,它对于随机变量的每一个取值,给出一个概率。
  • 离散随机变量函数也是一个离散随机变量,它的分布列可以从原随机变量的分布列得到。

分布列

分布列表示离散随机变量的取值概率的特征。用 $p_X$ 表示随机变量 $X$ 的分布列。设 $x$ 是随机变量 $X$ 的取值,则 $X$ 取值为 $x$ 的概率定义为事件 ${X=x}$ 的概率,即所有与 $x$ 对应的试验结果所组成的事件的概率,用 $p_X(x)$ 表示。

\[p_X(x) = P(\{X=x\})\]

约定:用大写字母表示随机变量,用小写字母表示实数。

分布列的性质

\[\sum_x p_X(x) = 1\\ P(X\in S) = \sum_{x\in S}p_X(x)\]

伯努利随机变量

背景:抛掷一枚硬币,正面向上的概率为 $p$,反面向上的概率为 $1-p$。

伯努利随机变量呈 0-1 分布,其分布列为:

\[p_X(k) = \left\{ \begin{array}{l} p & 若 k=1\\ 1-p & 若 k=0 \end{array} \right.\]

二项随机变量

背景:将一枚硬币抛掷 $n$ 次,每次抛掷,正面出现的概率为 $p$,反面出现的概率为 $1-p$,而且各次抛掷是相互独立的。

分布列:

\[p_X(k) = \left( \begin{array}{l} n \\ k \end{array} \right) p^k(1-p)^{n-k}\]

几何随机变量

泊松随机变量

随机变量的函数

期望、均值和方差

方差、矩和随机变量的函数的期望规则

均值和方差的性质

某些常用的随机变量的均值和方差

利用期望值进行决策

多个随机变量的联合分布列

多个随机变量的函数

多于两个随机变量的情况

条件

某个事件发生的条件下的随机变量

给定另一个随机变量的值的条件下的随机变量

条件期望

独立性

随机变量与事件的相互独立性

随机变量之间的相互独立性

几个随机变量的相互独立性

若干个相互毒瘤的随机变量的和的方差

一般随机变量

连续随机变量和概率密度函数

经典统计推断

本章中认为未知参数 $\theta$ 是确定(非随机)的,而取值未知。观测 $X$ 是随机的,根据 $\theta$ 取值的不同,服从 $p_X(x;\theta)$(若 $X$ 是离散的)或 $f_X(x;\theta)$(若 $X$ 是连续的)。

本章的主要术语、问题和方法

  • 经典估计是将未知参数看作是待确定的常数。对于未知参数的每个可能取值都假设一个单独的概率模型。
  • 参数估计中,希望找到在未知参数取任何可能值的情况下都基本正确的估计。
  • 假设检验中,未知参数对应于对立假设取有限的 $m(m\ge 2)$ 个值,想要选择一个假设,使得在任何可能的假设下错误的概率最小。

本章主要的经典推断方法

  • 最大似然估计:选择参数使得被观测到的数据“最有可能”出现,比如使获得当前数据的概率最大。
  • 线性回归:在这样的意义下找出一组成对数据之间最合适的线性关系:这种线性关系使得模型与真实数据之间的差值的平方和最小
  • 似然比检验:给定两个假设,根据它们发生“可能性”的比值选择其一,使得犯错的概率适当小。
  • 显著性检验:给定一个假设,当且仅当观测数据落在某个拒绝域的时候拒绝该假设,特别设计的拒绝域使得错误的概率低于某个给定阈值。

经典参数估计

将参数 $\theta$ 看作未知常数,而不是随机变量。

估计量的性质

给定观测 $X=(X_1, …, X_n)$,估计量是指形式为 $\hat{\Theta}=g(X)$ 的随机变量。注意,由于 $X$ 的分布依赖于 $\theta$,因而 $\hat{\theta}$ 的分布也一样。估计量 $\theta$ 的取值称为估计值

估计量的相关术语

$\hat{\Theta}$ 是未知参数 $\theta$ 的一个估计量,也即关于 $n$ 个观测 $X_1, …, X_n$(服从依赖参数 $\theta$ 的分布)的一个函数。

  • 估计误差,记为 $\tilde{\Theta}_n$,定义为 $\tilde{\Theta}_n=\hat{\Theta}_n-\theta$
  • 估计量的偏差,记为 $b_\theta(\hat{\Theta}_n)$,是估计误差的期望值 \(b_\theta(\hat{\Theta}_n) = \textnormal{E}_\theta[\hat{\Theta}_n]-\theta\)
  • $\hat{\Theta}$ 的期望值、方差和偏差都依赖于 $\theta$,而估计误差同时还依赖于观测 $X_1, …, X_n$
  • 称 $\hat{\Theta}n$ 无偏,若 $\textnormal{E}\theta[\hat{\Theta}_n] = \theta$ 对于 $\theta$ 所有可能的取值都成立。
  • 称 $\hat{\Theta}n$ 渐近无偏,若 $\lim{n\rightarrow\infty}\textnormal{E}_\theta[\hat{\Theta}_n] = \theta$ 对于所有可能的取值都成立。
  • 称 $\hat{\Theta}_n$ 为 $\theta$ 的相合估计序列,如果对于 $\theta$ 所有可能的取值,序列 $\hat{\Theta}_n$ 依概率收敛到参数 $\theta$ 的真值。
\[\textnormal{E}_\theta[\tilde{\Theta}_n^2]=b_\theta^2(\hat{\Theta}_n)+\textnormal{var}_\theta(\hat{\Theta}_n)\]

最大似然估计

设观测向量 $X=(X_1,…,X_n)$ 的联合分布列为 $p_X(x;\theta)=p_X(x_1, …, x_n;\theta)$($\theta$ 可为向量或数量),其中 $X = (X_1, …, X_n)$ 为 $X$ 的观测值。那么,最大似然估计是使($\theta$ 的)数值函数 $p_X=(x_1, …, x_n;\theta)$ 达到最大的参数值:

\[\hat{\theta}_n=\underset{\theta}{\argmax} p_X(x_1, ..., x_n;\theta)\]

当 $X$ 为连续型随机变量时,可将同样的方法用于联合概率密度函数 $f_X(x;\theta)$

\[\hat{\theta}_n=\underset{\theta}{\argmax} f_X(x_1, ..., x_n;\theta)\]

称 $p_X(x;\theta)$(或 $f_X(x;\theta)$,若 $X$ 为连续型随机变量)为似然函数

对于已知 $X$ 的观测值 $x$,$p_X(x;\theta)$ 不是未知参数等于 $\theta$ 的概率,而是当参数取值为 $\theta$ 时,观测值 $x$ 可能出现的概率。 为取定 $\theta$ 的估计值时,会考虑基于已知的观测,$\theta$ 取什么值可使观测值最可能出现,这就是“似然”的本意。

很多应用中都假设观测 $X_i$ 独立,从而对于每个 $i$,$X_i$ 是离散的随机变量,似然函数的形式为

\[p_X(x_1,...,x_n;\theta)=\prod_{i=1}^n p_{X_i}(x_i;\theta)\]

在这种情况下,为了分析和计算的方便可让其对数达到最大,下面的式子称为对数似然函数

\[\ln p_X(x_1,...,x_n;\theta) =\ln \prod_{i=1}^n p_{X_i}(x_i;\theta) = \sum_{i=1}^n\ln p_{X_i}(x_i;\theta)\]

当 $X$ 为连续型随机变量时,类似的用概率密度函数取代分布列:

\[\ln f_X(x_1,...,x_n;\theta) =\ln \prod_{i=1}^n f_{X_i}(x_i;\theta) = \sum_{i=1}^n\ln f_{X_i}(x_i;\theta)\]

随机变量均值和方差的估计

置信区间

基于方差近似估计量的置信区间

线性回归

最小二乘公式的合理性

贝叶斯线性回归

非线性回归

简单假设检验

假设检验的基本思想与概念

假设检验问题

假如试验结果与假设 H 发生矛盾就拒绝原假设 H,否则就接受原假设。

  • 假设:如 $\theta\in\Theta_0$ 或 $\theta\in\Theta_1$
  • 检验检验法则:通过样本对一个假设作出“对”或“不对”的具体判断的规则称为该假设的一个检验或检验法则。

    检验的结果若是肯定该命题,则接受这个假设,否则就拒绝该假设。

  • 参数假设检验问题 & 非参数假设检验问题:若假设可用一个参数的集合表示,该假设问题称为参数假设检验问题,否则称为非参数假设检验问题

假设检验的基本步骤

一般情况下,寻找某对假设的显著性检验的步骤如下:

  • 根据实际问题,建立统计假设 $H_0$ vs $H_1$
  • 选取一个合适的检验统计量 $T(X)$,使得当 $H_0$ 成立时(或 $H_0$ 中某个具体参数下),$T$ 的分布完全已知,并根据 $H_0$ 及 $H_1$ 的特点,确定拒绝域 $W$ 的形状
  • 确定显著性水平 $\alpha$,确定具体的拒绝域 $W$
  • 由样本观测值 $x_1,x_2,…,x_n$,计算检验统计量的 $T(x_1,…,x_n)$,由 $T(x_1,…,x_n)$ 是否属于 $W$,做出最终判断。
一、建立假设

背景: 设有来自某一个参数分布族 ${F(x,\theta)|\theta\in\Theta}$ 的样本 $x_1, x_2,…,x_n$,其中 $\Theta$ 为参数空间,设 $\Theta_0\subset \Theta$,且 $\Theta_0\not ={\emptyset}$,则命题 $H_0:\theta\in\Theta_0$ 称为一个假设或原假设零假设 (null hypothesis),若有另一个 $\Theta_1(\Theta_1\subset\Theta$,$\Theta_1\Theta_0=\emptyset$,常见的一种情况是 $\Theta_1=\Theta-\Theta_0)$,则命题 $H_1:\theta\in\Theta_1$ 称为 $H_0$ 的对立假设备择假设

$H_0:\theta\in\Theta_0\qquad vs\qquad H_1:\theta\in\Theta_1$

  • 简单原假设复杂原假设:如果 $\Theta_0$ 只含一个点,我们称之为简单原假设,否则称之为复杂复合原假设。
  • 双侧假设双边假设:备择假设分散在原假设两侧,如 $H_1’:\theta\not ={\theta_0}$,$H_1’’:\theta<\theta_0$……
  • 单侧假设单边假设:备择假设位于原假设的一侧
二、选择检验统计量,给出拒绝域形式
  • 假设的检验:对于假设的检验是指这样的一个法则:当有了具体的样本后,按该法则就可以决定是接受 $H_0$ 还是拒绝 $H_0$,即检验就等于把样本空间划分为两个互不相交的部分 $W$ 和 $\overline{W}$,当样本属于 $W$ 时,拒绝 $H_0$;否则接受 $H_0$。
  • 拒绝域接受域:称 $W$ 为该假设的拒绝域,而 $\overline{W}$ 称为接受域
  • 检验统计量:由样本对原假设进行检验通过的统计量。
  • 检验的判断准则
    • 若 $(x_1,…,x_n)\in W$,则拒绝 $H_0$
    • 若 $(x_1,…,x_n)\in \overline{W}$,则接受 $H_0$
三、选择显著性水平
  • 第一类错误第二类错误 | 观测数据情况 | $H_0$ 为真 | $H_1$ 为真 | | — | — | — | | $(x_1, x_2,…, x_n)\in W$ | 犯第一类错误 | 正确 | } $(x_1, x_2,…, x_n)\in \overline{W}$ | 正确 | 犯第二类错误 |
    • 称第一类错误为拒真错误
    • 称第二类错误为取伪错误
  • $\alpha$:犯第一类错误的概率:$\alpha=P_\theta{X\in W},\theta\in\Theta_0$,也记为 $P{X\in W H_0}$
  • $\beta$:犯第二类错误的概率:$\beta=P_\theta{X\in\overline{W} H_1}$
  • 势函数功效函数 (power function) 设检验问题 $H_0:\theta\in\Theta_0\qquad vs\qquad H_1:\theta\in\Theta_1$ 的拒绝域为 $W$,则样本观测值 $X$ 落在拒绝域 $W$ 内的概率称为该检验的势函数,记为 $g(\theta)=P_\theta(X\in W)$,$\theta\in\Theta=\Theta_0\cup\Theta_1$
\[g(\theta) = \left\{ \begin{array} \alpha(\theta) & \theta\in\Theta_0\\ 1-\beta(\theta) & \theta\in\Theta_1 \end{array} \right.\]

\[g(\theta) = \left\{ \begin{array} \alpha(\theta) = g(\theta) & \theta\in\Theta_0 \\ \beta(\theta) = 1-g(\theta) & \theta\in\Theta_1 \end{array} \right.\]
  • 显著性水平为 $\alpha$ 的显著性检验:对检验问题 $H_0:\theta\in\Theta_0\qquad vs\qquad H_1:\theta\in\Theta_1$,如果一个检验满足对任意的$\theta\in\Theta_0$,都有 $g(\theta)\le\alpha$,则称该检验是显著性水平为 $\alpha$ 的显著性检验。

    常用的选择是 $\alpha = 0.05$,有时也可以选择 $\alpha=0.10$ 或 $\alpha=0.01$

四、给出拒绝域
五、做出判断

检验的 p 值

  • 检验的 p 值:再一个假设检验问题中,利用样本观测能够做出拒绝原假设的最小显著性水平称为检验的 p 值。
    • 如果 $\alpha \ge p$,则再显著性水平 $\alpha$ 下拒绝 $H_0$
    • 如果 $\alpha < p$,则在显著性水平 $\alpha$ 下接受 $H_0$

正态总体参数假设检验

单个正态总体均值的检验

设 $x_1, …, x_n$ 是来自 $N(\mu,\sigma^2)$ 的样本,考虑如下三种关于 $\mu$ 的检验问题:

\[I\qquad H_0:\mu\le \mu_0 \qquad vs \qquad H_1:\mu>\mu_0\\ II\qquad H_0:\mu\ge\mu_0\qquad vs\qquad H_1:\mu<\mu_0 \\ III\qquad H_0:\mu = \mu_0\qquad vs\qquad H_1:\mu\not ={\mu_0}\]

其中 $\mu_0$ 是已知常数。

一、$\sigma$ 已知时的 $u$ 检验

  • 检验统计量 $u = \frac{\overline{x}-\mu_0}{\sigma/\sqrt{n}}$
    • 由于 $\mu$ 的点估计是 $\overline{x}$,且 $\overline{x}\sim N(\mu, \sigma^2/n)$
  • 拒绝域 $W_1={(x_1,…,x_n):u\ge c}$

显著性检验

一般方法

广义似然比和拟合优度检验