实际上是之前上这门课的时候边上课边用markdown写的笔记。 有少数latex没有正常渲染,但是我懒得改了。
概统复习
1随机事件和概率
1.1随机事件及其运算
一次试验所有可能结果的全体称为样本空间$\Omega$,样本空间中的每个元素叫样本点$\omega$。
样本空间中由一个样本点组成的单点集称为基本事件,含有多个基本事件的随机事件的集合称为复合事件。
包含$\subset$,相等$=$,和(并)$\cup$,交$A\cap B$或$AB$,差$A-B$,对立$A=\overline{B}$,互斥$AB=\varnothing$,互不相容$A_iA_j=\varnothing$
交换律$A\cup B=B\cup A,AB=BA$,结合律$(A\cup B)\cup C=A\cup (B\cup C),(AB)C=A(BC)$,分配律$A\cup (BC)=(A\cup B)(A\cup C),A(B\cup C)=(AB)\cup(AC)$,德摩根律$\overline{A\cup B}= \overline{A}\ \overline{B}, \overline{AB}=\overline{A}\cup\overline{B}$
更多事件的时候也是类似的
1.2随机事件的概率
设E是一个随机试验,$\Omega$是它的样本空间,对于E的每一个事件A赋予一个实数,记为P(A),若P($\ \dot{}\ $)满足以下公理,则称P(A)为事件A的概率 1. 对每个事件A,P(A)≥0 1. 对必然事件$\Omega$,P($\Omega$)=1 1. 对两两互不相容事件$A_1,A_2...A_n$,有$P(\cup^{+\infty}{i=1}A_i)=\cup^{+\infty}{i=1}P(A_i)$
以上为概率的公理化定义。
随着试验次数增加,频率的极限就是概率。
若一类随机事件满足一下特点,则称其为等可能概型,也称古典概型
1. 每个样本空间中只有有限个基本事件
1. 每个基本事件发生的可能性相同
加法原理、乘法原理、排列P、组合C
若一类随机事件满足一下特点,则称其为几何概型
1. 样本空间中每个样本点与一个测度有限的几何区域S中的点一一对应
1. 任意事件A与区域S的一个子区域G对应,A的概率P(A)仅与G的测度成正比,与G的形状和位置无关
$P(A)=\frac{m(G)}{m(S)}$
几何概型中,概率为1的事件也不是一定发生,概率为0的事件也有可能发生。(考虑线在面看来就是0。)
概率的基本性质(从概率的公理化定义中推导得出)
- $P(\varnothing)=0$
- $A_1,A_2...A_n$互不相容,有$P(\cup^{n}{i=1}A_i)=\cup^{n}{i=1}P(A_i)$ (和公理化定义中的“可列可加性”的区别在于,这是“有限可加性”)
- 对任意事件A,有$P(\overline{A})=1-P(A)$
- 对任意事件A、B,若$A\subset B$,有$P(B)-P(A)=P(B-A),P(B)\geq P(A)$
- 对任意事件A、B,有$P(A\cup B)=P(A)+P(B)-P(AB)$
- 对任意事件A、B,有$P(A)=P(A\overline{B})+P(AB)$
1.3条件概率
在A发生的条件下,B发生的概率,记为$P(B|A)$
条件概率有两种算法,一种是缩小样本空间后直接计算,一种是用$P(B|A)=P(AB)/P(A)$。
条件概率的性质:$P(B|A)\geq 0,P(\Omega|A)=1,P(\cup^{n}{i=1}B_i|A)=\cup^{n}{i=1}P(B_i|A)$ 概率所有的性质,条件概率一样满足,只需后面加|A
乘法公式:$P(A)P(B|A)=P(AB)$ ,可推广到多个事件的情况。
设$B_1,B_2...B_n$为某一样本空间的一组事件,满足$B_iB_j=\varnothing,i\neq j,i,j=1,2...n \ ;\ \cup^{n}_{i=1}B_i=\Omega$,则称这是样本空间的一个划分
全概率公式:$P(A)=\Sigma^{n}_{i=1}P(B_i)P(A|B_i)$,其中$B_1,B_2...B_n$为样本空间的划分
贝叶斯公式:$P(B_i|A)=P(AB_i)/P(A)=\frac{P(B_i)P(A|B_i)}{\Sigma^{n}_{j=1}P(B_j)P(A|B_j)}$ (分母是一个全概率公式,分子是一个乘法公式,第一步是一个条件概率)
在没有做试验A时,B的概率称为先验概率;得到新的信息(A)后,我们对B的概率有了新的估计,称为后验概率
1.4随机事件的独立性
若$P(A)P(B)=P(AB)$,则称AB相互独立。若AB相互独立,则$P(A|B)=P(A)\ (P(B)>0),P(B|A)=P(B)\ (P(A)>0)$
若$A,B,\overline{A},\overline{B}$中有一组AB相互独立,则都相互独立
多个事件时,若任意两个事件之间相互独立,称两两独立;若不论取任意个都满足$P(A_iA_{j}..A_k)=P(A_i)P(A_{j})...P(A_k)$,则称这些事件相互独立。
2随机变量及其分布
2.1随机变量及其分布函数
对$\forall \omega\in\Omega$,按一定的法则,存在一个实数$X(\omega)$与之对应,称这个函数$X(\omega)$为随机变量。 随机变量是样本空间到实数集的映射,可能的取值是随机的,以一定的概率取得
随机变量的分布函数:$F(x)=P(X\leq x),-\infty<x<+\infty$
2.2离散型随机变量及其分布律
离散型随机变量的分布律(分布列):$P(X=x_k)=p_k,k=1,2 ...$ 性质:$p_k\geq 0,\Sigma^{+\infty}_{k=1}p_k=1$
常见的分布:
0-1分布:$P(X=1)=p,\ P(X=0)=1-p$
二项分布(Bernoullli概型):独立重复n次,互不影响,每次的结果只有发生和不发生。发生的概率为p。记x为n次中发生的次数,则$P(X=k)=C^k_n p^k (1-p)^{n-k}$。记为$X\sim B(n,p)$ 。
负二项分布(Pascal分布):独立重复,互不影响,每次的结果只有发生和不发生。发生的概率为p。记x为直到发生k次所进行的实验次数,则$P(X=x)=C^{k-1}_{x-1}p^x (1-p)^{x-k},x=k,k+1 ...$
几何分布:k=1的Pascal分布。$P(X=x)=p(1-p)^{x-1}$
Poisson分布:参数为$(n,p)$的二项分布能用参数为$\lambda=np$的Poisson分布近似描述。即$\lim_{n\rightarrow +\infty}C^k_n p^k (1-p)^{n-k}=\frac{\lambda^k}{k!}e^{-\lambda}$ 记为$X\sim P(\lambda)$
2.3连续型随机变量及其概率密度
若存在一个非负可积函数使得 $F(x)=\int_{-\infty}^{x}f(t)dt,-\infty<x<+\infty$ ,则称X为连续型随机变量,$f(x)$是它的概率密度函数。概率密度函数是非负的,且 $\int_{-\infty}^{+\infty}f(t)dt=1$ 。在$f(x)$的连续点$x$处,有 $f(x)=F'(x)$ 。$f(x)$ 描述了X在$x_0$附近取值的概率,即 $P(x_0<X\leq x_0+\Delta x)\approx f(x_0)\Delta x$ 。由于是连续的,所以取一个具体值的可能性实际上是0,也即$P(X=a)=0$ ,于是乎 $P(a<x<b)$ 这里的<、>取不取等号都无所谓。
常见的连续型随机变量:
均匀分布:$f(x)=\begin{cases}1/( b-a) & a< x< b\ 0 & 其他 \end{cases}$ ,记为$X\sim U(a,b)$ ,可计算得$\displaystyle F( x) =\begin{cases} 0 & x< a\ \frac{x-a}{b-a} & a\leqslant x< b\ 1 & x\geqslant b \end{cases}$ 。
指数分布:$\displaystyle f( x) =\begin{cases} \lambda e^{-\lambda x} & x >0\ 0 & x\leqslant 0 \end{cases} \ ,\ F( x) =\begin{cases} 1-e^{-\lambda x} & x >0\ 0 & x\leqslant 0 \end{cases}$ ,记为$X\sim E(\lambda)$。 对于源源不断出现的质点流,如果单位时间内的质点数符合Poisson分布,则任意两质点之间的时间间隔符合指数分布,共用一个$\lambda$。
正态分布:$\displaystyle f( x) =\frac{1}{\sqrt{2\pi } \sigma } e^{-\frac{( x-\mu )^{2}}{2\sigma ^{2}}} ,-\infty < x< +\infty ,\varphi ( x) =\frac{1}{\sqrt{2\pi }} e^{-\frac{x^{2}}{2}} ,\Phi ( x) =\int _{-\infty }^{x} \varphi ( x) dx,F( x) =\Phi \left(\frac{x-\mu }{\sigma }\right)$ ,记为$X\sim N(\mu,\sigma^2)$ 。标准正态分布的分布函数值可查表得到。$\Phi(-x)=1-\Phi(x)$
2.4随机变量函数的分布
即已知X的分布,已知$Y=g(X)$,问Y的分布。
离散的,则可以写出所有的取值,拿到Y的概率分布,然后按定义算。
连续的,则先求Y的分布函数$F_Y(y)$ (怎么求呢?根据Y≤y得到g(X)≤y,解出X的范围,代$F_X(x)$得$F_Y$),再求导得$f_Y(y)$ 。
$y=g(x)\rightarrow x=h(y), f_Y(y)=f_X(h(y))\cdot|h'(y)|$
3多维随机变量及其分布
3.1二维随机变量及其分布
设 $E$ 是一个随机试验,$\Omega$ 是其样本空间,若对 $\Omega$ 中的任意一个样本点 $\omega$,按照一定的对应法则,存在一对实数 $(X(\omega), Y(\omega))$ 与之对应,简记为 $(X, Y)$,则称 $(X, Y)$ 为二维随机变量。
设 $(X, Y)$ 为二维随机变量,对于任意实数$x, y$,称定义在实平面上的二元函数 $F(x, y)=P(|X \leqslant x| \cap|Y \leqslant y|)=P(X \leqslant x, Y \leqslant y)$ 为二维随机变量 $(X, Y)$ 的联合分布函数,简称为分布函数或联合分布。对于连续型随机变量,若$F(x,y)=\int^x_{-\infty}\int^y_{-\infty}f(u,v)dudv$,则称$f(u,v)$是联合概率密度函数,简称联合概率密度或联合密度。
$F(x,y)$符合以下一些性质,$0\leq F(x,y)\leq 1,F(+\infty,+\infty)=1,F(-\infty,y)=F(x,-\infty)=0$,单调递增,右连续
$P(a<X\leq b,c<Y\leq d)=F(b,d)-F(a,d)-F(b,c)+F(a,c)\geq 0$。
边缘分布函数:$F_X(x)=P(X\leq x)=F(x,+\infty),F_Y(y)=F(+\infty,y)$。 离散:X和Y列一个表,竖着的东西求和横着的东西求和,就得到边缘分布律。 连续:$f_X(x)=\int ^{+\infty}{-\infty}f(x,y)dy,f_y(y)=\int ^{+\infty}{-\infty}f(x,y)dx$,即边缘概率密度。
均匀分布:$f(x,y)=1/S_G,(x,y)\in G;\ 0,else$,其中$S_G$是G的面积。
二维正态分布:$f(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}exp{-\frac{1}{2(1-\rho^2)}[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(x-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}]}$ ,记为$(X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)$
3.2二维随机变量的条件分布
对于离散的:$P(X=x_i|Y=y_j)=\frac{P(X=x_i,Y=y_i)}{P(Y=y_i)}=\frac{p_{ij}}{p{\cdot j}}$
分布律的性质、乘法公式、全概率公式皆满足
对于连续的:$f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)}$
3.3随机变量的独立性
设$(X,Y)$是二维随机变量, 若对任意实数$x,y$,有$P(X\leq x,Y\leq y)=P(X\leq x)P(Y\leq y)$,则称他们相互独立。 这也可以用F表示,此处略写。
对于离散的:等价于$p_{ij}=p_{i\cdot}p_{\cdot j}$
对于连续的:等价于$f(x,y)=f_X(x)f_Y(y)$
若两个变量相互独立,则对于两个确定的函数$g_1(x),g_2(y)$,$g_1(X),g_2(Y)$也独立。
3.4n维随机变量
设$(X_1,X_2...X_n)$为n维随机变量,对于任意$x_1,x_2...x_n$,称$F(x_1,x_2...x_n)=P(X_1\leq x_1,X_2\leq x_2...X_n\leq x_n)$为随机变量的联合分布函数,简称分布函数。
其中任意k个分量所构成的k维随机变量的联合分布函数称k维边缘分布函数,当k=1时称一位边缘分布函数,记作$F_{X_i}(x_i)$。
相互独立:$F(x_1,x_2...x_n)=\Pi^n_{i=1}F_{X_i}(x_i)$。
离散的,有联合分布律;连续的,有联合概率密度函数。
3.5多维随机变量函数的分布
3.5.1离散
$(X,Y)$的联合分布律$p_{ij}$已知,$Z=g(X,Y)$,记所有使$g(x,y)=z_k$的点为$(x_{ik},y_{jk})$,则Z的分布律为$P(Z=z_k)=\sum_{g(x_{ik},y_{jk})=z_k}P(X=x_{ik},Y=y_{jk})$。
特别地,$Z+X+Y$时,$P(X=r)=\sum^r_{i=0}P(X=i,Y=r-i)$。进一步,当X与Y独立时,$P(X=r)=\sum^r_{i=0}P(X=i)P(Y=r-i)$ 。这个公式称为离散卷积公式。
由此可得到Poisson分布和二项分布的可加性。即X,Y独立,若$X\sim P(\lambda_1),Y\sim P(\lambda_2)$,则$X+Y\sim P(\lambda_1+\lambda_2)$;若$X\sim B(n,p),Y\sim B(m,p)$,则$X+Y\sim B(m+n,p)$。
3.5.2连续
$z=g(x,y)$,已知$f(x,y)$,欲求$f_Z(z)$。
和的分布$z=x+y$ :
$f_Z(z)=\int_{-\infty}^{+\infty}f(x,z-x)dx=\int_{-\infty}^{+\infty}f(z-y,y)dy$ 特别地,若X,Y相互独立,则 $f_Z(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dx=\int_{-\infty}^{+\infty}f_X(z-y)f_Y(y)dy$ 。记作 $f_X*f_Y$
函数$f_Z(z)$称为$f_X(x)$与$f_Y(y)$的卷积。
正态分布也具有可加性,若$(X,Y)\sim N(\mu_1,\sigma_1^2;\mu_2,\sigma_2^2;\rho)$,则$X+Y\sim N(\mu_1+\mu_2,\sigma_1^2+2\rho\sigma_1\sigma_2+\sigma_2^2)$ 若$X_1,X_2...X_n$相互独立,且$X_i\sim N(\mu_i,\sigma_i^2)$,则$\sum X_i\sim N(\sum \mu_i,\sum \sigma_i^2)$
商的分布$z=x/y$ :
$f_Z(z)=\int^{+\infty}_{-\infty}f(yz,y)|y|dy$,若独立,则……
平方和的分布$z=\sum x_i^2$ :
自由度为n的$\chi^2$分布
很简单了其实,这一类题都只需要把$P(Z)$变成$P(Z(X,Y))$,然后变成x,y的积分就是了(前面几种都是如此)
极值的分布$M=max{X,Y},N=min{X,Y}$ :
$F_M(z)=F(z,z),F_N(z)=F(z,+\infty)+F(+\infty,z)-F(z,z)$
如果独立,则$F_M(z)=F_X(z)F_Y(z),F_N(z)=1-[1-F_X(z)][1-F_Y(z)]$
一般地,对于更多元的情况,类似的。
3.5.3多维随机变量函数的联合分布
实际上就是换元积分,用Jacob行列式,用高数知识便可。
4随机变量的数字特征
4.1数学期望
4.1.1定义
离散:$E(X)=\sum^{+\infty}_{k=1}x_kp_k$
连续:$E(X)=\int^{+\infty}_{-\infty}xf(x)dx$
也叫做均值。
4.1.2随机变量函数的数学期望
$Y=g(X)$,已知X的分布,求Y的期望
离散:$E(Y)=\sum^{+\infty}_{k=1}g(x_k)p_k$
连续:$E(X)=\int^{+\infty}_{-\infty}g(x)f(x)dx$
注意,要求趋于正无穷的这个级数绝对收敛。
4.1.3数学期望的性质
$E(C)=C$,$E(X+Y)=E(X)+E(Y)$,$E(XY)=E(X)E(Y)$,更多数相乘或相加亦可
4.2方差
$D(X)=Var(X)=E([X-E(X)]^2)=E(X^2-2XE(X)+E(X)^2)=E(X^2)-2E(X)^2+E(X)^2=E(X^2)-[E(X)]^2$ 可以用定义算,也可以用公式算。
方差的性质:方差存在的充要条件是$E(X^2)<+\infty$,$D(C)=0$,$D(CX)=C^2 D(X)$, $cov(aX,bY)=ab\cdot cov(X,Y)$, $D(X+Y)=D(X)+D(Y)+2cov(X,Y)$,$\forall C,D(X)\leq E[(X-C)^2]$,$C=E(X)$时取等号,$D(X)=0$的充要条件是$P(X=E(X))=1$ 。
标准化随机变量: $ X^*=\frac{X-E(X)}{\sqrt{D(X)}}$ ,$E(X^*)=0$,$D(X^*)=1$
4.3重要随机变量的期望和方差
| 分布 | 分布律 | 期望 | 方差 |
|---|---|---|---|
| 0-1分布B(1,p) | $P(X=k)=p^k(1-p)^{1-k},\ k=0,1\ , 0<p<1$ | p | p(1-p) |
| 二项分布B(n,p) | $P(X=k)=C^k_np^k(1-p)^{n-k}, \ k=0,1,2...n\ ,0<p<1$ | np | np(1-p) |
| 泊松分布P($\lambda$) | $P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!},\ k=0,1,2...,\ \lambda>0$ | $\lambda$ | $\lambda$ |
| 几何分布G(p) | $P(X=k)=p(1-p)^{k-1},k=1,2...,0<p<1$ | 1/p | (1-p)/$p^2$ |
| 超几何分布H(n,M,N) | $P(X=k)=\frac{C_n^k C_{n-M}^{n-k}}{C_N^n},max{0,n-N+M}\leq k\leq min{n,M}$ | nM/N | $n\frac{M}{N}(1-\frac{M}{N})(\frac{N-n}{N-1})$ |
| 负二项分布Pascal | $P(X=k)=C^{r-1}_{k-1}p^r (1-p)^{k-r}, k=r,r+1,... \ ,0<p<1$ | r/p | r(1-p)/$p^2$ |
| 均匀分布U(a,b) | $f(x)=1/(b-a),a<x<b;\ 0,others $ | (a+b)/2 | $(b-a)^2/12$ |
| 指数分布E($\lambda$) | $f(x)=\lambda e^{-\lambda x},x>0;\ 0,others$ | 1/$\lambda$ | 1/$\lambda^2$ |
| 正态分布N($\mu,\sigma^2$) | $f(x,y)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \sigma>0$ | $\mu$ | $\sigma^2$ |
要把正态分布的函数式也背下来
4.4协方差和相关系数
协方差$cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)$,相关系数$\rho_{XY}=\frac{cov(X,Y)}{\sqrt{D(X)D(Y)}}=D(X^,Y^)$
当$\rho_{XY}=0$时,称XY不相关。cov(X,Y)也和方差一样有两种算法。实际上,方差就是特殊的协方差。
二维正态分布特有一个属性,不相关=不独立,别的分布不一定是这样的。若方差都存在,独立则一定不相关,反之不然。
协方差的性质:$cov(X,Y)=cov(Y,X)$,$cov(aX,bY)=ab\ cov(X,Y)$,$cov(X+Y,Z)=cov(X,Z)+cov(Y,Z)$,$|cov(X,Y)|\leq \sqrt{D(X)D(Y)}$(等号成立的条件为$\exist 常数t_0,P(Y-E(Y)=t_0(X-E(X)))=1$ )
相关系数的性质:$|\rho_{XY}|\leq 1$ , 完全正相关$Y^=X^,\rho_{XY}=1$,完全负相关$Y^=-X^,\rho_{XY}=-1$ ,相关系数是两个变量之间线性关系强弱的度量。
4.5随机变量的高阶矩
若$E(|X|^k)<+\infty$,则称$E(X^k)$为X的k阶原点矩。
若$E(|X|^k|Y|^l)<+\infty$,则称$E(X^k Y^l)$为X和Y的k+l阶混合原点矩。
设有n维随机变量$(X_1,X_2...X_n)$二阶矩都存在,$\displaystyle C=\begin{pmatrix} c_{11} & c_{12} & ... & c_{1n}\ c_{21} & c_{22} & ... & c_{2n}\ ... & ... & & ...\ c_{n1} & c_{n2} & ... & c_{nn} \end{pmatrix}$ 此乃协方差矩阵,其中$c_{ij}=cov(X_i,X_j)$
协方差矩阵的性质:对称矩阵,半正定矩阵,$\forall t_1,t_2...t_n,D(t_1X_1,t_2X_2...t_nX_n)=(t_1,t_2...t_n)C(t_1,t_2...t_n)^T$
n维正态分布:$ f\left(x_1, x_2, \cdots, x_n\right)=\frac{1}{(2 \pi)^{n / 2}|C|^{1 / 2}} \mathrm{e}^{-\frac{1}{2}(x-\mu)^{\top} c^{-1}(x-\mu)} $ ,其中x,$\mu$都是n维列向量,$\mu$是x的均值,C是协方差矩阵
5大数定律和中心极限定理
5.1Chebyshev不等式和依概率收敛
Markov不等式:设随机变量X的k阶原点矩$E(|X|^k)$存在,则对于任意实数$\varepsilon>0$,$P(|X|\geq \varepsilon)\leq E(|X|^k)/\varepsilon^k$
Chebyshev不等式:设随机变量X的数学期望$E(X)=\mu$,方差$D(X)=\sigma^2$,则对于任意正数$\epsilon$,恒有不等式$P(|X-\mu|\geq \epsilon)\leq\sigma^2/\epsilon^2$或$P(|X-\mu|\leq \epsilon)>1-\sigma^2/\epsilon^2$
依概率收敛:设$Y_1,Y_2...Y_n...$是一个随机变量序列,X是一个随机变量,若$\forall \epsilon >0$有$lim_{n\rightarrow +\infty}P(|Y_n-X|\geq \epsilon)=0$或$lim_{n\rightarrow +\infty}P(|Y_n-X|<\epsilon)=1$ ,记作$Y_{n}\xrightarrow[n\rightarrow +\infty ]{P} X$ 。
5.2大数定律
Bernoulli大数定律:设$n_A$表示n次独立重复实验中事件A发生的次数,p是每次实验中A发生的概率,则$\forall \epsilon>0$,有$lim_{n\rightarrow\infty}P(|n_A/n-p|\geq\epsilon)=0$或$lim_{n\rightarrow\infty}P(|n_A/n-p|<\epsilon)=1$=0,即随机事件A在n次实验中发生的频率$n_A/n$依概率收敛于A在一次实验中发生的概率p。
s若随机变量$X_1,X_2...X_n...$满足: $\forall \epsilon>0$,有$lim_{n\rightarrow +\infty}P(|\frac{1}{n}\sum^n_{i=1}X_i-\frac{1}{n}\sum^n_{i=1}E(X_i)|<\epsilon)=1$ ,则称其服从大数定律。
Chebyshev大数定律:设随机变量序列$X_1,X_2...X_n...$两两不相关,它们的方差存在,且方差有共同上界,即$\rho_{X_i X_j}=0,i\neq j,D(X_k)=\sigma_k^2\leq\sigma^2$,记$E(X_i)=a_i$,则该序列服从大数定律。
Khintchine大数定律:设随机变量序列$X_1,X_2...X_n...$独立同分布,且数学期望存在$E(X_k)=\mu$,则该序列服从大数定律。这个定律的意思就是,对同一个指标重复观察,随着观察的次数增多,算术平均值依概率收敛于该指标的数学期望。
5.3中心极限定理
独立同分布的中心极限定理:设随机变量序列$X_1,X_2...X_n...$独立同分布,它们的数学期望和方差都存在,$E(X_k)=\mu,D(X_k)=\sigma^2$,则对任意实数x有$lim_{n\rightarrow\infty} P(\frac{\sum^n_{k=1}X_k-n\mu}{\sqrt{n}\sigma}\leq x)=\Phi(x)$,其中$\Phi(x)=\frac{1}{\sqrt{2\pi}}\int^x_{-\infty}e^{-t^2/2}dt$为正态分布的分布函数。即n足够大时,$\sum_{k=1}^n X_K$的标准化随机变量$\frac{\sum^n_{k=1}X_k-n\mu}{\sqrt{n}\sigma}$的分布函数近似于标准正态随机变量的分布函数$\Phi(x)$,其概率密度近似于标准正态分布的概率密度。
De Moivre-Laplace中心极限定理:设随机变量 $Y_n\sim B(n,p),0<p<1,n=1,2 ...$ ,则对任一实数x,有 $\lim {n \rightarrow \infty} P\left(\frac{Y_n-n p}{\sqrt{n p(1-p)}} \leqslant x\right)=\frac{1}{\sqrt{2 \pi}} \int{-\infty}^x \mathrm{e}^{-\frac{t^2}{2}} \mathrm{~d} t$ ,即 $\frac{Y_n-np}{\sqrt{np(1-p)}} \sim N(0,1)$ , 从而对任意 $a<b$ , 有 $\lim _{n \rightarrow \infty} P\left(a<\frac{Y_n-n p}{\sqrt{n p(1-p)}} \leqslant b\right)=\frac{1}{\sqrt{2 \pi}} \int_a^b \mathrm{e}^{-\frac{t^2}{2}} \mathrm{~d} t$
于是乎,对于二项分布$B(n,p)$,我们有这样一些算法
- n<10,直接用二项分布公式
- n大,p或1-p小,np适中,用poisson分布
- n大,0.1<p<0.9,或n>100,p<0.1,用正态分布$N(np,np(1-p))$
6数理统计的预备知识
6.1基本概念
所研究的对象的某个(或某些)数量指标的全体称为总体。个体就是总体的每个数量指标。
为研究总体的特征,从中抽取部分个体,称为样本,比如从总体X中抽取了n个个体$(X_1,X_2...X_n)$。样本观测值为n位向量$(X_1,X_2...X_n)$的一组可能的取值$(x_1,x_2...x_n)$。样本的所有可能取值的集合称为样本空间,记为$\chi$ 。
如果来自总体的一个样本$(X_1,X_2...X_n)$满足其中的每个X独立同分布,则称这是取自总体X的简单随机样本。
$g(r_1,r_2...r_n)$是一个实值连续函数,且不含除自变量以外的未知参数,则称随机变量$g(X_1,X_2...X_n)$为统计量,如果$(x_1,x_2...x_n)$是一个样本值,则称$g(x_1,x_2...x_n)$为统计量$g(X_1,X_2...X_n)$的一个样本值。
总结而言,$X$是样本(总体的一部分),$x$是样本的一个值(比如实验或统计得到的值)
常用的统计量:
- 样本均值,$\overline{X}=\frac{1}{n}\sum^n_{i=1}X_i$ ,样本值记为$\overline{x}$
- 样本方差:$S^2=\frac{1}{n-1}\sum^n_{i=1}(X_i-\overline{X})^2$ ,样本值记为$s^2$ 。标准差就是方差开根号。 注意与中心矩的区别,这个除n-1而二阶中心矩除以n,但是在n很大时,近似相等
- 样本k阶原点矩:$M_k=\frac{1}{n}\sum^n_{i=1}X^k_i\ (k=1,2 ...)$ ,样本值记为$m_k$ 。
- 样本k阶中心矩:$(CM)k=\frac{1}{n}\sum^n{i=1}(X_i-\overline{X})^k\ (k=1,2 ...)$ ,样本值记为$(cm)_k$。
- 把样本值按大小顺序排序为$x_1^\leq x_2^...\leq x_n^$。记$X_{(k)}=x_k^$,称统计量$X_{(1)},X_{(2)}...X_{(n)}$为顺序统计量,$D_n=X_{(n)}-X_{(1)}$为极差。 (此时,$X_{(i)}$之间已不独立也不同分布)
格里汶科定理:n大,则可以用经验分布函数$F_n(x)$来表示$F(x)$。即比如我统计了100个10岁小学生的身高,然后把数据从小到大排序,得出了身高的直方图,我可以以此估计10岁小学生身高的分布函数。
分位数:X是连续型随机变量,其概率密度为$f(x)$,$\alpha$为给定常数,$0<\alpha<1$,若$P(X>x_\alpha)=\alpha$,则称$x_\alpha$为X所服从分布的上侧$\alpha$分位数。如果X的概率密度为偶函数,则对于满足$0<\alpha<1$的$\alpha$,若$P(|X|>x_{\alpha/2})=\alpha$,则称$x_{\alpha/2}$为X所服从分布的双侧$\alpha$分位数。
6.2常用统计量的分布
正态分布:
若 $X_1, X_2, \cdots, X_n \sim N\left(\mu_i, \sigma_i^2\right)$, 相互独立 则 $\sum_{i=1}^n a_i X_i \sim N\left(\sum_{i=1}^n a_i \mu_i, \sum_{i=1}^n a_i^2 \sigma_i^2\right)$ 特别地, 若 $X_1, X_2, \cdots, X_n \stackrel{\text { i.i.d. }}{\sim} \quad X_i \sim N\left(\mu, \sigma^2\right)$ 则 $\bar{X}=\frac{1}{n} \sum_{i=1}^n X_i \sim N\left(\mu, \frac{\sigma^2}{n}\right)$
$\chi^2$分布:
相互独立的标准正态分布的平方和。$\chi^2=\sum X_i^2$
$f_{\chi^2}(x)=(2^{n/2}\Gamma(n/2))^{-1}e^{-x/2}x^{n/2-1},x>0;\ 0,x\leq 0$
$\Gamma(x)=\int^{+\infty}_0 t^{x-1}e^{-t}dt$
性质:对于有n个自由度的$\chi^2$分布,$E(\chi^2)=n,D(\chi^2)=2n$ ;两个相互独立的$\chi^2$分布可加;n很大时$\chi^2$分布近似于正态分布$N(n,2n)$
student分布:
$X\sim N(0,1),Y\sim \chi^2(n)$相互独立,随机变量$T=X/\sqrt{Y/n}$服从自由度为n的t分布,记$T\sim t(n)$ 。
$f(t)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(n/2)}(1+\frac{t^2}{n})^{-\frac{n+1}{2}}$
性质:t分布为概率密度为$f(t)$的偶函数,n趋于无穷时,$f(t)\rightarrow \varphi(t)=\frac{e^{-t^2/2}}{\sqrt{2\pi}}$ ;$t_{1-\alpha}(n)=-t_\alpha(n)$;n>45时,可以用标准正态分布近似
F分布:
$U\sim\chi^2(m),V\sim \chi^2(n)$相互独立,随机变量$F=\frac{U/m}{V/n}$服从第一自由度为m第二自由度为n的F分布,记为$F\sim F(m,n)$
$f(t, n, m)=\left{\begin{array}{cc}\frac{\Gamma\left(\frac{n+m}{2}\right)}{\Gamma\left(\frac{n}{2}\right) \Gamma\left(\frac{m}{2}\right)}\left(\frac{n}{m}\right)^{\frac{n}{2}} t^{\frac{n}{2}-1}\left(1+\frac{n}{m} t\right)^{-\frac{n+m}{2}} & t>0 \ 0, & t \leq 0\end{array}\right.$
性质:若$F\sim F(m,n)$,则$1/F\sim F(n,m)$ (这是分布) ;$F_{1-\alpha}(m,n)=1/F_\alpha(n,m)$ (这是分位数)
6.3正态总体的抽样分布
抽样分布指统计量的分布。
6.3.1单个正态总体的抽样分布
设$X\sim N(\mu,\sigma^2)$,$(X_1,X_2...X_n)$是来自总体X的简单随机样本,$\overline{X},S^2$分别是样本均值和样本方差。则: 1)$\overline{X}\sim N(\mu,\sigma^2/n)$ 2)$\frac{(n-1)S^2}{\sigma^2}=\sum^n_{i=1}(\frac{X_i-\overline{X}}{\sigma})^2\sim\chi^2(n-1)$ 3)$\overline{X}$和$\frac{(n-1)S^2}{\sigma^2}$相互独立 4)$\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$
6.3.2两个正态总体的抽样分布
设 $X\sim N\left(\mu_1, \sigma_1^2\right)$,$\left(X_1, X_2, \cdots, X_n\right)$ 是来自总体 $X$ 的一个简单的随机样本; $Y\sim N\left(\mu_2, \sigma_2^2\right)$,$\left(Y_1, Y_2, \cdots, Y_m\right)$ 是来自总体 $Y$ 的一个简单的随机样本, 并且 $X$ 与 $Y$ 相互独立。令 $\overline{X}=\frac{1}{n} \sum_{i=1}^{\infty} X_i, S_1^2=\frac{1}{n-1} \sum_{i=1}^{\infty}\left(X_i-\overline{X}\right)^2, \overline{Y}=\frac{1}{m} \sum_{j=1}^{\infty} Y_j, S_2^2=\frac{1}{m-1} \sum_{j=1}^n\left(Y_j-\overline{Y}\right)^2$, 则 (1) $\frac{S_1^2}{S_2^2} / \frac{\sigma_1^2}{\sigma_2^2} \sim F(n-1, m-1)$, 特别地, 当 $\sigma_1=\sigma_2$ 时, $\frac{S_1^2}{S_2^2} \sim F(n-1, m-1)$. (2) 当 $\sigma_1=\sigma_2=\sigma$ 时, $$ \frac{(\overline{X}-\overline{Y})-\left(\mu_1-\mu_2\right)}{\sqrt{\frac{1}{n}+\frac{1}{m}} \sqrt{\frac{(n-1) S_1^2+(m-1) S_2^2}{n+m-2}}} \sim t(n+m-2) $$ 根本记不住,你让我怎么理智。
用于已知均值和方差,求某某样本出现的概率,求某某样本的函数的分布。
7参数估计
用得到的样本去估计分布函数中的未知参数
7.1点估计
7.1.1频率替代
适用于分布中只有唯一的未知参数。
根据Bernoulli大数定律(随机事件A在n次实验中发生的频率$n_A/n$依概率收敛于A在一次实验中发生的概率p),可以用频率替代概率,然后直接把参数算出来。
7.1.2矩估计
用样本矩估计总体矩。
已知$F(x;\theta_1,\theta_2...\theta_n)$,可以算出各种阶矩(中心矩、原点矩),与此同时用样本算出这些矩,然后认为对应的矩近似相等,列出方程组,解出参数$\hat\theta_i$ 。
如果期望、二阶矩之类的有不存在,则用不了(Cauchy分布期望不存在)。
7.1.3极大似然估计
概率最大的随机事件在一次试验中最有可能发生。
似然函数$L(\theta)=\Pi^n_{i=1} P(X_i)$,其中$P(X_i)$是某一个事件发生的概率。我们希望这整组样本的所有事件一起发生的概率最大。为了方便,我们可以先取对数再求导,$\partial lnL(\theta_1,\theta_2...\theta_n)/\partial\theta_i=0$,解方程组得到$\hat\theta$。
极大似然估计也不一定存在,存在也不一定唯一。
若$\hat\theta$是未知参数$\theta$的极大似然估计,$g(\theta)$是$\theta$的连续函数,则$\hat g=g(\hat\theta)$是$g=g(\theta)$的最大似然估计。这对矩估计不一定成立。
7.1.3+ 正态函数的极大似然估计
随机变量X服从正态分布: $X \sim N\left(\mu, \sigma^2\right), \quad \sigma \geq 0$
如果有 $\mathrm{n}$ 个可观察样本, 根据最大似然函数的公式: $$ \begin{aligned} & L\left(\mu, \sigma^2\right)=\prod_{i=1}^n f\left(x_i ; \mu, \sigma^2\right)=\prod_{i=1}^n \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(x_i-\mu\right)^2}{2 \sigma^2}\right) \ &=\left(\frac{1}{\sqrt{2 \pi} \sigma}\right)^n \exp \left(-\sum_{i=1}^n \frac{\left(x_i-\mu\right)^2}{2 \sigma^2}\right) \end{aligned} $$ 取对数似然函数, 写出似然方程组: $$ \begin{aligned} & \ln L\left(\mu, \sigma^2\right)=\ln \left(2 \pi \sigma^2\right)^{-\frac{n}{2}} \exp \left(-\sum_{i=1}^n \frac{\left(x_i-\mu\right)^2}{2 \sigma^2}\right) \ &=\ln \left(2 \pi \sigma^2\right)^{-\frac{n}{2}}+\ln \exp \left(-\sum_{i=1}^n \frac{\left(x_i-\mu\right)^2}{2 \sigma^2}\right) \ &=-\frac{n}{2} \ln 2 \pi \sigma^2-\sum_{i=1}^n \frac{\left(x_i-\mu\right)^2}{2 \sigma^2} \ & \frac{\partial \ln L}{\partial \sigma^2}=-\frac{\partial \sigma^2}{2}+ \frac{1}{2 \sigma^4} \sum_{i=1}^n\left(x_i-\mu\right)^2=0 \ & \frac{\partial \ln L}{\partial \mu}=\frac{1}{\sigma^2} \sum_{i=1}^n\left(x_i\right.-\mu)=0 \ \end{aligned} $$ 解得: $$ \hat\sigma^2=\frac{1}{n} \sum_{i=1}^n\left(x_i-\overline{x}\right)^2=cm_2 \ \ ,\ \ \hat\mu=\overline{x} $$ 和矩估计的结果一样
7.2估计量的评价标准
7.2.1无偏性
我们希望在多次观测中,$\hat\theta$在$\theta$附近波动。
是无偏估计量,则要求$E(\hat\theta)=\theta$ ;称$\varepsilon=E(\hat\theta)-\theta$为偏差。
不论总体X服从什么分布,下面讨论其期望和方差的无偏估计量。 $E(\overline{X})=E(\frac{1}{n}\sum_{i=1}^n X_i)=\frac{1}{n}\sum _{i=1}^n E(X_i)=\mu$
$E(\sum_{i=1}^n(X_i-\overline{X})^2)=E(\sum X_i^2-2\sum X_i\cdot\overline{X}+\sum \overline{X^2})=E(\sum X_i^2-n\overline{X^2})$ $=\sum E(X_i^2)-nE(\overline{X^2})=E(D(X_i)+E^2(X_i))-n(D(\overline{X})+E^2(\overline{X}))=n\sigma^2-n*(1/n)\sigma^2=(n-1)\sigma^2$
不同于极大似然估计套了函数仍旧是极大似然估计,无偏估计的函数不一定是函数的无偏估计。
7.2.2有效性
都是无偏估计,哪个的波动(方差)最小哪个最好。
但是无论什么方法得到的无偏估计量的方差都不能任意小,存在一个方差的下界,若某个无偏估计量的方差达到了下界,那么它就是这个参数的有效估计量。
Rao-Cramer不等式 离散型随机变量无偏估计的方差下界:$D(\hat\theta)\geq I(\theta)=1/(nE[(\frac{\partial ln P(X;\theta)}{\partial \theta})^2])>0$ 连续型随机变量无偏估计的方差下界:$D(\hat\theta)\geq I(\theta)=1/(nE[(\frac{\partial ln f(X;\theta)}{\partial \theta})^2])>0$
7.2.3一致性
$\hat\theta_n=\hat\theta(X_1,X_2...X_n)$,随机变量序列${\hat\theta_n}$收敛于$\theta$,则称$\hat\theta_n$为$\theta$的一致估计量
若$\hat\theta_n$为无偏估计量且$\lim_{n\rightarrow\infty}D(\hat\theta_n)=0$,它就是一致估计量。
7.3区间估计
根据置信度给出置信区间。置信度95%的置信区间的意思是,真值在区间内的概率为95%。
选取样本函数$U(X_1,X_2...X_n;\theta)$,使U只含待估参数$\theta$而不含其他未知参数,U的分布已知且不依赖于未知参数,称U为枢轴量。根据给定的置信度$1-\alpha$,确定 $P(a<U<b)=1-\alpha$ ,然后把U换回去解出 $P(\hat\theta_1<\theta<\hat\theta_2)=1-\alpha$ ,得到 $\theta$ 的置信区间。
7.3.2单个正态总体参数的置信区间
7.3.2.1啥都未知
给定置信度$1-\alpha$,已知样本均值$E(X)$和样本方差$S^2$ ,数据量$n$
7.3.2.1.1均值$\mu$的置信区间
方差未知,枢轴量$T=\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$。可得: $$ P(|T|<t_{\alpha/2}(n-1)) $$ 即: $$ P(\overline{X}-t_{\alpha/2}(n-1)*S/\sqrt{n}<\mu<\overline{X}+t_{\alpha/2}(n-1)*S/\sqrt{n}) $$ 由此得到 $\mu$ 的置信度为 $1-\alpha$ 的置信区间是 $$ \left(\overline{X}-t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}}, \overline{X}+t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}}\right) $$ n很大时可以把t分布用标准正态分布近似。
7.3.2.1.2方差 $\sigma^2$ 的置信区间
圴值未知,枢轴量 $X^2=\frac{(n-1) S^2}{\sigma^2}-\chi^2(n-1)$。可得: $$ P\left(\chi_{1-\alpha / 2}^2(n-1)<\frac{(n-1) S^2}{\sigma^2}<x_{\alpha/2}^2(n-1)\right)=1-\alpha $$ 即: $$ P\left(\frac{(n-1) S^2}{\chi_{\alpha / 2}^2(n-1)}<\sigma^2<\frac{(n-1) S^2}{\chi_{1-\alpha / 2}^2(n-1)}\right)=1-\alpha $$ 由此得到 $\sigma^2$ 的置信度为 $1-\alpha$ 的置信区间是 $$ \left(\frac{(n-1) S^2}{\chi_{\alpha/2}^2(n-1)}, \frac{(n-1) S^2}{\chi_{1-a / 2}^2(n-1)}\right) $$ n很大时可以把卡方分布用正态分布$X\sim N(n,2n)$近似。
7.2.3.2有已知
方差$\sigma^2$已知,枢轴量$U=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$
均值$\mu$已知,枢轴量$U=\frac{1}{\sigma^2}\sum^n_{i=1}(X_i-\mu)^2\sim\chi^2(n)$
7.3.3两个正态总体参数的置信区间
$X\sim N(\mu_1,\sigma_1^2),\ Y\sim N(\mu_2,\sigma_2)$,XY相互独立,样本规模为$n_1,n_2$ 样本均值和方差已知,置信度$1-\alpha$
7.3.3.1均值差$\mu_1-\mu_2$
7.3.3.1.1方差均已知
$U=\frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{\sigma^2_1/n_1+\sigma^2_2/n_2}}\sim N(0,1)$
7.3.3.1.2方差均不知,但相等
$T=\frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{S_W\sqrt{1/n_1+1/n_2}}\sim t(n_1+n_2-2),\ S_W^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}$
7.3.3.1.3方差不知且不一定相等,但$n_1=n_2$
$Z_i=X_i-Y_i$配对,则$Z_i=X_i-Y_i\sim N(\mu_1-\mu_2,\sigma_1^2+\sigma_2^2)$ ,当作单个正态总体算
7.3.3.1.4都不知,但是n很大
$U=\frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{S^2_1/n_1+S^2_2/n_2}}\sim N(0,1)$ 近似
7.3.3.2方差比$\sigma_1^2/\sigma_2^2$
$F=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)$
7.3.4单侧置信区间
就是把$\alpha/2$变成了$\alpha$,大差不差的,枢轴量不用改。
7.3.5非正态总体的置信区间
当n很大时,用样本去估计$\mu$,根据中心极限定理,$U=\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim N(0,1)$ 近似。
8假设检验
面对一个事件,有人断言该事件的真伪,我们是否要相信该断言呢?假设该断言成立,如果我们的试验样本成为了一个小概率事件,那么就推翻这个断言。
8.1基本
8.1.1 U检验法
原假设$H_0:A$ 。备择假设$H_1:\overline{A}$ 。原假设通常选声明的、现状的、不能轻易否定的;备择假设通常选改革的、需要被研究证明的。
显著性水平$\alpha$:犯第$I$类错误(弃真)的概率。犯第$II$类错误(存伪)的概率为$\beta$。$\alpha+\beta<1$,$\alpha\ ,\ \beta$负相关。 $\alpha=0.05$称拒绝$H_0$是显著的,$\alpha=0.01$称拒绝$H_0$是高度显著的。
拒绝$H_0$的范围称为拒绝域。构造一个检验统计量来计算拒绝域。
8.1.2 P检验法
根据我们的样本去算什么显著性水平下刚好拒绝,得到这个显著性水平叫p。
8.2单个正态总体参数的假设检验
和区间估计其实一样的东西
8.2.1均值,$H_0$指向$\mu_0$
方差已知:$U=\frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}\sim N(0,1)$ 双侧则$|U|>u_{\alpha/2}$,单侧则$U>u_\alpha$或$U<-u_\alpha$
方差未知:$T=\frac{\overline{X}-\mu_0}{S/\sqrt{n}}\sim t(n-1)$ 双侧,单侧...
8.2.2方差,$H_0$指向$\sigma_0^2$
均值已知:$\chi^2=\frac{\sum^n_{i=1}(X_i-\mu)^2}{\sigma_0^2}$ 双侧则$\chi^2>\chi^2_{\alpha/2}(n)$或$\chi^2<\chi_{1-\alpha/2}^2(n)$ ,单侧则$\chi^2>\chi^2_\alpha(n)$或$\chi^2<\chi^2_{1-\alpha}(n)$
均值未知:$\chi^2=\frac{\sum^n_{i=1}(X_i-\overline{X})^2}{\sigma_0^2}$ 和上面基本类似。
8.3两个正态总体参数的假设检验
比如说问两组样本有无显著差异。
选取的检验统计量就和前面区间估计的枢轴量一样就行。