变上限积分:设积分形式为(boxed{I(x)=int_{v(x)}^{u(x)}f(t,x)text{d}t}),则对(I(x))求导得:
二重积分:(boxed{iint_Df(x,y)text{d}sigma=int_a^bleft[int_{phi_1(x)}^{phi_2(x)}f(x,y)text{d}yright]text{d}x}),
试验:对某种特性的观察。
随机试验:满足以下三个条件的试验,记作试验(E):
样本空间:试验(E)的全部基本事件组成的集合,记作(Omega)。
样本点:样本空间的元素。
随机事件:对随机试验的观察中,试验的结果,记作(A_1)、(A_2)等。
基本事件:随机试验每一个不可再分的结果,记作(a)、(b)等。
必然事件与不可能事件:必然会发生的事件是必然事件。
随机事件的运算:
包含: (A subset B)
和事件: (A + B)
差事件: (A - B)
积事件: (AB)
事件(A_1, A_2)互不相容/互斥: (A_1A_2 = emptyset)
事件(A_1, A_2, cdots, A_n)互不相容: (A_iA_j = emptyset(ineq j))
事件(A_1, A_2)对立: (A_1+A_2 = Omega)、(A_1=overline{A_2})
交换律、结合律、分配律、德摩根公式
古典概型:记试验(E):(Omega={e_1,e_2,cdots,e_n}),且有限个基本事件等可能发生,则(P(A)=dfrac{事件A包含基本事件个数}{基本事件总数n})。
推论:
条件概率:(P(A|B)=dfrac{P(AB)}{P(B)})。
乘法公式:若(P(B)>0),则(P(AB)=P(A|B)P(B))。
事件的独立性:若(P(AB)=P(A)P(B)),则事件(A)与(B)独立。
设(P(B)>0),则(A, B)独立(iff P(A|B)=P(A))
设事件(A_1,A_2,cdots,A_n)相互独立,则:
[begin{array}{l} P(A_1+A_2+cdots+A_n) & = & 1-P(overline{A_1+A_2+cdots+A_n}) \ & = & 1-P(overline{A_1}spaceoverline{A_2}cdotsoverline{A_n}) \ & = & 1-P(overline{A_1})cdot P(overline{A_2})cdots P(overline{A_n}) end{array} ]
全概率公式:设(B_1, B_2,cdots ,B_n)为(Omega)的一个完整事件组,且(P(B_i)>0(i=1,2,cdots,n)),则:(P(A)=sum_{i=1}^nP(A|B_i)P(B_i))。
贝叶斯公式:设(B_1, B_2,cdots ,B_n)为(Omega)的一个完整事件组,且(P(B_i)>0(i=1,2,cdots,n)),则对任意(P(A)>0)的事件:(P(B_i|A)=dfrac{P(AB_i)}{P(A)}=dfrac{P(A|B_i)P(B_i)}{sum_{i=1}^nP(A|B_i)P(B_i)})。
集合族:幂集的子集,可以理解为“集合的集合”。
事件域:设集合族(F)是样本空间(Omega)的某些子集构成的一个集合族,且满足下面三个条件,则称(F)是(Omega)上的一个事件域:
概率测度函数:给定样本空间(Omega)和其上的事件域(F),一个概率测度函数是从(F)到区间([0,1])的映射(P: F rightarrow [0,1]),并满足下面三条概率公理:
概率的公理化定义:概率测度函数是定义在某个事件域 (F) 上的一个满足上述三条性质的函数 (P),事件(A in F)的概率是(P(A))。
概率空间:一个三元组((Omega, F, P)),包含样本空间、事件域、概率测度函数。
随机变量:设((Omega, F, P))是一个概率空间,则随机变量是一个从样本空间(Omega)到实数集(R)的函数(X: Omega rightarrow R),并满足下面的条件:
可测性:(forall x in R, {omega in Omega | X(omega) leq x} in F)
可测性简化写法:(forall x in R, {X leq x} in F)
可测性的含义:可以把({X leq x})这种“所有使得函数值小于等于 (x) 的样本点组成的集合”视为一个事件,作为概率测度函数(P)的自变量,进而合理谈论积分等数学操作。
注意事项:随机变量是一个函数,把样本点映射为数值
分布函数:设(X)是一个定义在概率空间((Omega, F, P))的随机变量,则其累计分布函数(Cumulative Distribution Function, 简称 CDF)记为:
[F_X(x)=P(Xleq x)=P(omegain {omega in Omega | X(omega) leq x}),xin R ]
即:对任意实数(x),(F_X(x)) 表示样本点(omega)满足(X(omega) leq x)的概率。
分布函数的充要条件:
概率计算常用等式:小于等于就是函数值,小于就是左极限
(P(Xleq a) = F(a))
(P(X
(P(X=a)=F(a)-F(a-0))
(P(a
离散型随机变量:函数值只有有限个或可列无限个值的随机变量(X: Omega rightarrow S)((S)是可数集或可列无限集)。
分布律:设离散型随机变量(X)的所有可能取值为(x_1,x_2,cdots),则其分布律是一个概率质量函数:(p(x_i)=P(X=x_i))。也可以用表格表示:
(X) | (x_1) | (x_2) | (cdots) |
---|---|---|---|
(P(X=x_i)) | (p(x_1)) | (p(x_2)) | (cdots) |
连续型随机变量概念:可以在某个区间(或多个区间)内取任意实数值。
分布函数:(F_X(x)=P(Xleq x))。
概率密度函数:如果存在一个非负函数(f_X(x)),使得对任意实数(x),有:(F_X(x)=int_{-infin}^{x}f_X(t)text{d}t),则(X)为连续型随机变量,(f_X(x))为(X)的概率密度函数。另外,如果(f(x))是某个连续型随机变量(X)的概率密度函数,当且仅当具有以下三条性质:
设(X)为连续型随机变量,分布函数(F_X(X)),概率密度函数为(f_X(x)),则:
积分表:
分布名称 | 类型 | 概率函数 / 密度函数 (f(x)) 或 (P(X=x)) | 分布函数 (F(x)) | 期望 (E(X)) | 方差 (text{Var}(X)) |
---|---|---|---|---|---|
两点分布 (伯努利分布) |
离散 | (begin{array}{l} P(X=1)=p,\ P(X=0)=1-pend{array}) | 阶梯函数: (F(x) = begin{cases} 0 & x |
(p) | (p(1-p)) |
二项分布 (B(n,p)) |
离散 | (begin{array}{l} binom{n}{k} p^k (1-p)^{n-k},\ k=0,1,dots,nend{array}) | (F(x) = sum_{k=0}^{lfloor x rfloor} binom{n}{k} p^k (1-p)^{n-k}) | (np) | (np(1-p)) |
泊松分布 (P(lambda)) |
离散 | (dfrac{lambda^k e^{-lambda}}{k!}, k=0,1,2,dots) | (F(x) = sum_{k=0}^{lfloor x rfloor} dfrac{lambda^k e^{-lambda}}{k!}) | (lambda) | (lambda) |
超几何分布 (H(N,K,n)) |
离散 | (begin{array}{l}dfrac{binom{K}{k}binom{N-K}{n-k}}{binom{N}{n}},\ k=0,1,dots,min(n,K)end{array}) | 无显式表达,可通过累加计算 | (ncdotfrac{K}{N}) | (ncdotfrac{K}{N}cdotleft(1-frac{K}{N}right)cdotfrac{N-n}{N-1}) |
均匀分布 (U(a,b)) |
连续 | (f(x) = dfrac{1}{b-a}, a le x le b) | (F(x) = begin{cases} 0 & x b end{cases}) | (frac{a+b}{2}) | (frac{(b-a)^2}{12}) |
指数分布 (Exp(lambda)) |
连续 | (f(x) = lambda e^{-lambda x}, x ge 0) | (F(x) = 1 - e^{-lambda x}, x ge 0) | (frac{1}{lambda}) | (frac{1}{lambda^2}) |
伽马分布 (Gamma(k,theta)) |
连续 | (begin{array}{l}f(x) = dfrac{x^{k-1}e^{-x/theta}}{theta^k Gamma(k)},\ x > 0end{array}) | 无显式表达,需数值积分 | (ktheta) | (ktheta^2) |
正态分布 (N(mu,sigma^2)) |
连续 | (f(x) = dfrac{1}{sqrt{2pi}sigma} e^{-frac{(x-mu)^2}{2sigma^2}}) | (F(x) = Phileft( dfrac{x - mu}{sigma} right)),其中 (Phi) 是标准正态分布函数 | (mu) | (sigma^2) |
指数分布性质:
正态分布性质:若(Xsim N(mu, sigma^2)),则:
二维随机变量:设(X, Y)是定义在同一概率空间((Omega, F, P))的两个随机变量,则称((X,Y): OmegarightarrowR^2)为一个二维随机变量。
联合分布函数:((X,Y))的联合分布函数为(F_{X,Y}(x,y)=P(Xleq x, Yleq y),x,yin R),即随机变量(X)不超过(x)且随机变量(Y)不超过(y)的联合概率。
有界性:(0≤F_{X,Y}(x,y)≤1)。
规范性:以下四条
单调不减:
右连续:
(F_{X,Y}(x+0,y)=F_{X,Y}(x,y))
(F_{X,Y}(x,y+0)=F_{X,Y}(x,y))
概率计算常用等式:
边缘分布函数:忽略一个变量,只对单独一个变量的概率分布。
二维离散型随机变量:设(X, Y)是定义在同一概率空间((Omega, F, P))的两个离散型随机变量,则称((X,Y): Omegarightarrow S^2)为一个二维随机变量((S^2)是可数集或可列无限集)。
联合分布律:(p_{ij}=P(X=x_i,Y=y_j))或表格法。
边缘分布律:对于表格法来说,在最下和最右各加一栏求和。
条件分布律:
(P(X=x_i|Y=y_i)=dfrac{P(X=x_i,Y=y_i)}{P(Y=y_i)})。
(P(Y=y_i|X=x_i)=dfrac{P(X=x_i,Y=y_i)}{P(X=x_i)})。
判断独立性:联合分布律各行(列)成比例。
二维连续型随机变量:若((X,Y))在平面上的某个区域中可以取任意不可数个实数值,则称((X,Y): OmegarightarrowR^2)为一个二维连续型随机变量。
联合分布函数:(F_{X,Y}(x,y)=P(Xleq x, Yleq y),x,yin R)。
联合概率密度函数:若存在非负函数(f_{X,Y}(x,y)),使得对任意(x,yin R)都有:(F_{X,Y}(x,y)=int_{-infin}^{y}int_{-infin}^{x}f_{X,Y}(u,v)text{d}utext{d}v),则称(f_{X,Y}(x,y))为((X,Y))的联合概率密度函数。
边缘分布函数:忽略一个变量,只关心一个变量情况下的累计概率。
边缘概率密度函数:保留关心的维度,把不关心的维度“积掉”
条件分布函数与条件概率密度:
判断两个连续型随机变量是否独立:二者任选其一
判断两个随机变量是否独立的定义:(forall A,Bsubseteq R, P(Xin A,且 Yin B)=P(Xin A)P(Y in B))。
由(F_Z(z)=P(Zleq z)=P(g(X,Y)leq z)),对右边的集合变形:
[{omegainOmega|g(X(omega),Y(omega))leq z}={omegainOmega|(X(omega),Y(omega))in{(x,y)inR^2|g(x,y)leq z}} ]
因为等号两边是同一个事件,所以代入概率测度函数得到的函数值相等。记(A_z={(x,y)inR^2|g(x,y)leq z}),则(P(g(X,Y)leq z)=P((X,Y)in A_z))。根据概率密度函数的广义定义:
[P((X,Y)in A)=iint_{A_z}f_{X,Y}(x,y)text{d}xtext{d}y ]
所以:
[boxed{F_Z(z)=iint_{g(x,y)leq z}f_{X,Y}(x,y)text{d}xtext{d}y} ]
同样,最终得到的是勒贝格积分,但对于连续概率密度函数与规则区域,可视为二维黎曼积分。
此外,若(X_1,X_2,cdots,X_n)相互独立,则:
(Z=max(X_1,X_2,cdots,X_n))的分布函数为(F_{max}(z)=F_{X_1}(z)F_{X_2}(z)cdots F_{X_n}(z)),
(Z=min(X_1,X_2,cdots,X_n))的分布函数为(F_{min}(z)=1-[1-F_{X_1}(z)][1-F_{X_2}(z)]cdots [1-F_{X_n}(z)])。
协方差:设(X,Y)是两个随机变量,期望分别为(E(X))和(E(Y)),则协方差:(boxed{text{Cov}(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)})
协方差的性质:
(text{Cov}(aX+b,cY+d)=actext{Cov}(X,Y))、(text{Cov}(X,X)=D(X))
若(X,Y)相互独立,则(text{Cov}(X,Y)=0),反着不成立。
相关系数:设(X,Y)是两个随机变量,期望分别为(E(X))和(E(Y)),方差分别为(D(X))和(D(Y)),协方差为(text{Cov}(X,Y))则:(text{Cov}(X,Y))则:(boxed{rho_{XY}=dfrac{text{Cov}(X,Y)}{sqrt{D(X)D(Y)}}})。
相关系数的性质:
若(rho_{XY}=0),则称(X)和(Y)不相关。
不相关仅表示(X,Y)无限性关系,而独立表示(X,Y)完全无关系。
(X,Y)独立则一定不相关,而不相关不能推出独立。
(|rho_{XY}|leq 1)、(rho_{XY}=rho_{YX})、(rho_{XX}=1)。
不相关的四个等价命题:两变量独立等价于协方差、相关系数为零、期望的乘积等于乘积的期望、和的方差可分解。
[boxed{text{Cov}(X,Y)=0iffrho_{XY}=0iff E(XY)=E(X)E(Y)iff D(Xpm Y)=D(X)+D(Y)} ]
随机向量(boldsymbol{X}=(X_1,X_2,cdots,X_n)^T)的协方差矩阵:设
[boldsymbol{X} = begin{bmatrix} X_1 \ X_2 \ vdots \ X_n end{bmatrix},quad E(boldsymbol{X}) = boldsymbol{mu} = begin{bmatrix} mu_1 \ mu_2 \ vdots \ mu_n end{bmatrix} ]
则:
[text{Cov}(boldsymbol{X}) = E left((boldsymbol{X} - boldsymbol{mu})(boldsymbol{X} - boldsymbol{mu})^T right) ]
故:
[boldsymbol{Sigma} = text{Cov}(boldsymbol{X}) = begin{bmatrix} text{Cov}(X_1,X_1) & text{Cov}(X_1,X_2) & cdots & text{Cov}(X_1,X_n) \ text{Cov}(X_2,X_1) & text{Cov}(X_2,X_2) & cdots & text{Cov}(X_2,X_n) \ vdots & vdots & ddots & vdots \ text{Cov}(X_n,X_1) & text{Cov}(X_n,X_2) & cdots & text{Cov}(X_n,X_n) end{bmatrix} ]
对于二维随机变量(boldsymbol{Z}=(X,Y)^T),由于(text{Cov}(X,Y)=text{Cov}(Y,X))、(text{Cov}(X,X)=D(X))、(text{Cov}(Y,Y)=D(Y)),所以其协方差矩阵为:
[text{Cov}(boldsymbol{Z}) = begin{bmatrix} D(X) & text{Cov}(X,Y) \ text{Cov}(X,Y) & D(Y) end{bmatrix} ]
特殊性质:
[boldsymbol{Sigma} = text{Cov}(boldsymbol{X}) = begin{bmatrix} D(X_1) & 0 & cdots & 0 \ 0 & D(X_2) & cdots & 0 \ vdots & vdots & ddots & vdots \ 0 & 0 & cdots & D(X_n) end{bmatrix} ]
二维正态分布 ((X, Y)) 的概率密度函数为:
[f_{X,Y}(x,y) = frac{1}{2pisigma_Xsigma_Ysqrt{1-rho^2}} expleft{ -frac{1}{2(1-rho^2)}left[ left(frac{x - mu_X}{sigma_X}right)^2 - 2rholeft(frac{x - mu_X}{sigma_X}right)left(frac{y - mu_Y}{sigma_Y}right) + left(frac{y - mu_Y}{sigma_Y}right)^2 right] right} ]
其中参数满足:
记作:
[(X, Y) sim N(mu_X, mu_Y, sigma_X^2, sigma_Y^2, rho) ]
特征 | 表达式 |
---|---|
联合分布 | ((X, Y) sim N(mu_X, mu_Y, sigma_X^2, sigma_Y^2, rho)) |
边缘分布 | (X sim N(mu_X, sigma_X^2),quad Y sim N(mu_Y, sigma_Y^2)) |
数学期望 | (E(X) = mu_X,quad E(Y) = mu_Y) |
方差 | (D(X) = sigma_X^2,quad D(Y) = sigma_Y^2) |
协方差 | (text{Cov}(X, Y) = rho sigma_X sigma_Y) |
相关系数 | (rho_{XY} = rho) |
独立条件 | 当且仅当 (rho = 0) 时,(X) 与 (Y) 独立 |
线性组合分布 | (aX + bY sim N(amu_X + bmu_Y, a^2sigma_X^2 + b^2sigma_Y^2 + 2abrhosigma_Xsigma_Y)) |
多维正态分布定义:设 (boldsymbol{X} = (X_1, X_2, ldots, X_n)^T) 是一个 (n) 维随机向量,其期望为:
[boldsymbol{mu} = E(boldsymbol{X}) = begin{bmatrix} E(X_1) \ E(X_2) \ vdots \ E(X_n) end{bmatrix} = begin{bmatrix} mu_1 \ mu_2 \ vdots \ mu_n end{bmatrix} ]
其协方差矩阵为:
[boldsymbol{Sigma} = text{Cov}(boldsymbol{X}) = Eleft((boldsymbol{X} - boldsymbol{mu})(boldsymbol{X} - boldsymbol{mu})^Tright) ]
若(boldsymbol{X}) 的联合概率密度函数为:
[f_{boldsymbol{X}}(boldsymbol{x}) = frac{1}{(2pi)^{n/2}text{det}(boldsymbol{Sigma})^{1/2}} expleft{ -frac{1}{2} (boldsymbol{x} - boldsymbol{mu})^T boldsymbol{Sigma}^{-1} (boldsymbol{x} - boldsymbol{mu}) right} ]
其中:
则称 (boldsymbol{X}) 服从 (n) 维正态分布,记作:
[boldsymbol{X} sim N_n(boldsymbol{mu}, boldsymbol{Sigma}) ]
在人工智能相关的论文中,常写作(boldsymbol{X} sim mathcal{N}_n(boldsymbol{mu}, boldsymbol{Sigma}))。
二维正态分布的表示:
[boldsymbol{X} = begin{bmatrix} X_1 \ X_2 end{bmatrix} sim mathcal{N}_nleft( begin{bmatrix} mu_1 \ mu_2 end{bmatrix}, begin{bmatrix} sigma_1^2 & rho sigma_1 sigma_2 \ rho sigma_1 sigma_2 & sigma_2^2 end{bmatrix} right) ]
如果用(boldsymbol{Z}=(X,Y)^T)表示,则可以写成:
[boldsymbol{Z} = begin{bmatrix} X \ Y end{bmatrix} sim mathcal{N}_nleft( begin{bmatrix} mu_X \ mu_Y end{bmatrix}, begin{bmatrix} sigma_X^2 & rho_{XY} sigma_X sigma_Y \ rho_{XY} sigma_X sigma_Y & sigma_Y^2 end{bmatrix} right) ]
标准正态分布:设一个 $ n $ 维随机向量:
[boldsymbol{X} = begin{bmatrix} X_1 \ X_2 \ vdots \ X_n end{bmatrix} ]
如果它的每个分量 $ X_i sim N(0, 1) $,并且各分量之间相互独立,则称这个随机向量服从 n 维标准正态分布,记作:
[boldsymbol{Z} sim mathcal{N}_n(boldsymbol{0}, boldsymbol{I}_n) ]
其中:
k阶原点矩:(mu_k'=E(X^k))。数学期望是一阶原点矩。
k阶中心距:(mu_k=E((X-E(X))^k))。方差是二阶中心距。
矩生成函数:设(X)为随机变量,其矩生成函数定义为:(boxed{M_X(t) = E(e^{tX}) = int_{-infty}^{infty} e^{tx} f_X(x)text{d}x})。
若(M_X(t))在(t=0)的某个领域内存在且可导,则对任意正整数(k),有:(boxed{E(X^k)=dfrac{text{d}^k}{text{d}t^k}M_X(t)Bigg|_{t=0}})
即:(M_X(t))的k阶导数在(t=0)的值是(E(X^k))。
正态分布的矩生成函数:
正态分布的原点矩与中心距(把(t=0)代入矩生成函数的各阶导数):
常用不等式:
参与评论
手机查看
返回顶部