Erlo

机器学习 概率统计基础 随机变量部分

2025-05-26 10:30:17 发布   51 浏览  
页面报错/反馈
收藏 点赞

第零章 积分

  • 变上限积分:设积分形式为(boxed{I(x)=int_{v(x)}^{u(x)}f(t,x)text{d}t}),则对(I(x))求导得:

    [boxed{frac{text{d}I}{text{d}x} = f(v(x), x) cdot v'(x) - f(u(x), x) cdot u'(x) + int_{u(x)}^{v(x)} frac{partial f}{partial x}(t, x) text{d}t} ]

  • 二重积分(boxed{iint_Df(x,y)text{d}sigma=int_a^bleft[int_{phi_1(x)}^{phi_2(x)}f(x,y)text{d}yright]text{d}x})

    • 体积几何意义:以(D)为底面,(f(x,y))为顶面的曲顶柱体的体积。
    • 质量几何意义:以(D)为面,(f(x,y))为面密度的质量。
    • 口诀
      • 后积先定常数限:先找常数限(如(aleq xleq b)),然后确定后积(text{d}x),先积(text{d}y),然后对每个固定的(x),写出内层变量(y)的积分范围(phi_1(x)leq y leq phi_2(x)),最后先写后积的(int_a^btext{d}x),再写先积(int_{phi_1(x)}^{phi_2(x)}f(x,y)text{d}y)
      • 限内画先积直线:比如区域(D)的两侧都是(x=a)(x=b)这种形式,就在区域中间从下往上画条竖线。
      • 先交写下限(y=phi_1(x))写在下限。
      • 后交写上限(y=phi_2(x))写在下限。
  • 第一章 随机事件的概率

    一 随机试验与随机事件

    • 试验:对某种特性的观察。

    • 随机试验:满足以下三个条件的试验,记作试验(E)

      • 可重复性:在相同条件下可重复进行。
      • 可预知性:每次试验结果不止一个,但所有可能结果已知。
      • 不确定性:每次试验结果不确定。
    • 样本空间:试验(E)的全部基本事件组成的集合,记作(Omega)

    • 样本点:样本空间的元素。

    • 随机事件:对随机试验的观察中,试验的结果,记作(A_1)(A_2)等。

    • 基本事件:随机试验每一个不可再分的结果,记作(a)(b)等。

    • 必然事件与不可能事件:必然会发生的事件是必然事件。

      • 注意:概率为1的事件不一定是必然事件。

    二 随机事件的运算

    • 随机事件的运算

      • 包含(A subset B)

      • 和事件(A + B)

      • 差事件(A - B)

      • 积事件(AB)

      • 事件(A_1, A_2)互不相容/互斥(A_1A_2 = emptyset)

      • 事件(A_1, A_2, cdots, A_n)互不相容(A_iA_j = emptyset(ineq j))

      • 事件(A_1, A_2)对立(A_1+A_2 = Omega)(A_1=overline{A_2})

      • 交换律、结合律、分配律、德摩根公式

    • 古典概型:记试验(E)(Omega={e_1,e_2,cdots,e_n}),且有限个基本事件等可能发生,则(P(A)=dfrac{事件A包含基本事件个数}{基本事件总数n})

      • 有界性(0 ≤ P(A) ≤ 1)
      • 规范性(P(Omega)=1)(P(emptyset)=0)
      • 单调性: 若 (A subset B),则(P(A) ≤ P(B))
      • 有限可加性: 若(A_1, A_2, cdots, A_n)两两互斥,则(P(A_1 + A_2 + cdots + A_n) = P(A_1) + P(A_2) + cdots + P(A_n))
    • 推论

      • 加法公式(P(A+B)=P(A)+P(B)-P(AB))
      • 减法公式(P(A-B)=P(Aoverline{B}))
      • 对立事件概率(P(overline{A})=1-P(A))

    三 条件概率与全概率公式

    • 条件概率(P(A|B)=dfrac{P(AB)}{P(B)})

      • 加法公式(P(A+B|C)=P(A|C)+P(B|C)-P(AB|C))
    • 乘法公式:若(P(B)>0),则(P(AB)=P(A|B)P(B))

    • 事件的独立性:若(P(AB)=P(A)P(B)),则事件(A)(B)独立。

      • (P(B)>0),则(A, B)独立(iff P(A|B)=P(A))

      • 设事件(A_1,A_2,cdots,A_n)相互独立,则:

        [begin{array}{l} P(A_1+A_2+cdots+A_n) & = & 1-P(overline{A_1+A_2+cdots+A_n}) \ & = & 1-P(overline{A_1}spaceoverline{A_2}cdotsoverline{A_n}) \ & = & 1-P(overline{A_1})cdot P(overline{A_2})cdots P(overline{A_n}) end{array} ]

    • 全概率公式:设(B_1, B_2,cdots ,B_n)(Omega)的一个完整事件组,且(P(B_i)>0(i=1,2,cdots,n)),则:(P(A)=sum_{i=1}^nP(A|B_i)P(B_i))

      • 完备事件组:①(B_i, B_j)两两互斥,②(B_1+B_2+cdots+B_n=Omega)
    • 贝叶斯公式:设(B_1, B_2,cdots ,B_n)(Omega)的一个完整事件组,且(P(B_i)>0(i=1,2,cdots,n)),则对任意(P(A)>0)的事件:(P(B_i|A)=dfrac{P(AB_i)}{P(A)}=dfrac{P(A|B_i)P(B_i)}{sum_{i=1}^nP(A|B_i)P(B_i)})

    第二章 一维随机变量

    一 随机变量与分布函数

    • 集合族:幂集的子集,可以理解为“集合的集合”。

    • 事件域:设集合族(F)是样本空间(Omega)的某些子集构成的一个集合族,且满足下面三个条件,则称(F)(Omega)上的一个事件域

      • 空集、全集在其中(empty in F)(Omega in F)
      • 对补运算封闭(A in F Longrightarrow overline{A} in F)
        • 对可列并运算封闭:对任意有限个/可列个(A_i in F),都有 (A_1+A_2+cdots+A_n in F)
    • 概率测度函数:给定样本空间(Omega)和其上的事件域(F),一个概率测度函数是从(F)到区间([0,1])的映射(P: F rightarrow [0,1]),并满足下面三条概率公理:

      • 有界性:对任意事件(Ain F)(0 ≤P(A) ≤1)
      • 规范性(P(empty)=0)(P(Omega)=1)
      • 可列可加性:对任意可列个互斥事件(A_1,A_2,cdots,A_n,cdots),有:(P(A_1+A_2+cdots+A_n+cdots)=P(A_1)+P(A_2)+cdots+P(A_n)+cdots)
    • 概率的公理化定义:概率测度函数是定义在某个事件域 (F) 上的一个满足上述三条性质的函数 (P),事件(A in F)的概率是(P(A))

    • 概率空间:一个三元组((Omega, F, P)),包含样本空间、事件域、概率测度函数

    • 随机变量:设((Omega, F, P))是一个概率空间,则随机变量是一个从样本空间(Omega)到实数集(R)函数(X: Omega rightarrow R),并满足下面的条件:

      • 可测性(forall x in R, {omega in Omega | X(omega) leq x} in F)

      • 可测性简化写法:(forall x in R, {X leq x} in F)

      • 可测性的含义:可以把({X leq x})这种“所有使得函数值小于等于 (x) 的样本点组成的集合”视为一个事件,作为概率测度函数(P)的自变量,进而合理谈论积分等数学操作。

      • 注意事项随机变量是一个函数,把样本点映射为数值

    • 分布函数:设(X)是一个定义在概率空间((Omega, F, P))的随机变量,则其累计分布函数(Cumulative Distribution Function, 简称 CDF)记为:

      [F_X(x)=P(Xleq x)=P(omegain {omega in Omega | X(omega) leq x}),xin R ]

      即:对任意实数(x)(F_X(x)) 表示样本点(omega)满足(X(omega) leq x)的概率。

    • 分布函数的充要条件

      • 有界性(0 leq F(X) leq 1)
      • 规范性(lim_{x to -infty} F_X(x) = 0,quad lim_{x to +infty} F_X(x) = 1)
      • 单调不减(若 x_1 。
      • 右连续(lim_{x to x_0^+} F_X(x) = F_X(x_0+0) = F_X(x_0))
    • 概率计算常用等式小于等于就是函数值,小于就是左极限

      • (P(Xleq a) = F(a))

      • (P(X

      • (P(X=a)=F(a)-F(a-0))

      • (P(a

    二 离散型随机变量

    • 离散型随机变量:函数值只有有限个或可列无限个值的随机变量(X: Omega rightarrow S)(S)是可数集或可列无限集)。

    • 分布律:设离散型随机变量(X)的所有可能取值为(x_1,x_2,cdots),则其分布律是一个概率质量函数(p(x_i)=P(X=x_i))。也可以用表格表示:

      (X) (x_1) (x_2) (cdots)
      (P(X=x_i)) (p(x_1)) (p(x_2)) (cdots)

    三 连续型随机变量

    • 连续型随机变量概念:可以在某个区间(或多个区间)内取任意实数值。

    • 分布函数(F_X(x)=P(Xleq x))

    • 概率密度函数:如果存在一个非负函数(f_X(x)),使得对任意实数(x),有:(F_X(x)=int_{-infin}^{x}f_X(t)text{d}t),则(X)为连续型随机变量,(f_X(x))(X)的概率密度函数。另外,如果(f(x))是某个连续型随机变量(X)的概率密度函数,当且仅当具有以下三条性质:

      • 可积性(f(x))不必连续,必须可积。
      • 非负性(forall xin R, f(x)geq0)
      • 规范性(int_{-infin}^{+infin}f(x)text{d}x=F(+infin)=1)
    • (X)为连续型随机变量,分布函数(F_X(X)),概率密度函数为(f_X(x)),则:

      • 分布函数连续(F_X(x)=int_{-infin}^{x}f_X(t)text{d}t)
      • 分布函数在概率密度函数连续点可导(f_X(x))在点(x_0)连续,则(F(x))在点(x_0)可导,且(F_X'(x_0)=f_X(x_0))
      • 单点概率为零(forall xin R, P(X=x)=F_X(x)-F_X(x-0)=0)(因为(F_X(x))连续)
      • 区间概率(P(a(无论是开区间、闭区间、半开半闭)(=int_a^bf_X(x)text{d}x)
      • 概率密度函数的广义定义:对任意可测集合(A),可将其分解为互不相交的区间或简单集合的并(A=cup_{i=1}^{infin}(a_i,b_i]),其中各区间可开可并不重叠。由概率的可列可加性和积分的可加性,(P(Xin cup_{i=1}^{infin}(a_i,b_i])=sum_{i=1}^{infin}int_{a_i}^{b_i}f_X(t)text{d}t),所以,(boxed{P(Xin A)=int_Af_X(x)text{d}x})
    • 积分表

      • (int a^xtext{d}x = dfrac{a^x}{ln a}+C(a>0,aneq 1))
      • (int e^{lambda x}text{d}x = dfrac{e^{lambda x}}{lambda}+C)
      • (int e^{-lambda x}text{d}x = -dfrac{e^{-lambda x}}{lambda}+C)

    四 常见随机变量分布

    分布名称 类型 概率函数 / 密度函数 (f(x))(P(X=x)) 分布函数 (F(x)) 期望 (E(X)) 方差 (text{Var}(X))
    两点分布
    (伯努利分布)
    离散 (begin{array}{l} P(X=1)=p,\ P(X=0)=1-pend{array}) 阶梯函数:
    (F(x) = begin{cases} 0 & x
    (p) (p(1-p))
    二项分布
    (B(n,p))
    离散 (begin{array}{l} binom{n}{k} p^k (1-p)^{n-k},\ k=0,1,dots,nend{array}) (F(x) = sum_{k=0}^{lfloor x rfloor} binom{n}{k} p^k (1-p)^{n-k}) (np) (np(1-p))
    泊松分布
    (P(lambda))
    离散 (dfrac{lambda^k e^{-lambda}}{k!}, k=0,1,2,dots) (F(x) = sum_{k=0}^{lfloor x rfloor} dfrac{lambda^k e^{-lambda}}{k!}) (lambda) (lambda)
    超几何分布
    (H(N,K,n))
    离散 (begin{array}{l}dfrac{binom{K}{k}binom{N-K}{n-k}}{binom{N}{n}},\ k=0,1,dots,min(n,K)end{array}) 无显式表达,可通过累加计算 (ncdotfrac{K}{N}) (ncdotfrac{K}{N}cdotleft(1-frac{K}{N}right)cdotfrac{N-n}{N-1})
    均匀分布
    (U(a,b))
    连续 (f(x) = dfrac{1}{b-a}, a le x le b) (F(x) = begin{cases} 0 & x b end{cases}) (frac{a+b}{2}) (frac{(b-a)^2}{12})
    指数分布
    (Exp(lambda))
    连续 (f(x) = lambda e^{-lambda x}, x ge 0) (F(x) = 1 - e^{-lambda x}, x ge 0) (frac{1}{lambda}) (frac{1}{lambda^2})
    伽马分布
    (Gamma(k,theta))
    连续 (begin{array}{l}f(x) = dfrac{x^{k-1}e^{-x/theta}}{theta^k Gamma(k)},\ x > 0end{array}) 无显式表达,需数值积分 (ktheta) (ktheta^2)
    正态分布
    (N(mu,sigma^2))
    连续 (f(x) = dfrac{1}{sqrt{2pi}sigma} e^{-frac{(x-mu)^2}{2sigma^2}}) (F(x) = Phileft( dfrac{x - mu}{sigma} right)),其中 (Phi) 是标准正态分布函数 (mu) (sigma^2)
    • 指数分布性质

      • 分布函数(F(x)=int_0^xlambda e^{-lambda t}text{d}t=[-e^{-lambda t}]_0^x=1-e^{-lambda x})(注意下边是0)。
      • (P(X>a)=e^{-lambda a}(a>0))
      • 无记忆性(P(X>s+t|X>s)=P(X>t)),其中(s,t>0)
    • 正态分布性质:若(Xsim N(mu, sigma^2)),则:

      • 对称性(P(X>mu)=P(X
      • 线性性(Y=aX+bsim N(amu+b, a^2sigma^2))
      • 标准化(Z=dfrac{X-mu}{sigma}sim N(0,1)),故(P(a
      • 独立正态变量的线性组合仍服从正态分布(Xsim N(mu_1, sigma_1^2),Ysim N(mu_2, sigma_2^2)),且(X)(Y)相互独立,则非零线性组合(aX+bYsim N(amu_1+bmu_2,a^2sigma_1^2+b^2sigma_2^2))

    (Y=g(X))的分布

    • 离散型:多加一行表格。
    • 连续型
      • 分布函数定义(F_Y(y)=P(Yleq y)=P(g(X)leq y)=int_{g(x)leq y}f(x)text{d}x)
      • 解不等式:解(g(x)leq y),得(x)的解集({x|g(x)leq y}),记作(A)
        • (y)(A)上单调递增:反函数求解:(F_Y(y)=P(Xleq h(y))=F_X(h(y))),其中(h(y))(g(x))的反函数。
        • (y)(A)上单调递减:(F_Y(y)=P(Xgeq h(y))=1-P(X。
        • (y)(A)上非单调,需分区间讨论(x)的取值范围。
      • 第二种理解(P(g(X)leq y)=boxed{P(omegain {omegain Omega|g(X(omega))leq y})=P(X(omega)in{xin R|g(x)leq y})=int_{g(x)leq y}f_X(x)text{d}x})
        • 框式解释:因为(X(omega))是实数,所以(boxed{ { omegain Omega|g(X(omega))leq y } = { omegainOmega|X(omega)in{xinR|g(x)leq y } } }) 。由于这两个事件是同一事件,所以把二者代入概率测度函数,函数值相等: (P(g(X(omega))leq y)=P(X(omega)in {xinR|g(x)leq y}))。根据概率密度函数的广义定义,(P(Xin A)=int_Af_X(x)text{d}x),所以把(A={xinR|g(x)leq y})代入左式,得到上述式子。
        • 注意事项:框式得到的实际上是勒贝格积分,(A)为区间或分段区间时会退化到黎曼积分

    第三章 二维随机变量

    一 二维随机变量、联合分布函数与边缘分布函数

    • 二维随机变量:设(X, Y)是定义在同一概率空间((Omega, F, P))的两个随机变量,则称((X,Y): OmegarightarrowR^2)为一个二维随机变量。

    • 联合分布函数((X,Y))的联合分布函数为(F_{X,Y}(x,y)=P(Xleq x, Yleq y),x,yin R),即随机变量(X)不超过(x)且随机变量(Y)不超过(y)的联合概率。

      • 有界性(0≤F_{X,Y}(x,y)≤1)

      • 规范性:以下四条

        • (F_{X,Y}(+infin,+infin)=1)
        • (F_{X,Y}(x,-infin)=0)
        • (F_{X,Y}(-infin,y)=0)
        • (F_{X,Y}(-infin,-infin)=0)
      • 单调不减

        • (x_1,则(F_{X,Y}(x_1,y)leq F_{X,Y}(x_2,y))
        • (y_1,则(F_{X,Y}(x,y_1)leq F_{X,Y}(x,y_2))
      • 右连续

        • (F_{X,Y}(x+0,y)=F_{X,Y}(x,y))

        • (F_{X,Y}(x,y+0)=F_{X,Y}(x,y))

    • 概率计算常用等式

      • (P(x_1
      • 例如:(P(X>x_1, Y>x_2)=1-F_{X,Y}(x_1,+infin)-F_{X,Y}(+infin,y_1)+F_{X,Y}(x_1,y_1))
    • 边缘分布函数:忽略一个变量,只对单独一个变量的概率分布。

      • 设二维随机变量((X,Y))的联合分布函数为(F_{X,Y}(x,y)),则:
      • (X)的边缘分布函数(F_X(x)=P(Xleq x)=P(Xleq x,Y leq +infin)=F_{X,Y}(x,+infin))
      • (Y)的边缘分布函数(F_Y(y)=P(Yleq y)=P(X leq +infin,Yleq y)=F_{X,Y}(+infin,y))。,

    二 二维离散型随机变量

    • 二维离散型随机变量:设(X, Y)是定义在同一概率空间((Omega, F, P))的两个离散型随机变量,则称((X,Y): Omegarightarrow S^2)为一个二维随机变量((S^2)是可数集或可列无限集)。

    • 联合分布律(p_{ij}=P(X=x_i,Y=y_j))或表格法。

    • 边缘分布律:对于表格法来说,在最下和最右各加一栏求和。

      • (F_X(x)=P(X=x)=sum_{y=0}^{+infin}P(X=x,Y=y))
      • (F_Y(y)=P(Y=y)=sum_{x=0}^{+infin}P(X=x,Y=y))
    • 条件分布律

      • (P(X=x_i|Y=y_i)=dfrac{P(X=x_i,Y=y_i)}{P(Y=y_i)})

      • (P(Y=y_i|X=x_i)=dfrac{P(X=x_i,Y=y_i)}{P(X=x_i)})

    • 判断独立性:联合分布律各行(列)成比例。

    三 二维连续型随机变量

    • 二维连续型随机变量:若((X,Y))在平面上的某个区域中可以取任意不可数个实数值,则称((X,Y): OmegarightarrowR^2)为一个二维连续型随机变量。

    • 联合分布函数(F_{X,Y}(x,y)=P(Xleq x, Yleq y),x,yin R)

    • 联合概率密度函数:若存在非负函数(f_{X,Y}(x,y)),使得对任意(x,yin R)都有:(F_{X,Y}(x,y)=int_{-infin}^{y}int_{-infin}^{x}f_{X,Y}(u,v)text{d}utext{d}v),则称(f_{X,Y}(x,y))((X,Y))的联合概率密度函数。

      • 广义定义:设(D)为平面上任一区域,则(P((X,Y)in D)=iint_{D}f_{X,Y}(x,y)text{d}xtext{d}y)
    • 边缘分布函数:忽略一个变量,只关心一个变量情况下的累计概率。

      • (X)的边缘分布函数:(F_X(x) = P(X le x) = lim_{y to +infty} F_{X,Y}(x, y))
      • (Y)的边缘分布函数:(F_Y(y) = P(Y le y) = lim_{x to +infty} F_{X,Y}(x, y))
    • 边缘概率密度函数:保留关心的维度,把不关心的维度“积掉”

      • (X)的边缘概率密度函数:竖线,(f_X(x)=int_{-infty}^{+infin} f_{X,Y}(x, y)text{d}y)
      • (Y)的边缘概率密度函数:横线,(f_Y(y) = int_{-infty}^{infty} f_{X,Y}(x, y)text{d}x)
      • 证明方法:由于(F_X(x) = lim_{y to +infin}F_{X,Y}(x,y)= int_{-infty}^{x} int_{-infty}^{+infin} f_{X,Y}(u, v)text{d}vtext{d}u=int_{-infty}^{x}left( int_{-infty}^{+infin} f_{X,Y}(u, v)text{d}v right) text{d}u),所以(f_X(x)=dfrac{text{d}}{text{d}x}left[int_{-infty}^{x}left( int_{-infty}^{+infin} f_{X,Y}(u, v)text{d}v right) text{d}uright]),记(g(u)= int_{-infty}^{+infin} f_{X,Y}(u, v)text{d}v),则(f_X(x)=dfrac{text{d}}{text{d}x}left[int_{-infty}^{x}g(u) text{d}uright]=g(x))(变上限积分)
    • 条件分布函数与条件概率密度

      • (X)的条件分布函数为:(F_{X|Y}(x|y)=P(Xleq x|Y=y)=dfrac{int_{-infin}^x f_{X,Y}(u,y)text{d}u}{f_Y(y)})
      • (Y)的条件分布函数为:(F_{Y|X}(y|x)=P(Yleq y|X=x)=dfrac{int_{-infin}^y f_{X,Y}(x,v)text{d}v}{f_X(x)})
      • (X)的条件概率密度为:(f_{X|Y}(x|y)=dfrac{f_{X,Y}(x,y)}{f_Y(y)})
      • (Y)的条件概率密度为:(f_{Y|X}(y|x)=dfrac{f_{X,Y}(x,y)}{f_X(x)})
    • 判断两个连续型随机变量是否独立:二者任选其一

      • (F_{X,Y}(x, y) = F_X(x) cdot F_Y(y),quad forall x, y in mathbb{R})
      • (f_{X,Y}(x, y) = f_X(x) cdot f_Y(y),quad text{除了测度为零的集合外})
    • 判断两个随机变量是否独立的定义(forall A,Bsubseteq R, P(Xin A,且 Yin B)=P(Xin A)P(Y in B))

      • 推论:若(X)(Y)相互独立,且(f(x))(g(y))是可测函数,则(f(X))(g(Y))相互独立。

    (Z=g(X,Y))的函数的分布

    (F_Z(z)=P(Zleq z)=P(g(X,Y)leq z)),对右边的集合变形:

    [{omegainOmega|g(X(omega),Y(omega))leq z}={omegainOmega|(X(omega),Y(omega))in{(x,y)inR^2|g(x,y)leq z}} ]

    因为等号两边是同一个事件,所以代入概率测度函数得到的函数值相等。记(A_z={(x,y)inR^2|g(x,y)leq z}),则(P(g(X,Y)leq z)=P((X,Y)in A_z))。根据概率密度函数的广义定义:

    [P((X,Y)in A)=iint_{A_z}f_{X,Y}(x,y)text{d}xtext{d}y ]

    所以:

    [boxed{F_Z(z)=iint_{g(x,y)leq z}f_{X,Y}(x,y)text{d}xtext{d}y} ]

    同样,最终得到的是勒贝格积分,但对于连续概率密度函数与规则区域,可视为二维黎曼积分

    此外,若(X_1,X_2,cdots,X_n)相互独立,则:

    (Z=max(X_1,X_2,cdots,X_n))的分布函数为(F_{max}(z)=F_{X_1}(z)F_{X_2}(z)cdots F_{X_n}(z))

    (Z=min(X_1,X_2,cdots,X_n))的分布函数为(F_{min}(z)=1-[1-F_{X_1}(z)][1-F_{X_2}(z)]cdots [1-F_{X_n}(z)])

    第四章 数字特征

    一 数学期望

    • 离散型随机变量的数学期望:设随机变量(X)的分布律为(P(X=x_i)=p_i),则期望(boxed{E(X)=sum_{i}x_ip_i})
    • 离散型随机变量的函数的数学期望:设随机变量(X)的分布律为(P(X=x_i)=p_i)(g(x))是实值函数,则(boxed{E(g(X))=sum_ig(x_i)p_i})
    • 连续型随机变量的数学期望:设随机变量(X)的概率密度函数为(f_X(x)),则(boxed{E(X)=int_{-infin}^{+infin}xf(x)text{d}x})(绝对收敛)。
    • 连续型随机变量的函数的数学期望:设随机变量(X)的概率密度函数为(f_X(x))(g(x))是实值函数,则(boxed{E(g(X))=int_{-infin}^{+infin}g(x)f(x)text{d}x})
    • 二维随机变量的函数的数学期望:设(Z=g(X,Y))是二维随机变量((X,Y))的一个实值函数,
      • 离散型(P(X=x_i,Y=y_j)=p_{ij})。则(Z)的期望(boxed{E(Z)=E(g(X,Y))=sum_isum_jg(x_i,y_j)p_{ij}})
      • 连续型:概率密度函数(f_{X,Y}(x,y)),则(Z)的期望(boxed{E(Z)=int_{-infin}^{+infin}int_{-infin}^{+infin}g(x,y)f(x,y)text{d}xtext{d}y})
    • 数学期望的性质
      • (E(aX+b)=aE(X)+b)
      • (E(Xpm Y)=E(X)pm E(Y))
      • (X,Y)相互独立,则(E(XY)=E(X)E(Y))

    二 方差

    • (D(x))实际上求(X)的函数(Y=(X-E(X))^2)的数学期望。
      • 离散型(P(X=x_i)=p_i),则(boxed{D(X)=E((X-E(X))^2)=sum_i(x_i-E(X))^2p_i})
      • 连续型:概率密度函数(f_X(x)),则(boxed{D(X)=E((X-E(X))^2)=int_{-infin}^{+infin}(x-E(X))^2f_X(x)text{d}x})
      • (boxed{D(X)=E(X^2)-(E(X))^2})
    • 方差的性质
      • (D(aX+b)=a^2D(X))
      • (X,Y)相互独立,则(D(Xpm Y)=D(X)+D(Y))(注意等号右边是加号

    三 协方差和相关系数

    • 协方差:设(X,Y)是两个随机变量,期望分别为(E(X))(E(Y)),则协方差:(boxed{text{Cov}(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)})

    • 协方差的性质

      • (text{Cov}(aX+b,cY+d)=actext{Cov}(X,Y))(text{Cov}(X,X)=D(X))

        • (text{Cov}(X,Y)=text{Cov}(Y,X))(text{Cov}(X,C)=0)
        • (text{Cov}(X,Y+Z)=text{Cov}(X,Y)+text{Cov}(X,Z))(text{Cov}(X+Y,Z)=text{Cov}(X,Z)+text{Cov}(Y,Z))
        • (D(Xpm Y)=D(X)+D(Y)pm 2text{Cov}(X,Y))(知三求一)
      • (X,Y)相互独立,则(text{Cov}(X,Y)=0)反着不成立

    • 相关系数:设(X,Y)是两个随机变量,期望分别为(E(X))(E(Y)),方差分别为(D(X))(D(Y)),协方差为(text{Cov}(X,Y))则:(text{Cov}(X,Y))则:(boxed{rho_{XY}=dfrac{text{Cov}(X,Y)}{sqrt{D(X)D(Y)}}})

    • 相关系数的性质

      • (rho_{XY}=0),则称(X)(Y)不相关

        • 不相关仅表示(X,Y)无限性关系,而独立表示(X,Y)完全无关系。

        • (X,Y)独立则一定不相关,而不相关不能推出独立

      • (|rho_{XY}|leq 1)(rho_{XY}=rho_{YX})(rho_{XX}=1)

      • 不相关的四个等价命题两变量独立等价于协方差、相关系数为零、期望的乘积等于乘积的期望、和的方差可分解

        [boxed{text{Cov}(X,Y)=0iffrho_{XY}=0iff E(XY)=E(X)E(Y)iff D(Xpm Y)=D(X)+D(Y)} ]

    四 协方差矩阵

    • 随机向量(boldsymbol{X}=(X_1,X_2,cdots,X_n)^T)的协方差矩阵:设

      [boldsymbol{X} = begin{bmatrix} X_1 \ X_2 \ vdots \ X_n end{bmatrix},quad E(boldsymbol{X}) = boldsymbol{mu} = begin{bmatrix} mu_1 \ mu_2 \ vdots \ mu_n end{bmatrix} ]

      则:

      [text{Cov}(boldsymbol{X}) = E left((boldsymbol{X} - boldsymbol{mu})(boldsymbol{X} - boldsymbol{mu})^T right) ]

      故:

      [boldsymbol{Sigma} = text{Cov}(boldsymbol{X}) = begin{bmatrix} text{Cov}(X_1,X_1) & text{Cov}(X_1,X_2) & cdots & text{Cov}(X_1,X_n) \ text{Cov}(X_2,X_1) & text{Cov}(X_2,X_2) & cdots & text{Cov}(X_2,X_n) \ vdots & vdots & ddots & vdots \ text{Cov}(X_n,X_1) & text{Cov}(X_n,X_2) & cdots & text{Cov}(X_n,X_n) end{bmatrix} ]

      对于二维随机变量(boldsymbol{Z}=(X,Y)^T),由于(text{Cov}(X,Y)=text{Cov}(Y,X))(text{Cov}(X,X)=D(X))(text{Cov}(Y,Y)=D(Y)),所以其协方差矩阵为:

      [text{Cov}(boldsymbol{Z}) = begin{bmatrix} D(X) & text{Cov}(X,Y) \ text{Cov}(X,Y) & D(Y) end{bmatrix} ]

    • 特殊性质

      • 如果随机变量 (X_1, X_2, cdots, X_n) 相互独立,根据两变量独立等价于协方差、相关系数为零、期望的乘积等于乘积的期望、和的方差可分解,所以协方差矩阵是对角矩阵:

        [boldsymbol{Sigma} = text{Cov}(boldsymbol{X}) = begin{bmatrix} D(X_1) & 0 & cdots & 0 \ 0 & D(X_2) & cdots & 0 \ vdots & vdots & ddots & vdots \ 0 & 0 & cdots & D(X_n) end{bmatrix} ]

    五 二维正态分布的数字特征

    二维正态分布 ((X, Y)) 的概率密度函数为:

    [f_{X,Y}(x,y) = frac{1}{2pisigma_Xsigma_Ysqrt{1-rho^2}} expleft{ -frac{1}{2(1-rho^2)}left[ left(frac{x - mu_X}{sigma_X}right)^2 - 2rholeft(frac{x - mu_X}{sigma_X}right)left(frac{y - mu_Y}{sigma_Y}right) + left(frac{y - mu_Y}{sigma_Y}right)^2 right] right} ]

    其中参数满足:

    • (mu_X)(X) 的数学期望;
    • (mu_Y)(Y) 的数学期望;
    • (sigma_X > 0)(X) 的标准差;
    • (sigma_Y > 0)(Y) 的标准差;
    • (-1 :(X)(Y) 的相关系数。

    记作:

    [(X, Y) sim N(mu_X, mu_Y, sigma_X^2, sigma_Y^2, rho) ]

    特征 表达式
    联合分布 ((X, Y) sim N(mu_X, mu_Y, sigma_X^2, sigma_Y^2, rho))
    边缘分布 (X sim N(mu_X, sigma_X^2),quad Y sim N(mu_Y, sigma_Y^2))
    数学期望 (E(X) = mu_X,quad E(Y) = mu_Y)
    方差 (D(X) = sigma_X^2,quad D(Y) = sigma_Y^2)
    协方差 (text{Cov}(X, Y) = rho sigma_X sigma_Y)
    相关系数 (rho_{XY} = rho)
    独立条件 当且仅当 (rho = 0) 时,(X)(Y) 独立
    线性组合分布 (aX + bY sim N(amu_X + bmu_Y, a^2sigma_X^2 + b^2sigma_Y^2 + 2abrhosigma_Xsigma_Y))

    六 多维正态分布

    • 多维正态分布定义:设 (boldsymbol{X} = (X_1, X_2, ldots, X_n)^T) 是一个 (n) 维随机向量,其期望为:

      [boldsymbol{mu} = E(boldsymbol{X}) = begin{bmatrix} E(X_1) \ E(X_2) \ vdots \ E(X_n) end{bmatrix} = begin{bmatrix} mu_1 \ mu_2 \ vdots \ mu_n end{bmatrix} ]

      其协方差矩阵为:

      [boldsymbol{Sigma} = text{Cov}(boldsymbol{X}) = Eleft((boldsymbol{X} - boldsymbol{mu})(boldsymbol{X} - boldsymbol{mu})^Tright) ]

      (boldsymbol{X}) 的联合概率密度函数为:

      [f_{boldsymbol{X}}(boldsymbol{x}) = frac{1}{(2pi)^{n/2}text{det}(boldsymbol{Sigma})^{1/2}} expleft{ -frac{1}{2} (boldsymbol{x} - boldsymbol{mu})^T boldsymbol{Sigma}^{-1} (boldsymbol{x} - boldsymbol{mu}) right} ]

      其中:

      • (boldsymbol{x} = (x_1, x_2, ldots, x_n)^T) 是实数向量;
      • (boldsymbol{Sigma})(n times n) 协方差矩阵,必须是对称正定矩阵
      • (text{det}(boldsymbol{Sigma})) 表示矩阵 (boldsymbol{Sigma}) 的行列式;

      则称 (boldsymbol{X}) 服从 (n) 维正态分布,记作:

      [boldsymbol{X} sim N_n(boldsymbol{mu}, boldsymbol{Sigma}) ]

      在人工智能相关的论文中,常写作(boldsymbol{X} sim mathcal{N}_n(boldsymbol{mu}, boldsymbol{Sigma}))

    • 二维正态分布的表示

      [boldsymbol{X} = begin{bmatrix} X_1 \ X_2 end{bmatrix} sim mathcal{N}_nleft( begin{bmatrix} mu_1 \ mu_2 end{bmatrix}, begin{bmatrix} sigma_1^2 & rho sigma_1 sigma_2 \ rho sigma_1 sigma_2 & sigma_2^2 end{bmatrix} right) ]

      如果用(boldsymbol{Z}=(X,Y)^T)表示,则可以写成:

      [boldsymbol{Z} = begin{bmatrix} X \ Y end{bmatrix} sim mathcal{N}_nleft( begin{bmatrix} mu_X \ mu_Y end{bmatrix}, begin{bmatrix} sigma_X^2 & rho_{XY} sigma_X sigma_Y \ rho_{XY} sigma_X sigma_Y & sigma_Y^2 end{bmatrix} right) ]

    • 标准正态分布:设一个 $ n $ 维随机向量:

      [boldsymbol{X} = begin{bmatrix} X_1 \ X_2 \ vdots \ X_n end{bmatrix} ]

      如果它的每个分量 $ X_i sim N(0, 1) $,并且各分量之间相互独立,则称这个随机向量服从 n 维标准正态分布,记作:

      [boldsymbol{Z} sim mathcal{N}_n(boldsymbol{0}, boldsymbol{I}_n) ]

      其中:

      • (boldsymbol{0}) 是 $ n $ 维零向量(均值为0);
      • (boldsymbol{I}_n) 是 $ n times n $ 的单位矩阵(协方差矩阵是对角线为1、其余为0的矩阵),表示各个维度相互独立且方差为1。

    七 矩 常用不等式

    • k阶原点矩(mu_k'=E(X^k))数学期望是一阶原点矩

    • k阶中心距(mu_k=E((X-E(X))^k))方差是二阶中心距

    • 矩生成函数:设(X)为随机变量,其矩生成函数定义为:(boxed{M_X(t) = E(e^{tX}) = int_{-infty}^{infty} e^{tx} f_X(x)text{d}x})

      • (M_X(t))(t=0)的某个领域内存在且可导,则对任意正整数(k),有:(boxed{E(X^k)=dfrac{text{d}^k}{text{d}t^k}M_X(t)Bigg|_{t=0}})

      • 即:(M_X(t))的k阶导数在(t=0)的值是(E(X^k))

    • 正态分布的矩生成函数

      • (f_X(x) = dfrac{1}{sqrt{2pi}sigma} expleft( -dfrac{(x - mu)^2}{2sigma^2} right)),把它代入(M_X(t) = E(e^{tX}) = int_{-infty}^{infty} e^{tx} f_X(x)text{d}x),合并同类项,得:
      • (M_X(t) = int_{-infty}^{infty} e^{tx} cdot dfrac{1}{sqrt{2pi}sigma} expleft( -dfrac{(x - mu)^2}{2sigma^2} right) text{d}x= dfrac{1}{sqrt{2pi}sigma} int_{-infty}^{infty} expleft( tx - dfrac{(x - mu)^2}{2sigma^2} right) text{d}x)。完全平方,得:
      • (M_X(t)=dfrac{1}{sqrt{2pi}sigma} int_{-infty}^{infty} expleft( -dfrac{1}{2sigma^2}(x - (mu + sigma^2 t))^2 + dfrac{(mu + sigma^2 t)^2 - mu^2}{2sigma^2} right) text{d}x)。移动一些常数项,得:
      • (M_X(t) = expleft( dfrac{(mu + sigma^2 t)^2 - mu^2}{2sigma^2} right) cdot int_{-infty}^{infty} dfrac{1}{sqrt{2pi}sigma} cdot expleft( -dfrac{(x - (mu + sigma^2 t))^2}{2sigma^2} right) text{d}x)
      • 注意到积分内是一个(N(mu+sigma^2t,sigma^2))的正态分布。根据(int_{-infin}^{+infin}f_X(x)text{d}x=1),所以:
      • (M_X(t) = expleft( dfrac{(mu + sigma^2 t)^2 - mu^2}{2sigma^2} right)),化简,得:(boxed{M_X(t) = expleft( mu t + frac{1}{2} sigma^2 t^2 right)})
    • 正态分布的原点矩与中心距(把(t=0)代入矩生成函数的各阶导数):

      • 一阶原点矩(M'_X(t) = (mu + sigma^2 t) e^{mu t + frac{1}{2}sigma^2 t^2} Rightarrow E(X) = mu)
      • 二阶原点矩(M''_X(t) = [(mu + sigma^2 t)^2 + sigma^2] e^{mu t + frac{1}{2}sigma^2 t^2} Rightarrow E(X^2) = mu^2 + sigma^2)
      • 三阶原点矩(M'''_X(t) = [(mu + sigma^2 t)^3 + 3sigma^2(mu + sigma^2 t)] e^{mu t + frac{1}{2}sigma^2 t^2} Rightarrow E(X^3) = mu^3 + 3musigma^2)
      • 四阶原点矩(M''''_X(t) = [(mu + sigma^2 t)^4 + 6sigma^2(mu + sigma^2 t)^2 + 3sigma^4] e^{mu t + frac{1}{2}sigma^2 t^2} Rightarrow E(X^4) = mu^4 + 6mu^2sigma^2 + 3sigma^4)
      • 奇数阶中心距(mu_k=E((X-E(X))^k)=int_{-infin}^{+infin} (x-mu)^kf_X(x)text{d}x=int_{-infin}^{+infin} (x-mu)^ke^{-frac{(x-mu)^2}{2sigma^2}}text{d}x)(k)是奇数时,积分符号内的式子关于(x=mu)对称,所以积分结果为0。(mu_k=0)
      • 偶数阶中心距(mu_k=sigma^k(k-1)!!)(换元法,较为麻烦,这里直接给出结果)
      • 方差的k次方(D(X^k)=E(X^{2k})-(E(X^k))^2=mu_{2k}'-mu_{k}'^2)(D(X^2)=4mu^2sigma^2+2sigma^4)
    • 常用不等式

      • 琴生不等式:若(g''(x)geq0),则(E(g(X))geq g(E(X))),若(g(x)''leq0),则(E(g(X))leq g(E(X)))
      • 柯西不等式((E(XY))^2leq E(X^2)E(Y^2))
      • 协方差绝对值有界(|text{Cov}(X,Y)|leq sqrt{D(X)D(Y)})

登录查看全部

参与评论

评论留言

还没有评论留言,赶紧来抢楼吧~~

手机查看

返回顶部

给这篇文章打个标签吧~

棒极了 糟糕透顶 好文章 PHP JAVA JS 小程序 Python SEO MySql 确认