机器学习笔记--概率与数理统计

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6


终于看到了概率和数理统计了,期间看了机器学习算法感觉比以前明朗了很多,很多公式概念也有了一些新的认识,继续看数学吧,看完数学就再继续整python。


1 概率

记作P(E),比如掷骰子,每一面的概率就是P(E) = 1/6

1.1 古典概率

通常又叫事前概率,是指当随机事件中各种可能发生的结果及其出现的次数都可以由演绎或外推法得知,而无需经过任何统计试验即可计算各种可能发生结果的概率

1.2 条件概率

  • 附加在一定条件下的概率。
  • 考虑掷骰子的三个事件,A:掷出素数点,B:掷出奇数点,C:掷出偶数点。则
    A=2,3,5,B=1,3,5,C=2,4,6
    P(A)=1/3,P(B)=1/3,P(C)=1/3
    若已知B发生,则A发生的概率P(A|B)=2/3
    若已知C发生,则A发生的概率P(A|C)=1/3
  • 从而可以得知:
    设两事件A,B,且P(B)≠0 ,则在给定B发生的条件下,A的条件概率:
    P(A|B)=P(AB)/P(B)

1.3 独立事件

两事件独立,则P(AB)=P(A)P(B)

1.4 全概率公式

  • 设B1,B2,....为有限或无限个事件,它们两两互斥且在每次试验中至少发生一个,即:
  • 不重,Bi∩Bj=∅(不可能事件)i≠j
  • 不漏,B1∪B2∪....=Ω(必然事件)

则全概率为:

P(A)=∑i=1nP(Bi)P(A|Bi)


2 贝叶斯公式

2.1 公式

与全概率公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因.

P(BiA)=P(Bi)P(A|Bi)∑nj=1P(Bj)P(A|Bj)


Bi常被视为导致试验结果A发生的“原因”, P(Bi)(i=1,2,...)表示各种原因发生的可能性大小,故称先验概率(权重), P(Bi|A)(i=1,2...)则反映当试验产生了结果A之后,再对各种原因概率的新认识,故称后验概率。

2.2 实例

最经典的一个例子就是疾病检测,假设某种病菌在人口中的带菌率为0.03。当检查时,由于技术及操作之不完善以及种种特殊原因,使带菌者未必检出阳性反应而不带菌者也可能呈现阳性反应,假设:
P(阳性|带菌) = 0.99, P(阴性|带菌) = 0.01
P(阳性|不带菌) = 0.05, P(阴性|不带菌) = 0.95
先设某人检测出阳性,问“他带菌”的概率是多少?

因为P(B1)=0.03,P(B2)=0.97,且P(A|B1)=0.99,P(A|B2)=0.05,故:

P(B1A)=P(B1)P(A|B1)P(B1)P(A|B1)+P(B2)P(A|B2)=0.03∗0.990.03∗0.99+0.97∗0.05=0.38


3 常见离散连续分布

常见离散和连续分布如下表:

机器学习笔记--概率与数理统计_先验概率

3.1 概率函数

设X为离散型随机变量,其全部可能值为{a1,a2,⋯}

pi=P(X=ai),i=1,2,3,⋯

3.2 分布函数

设X为一随机变量,则函数:

P(X⩽x)=F(x),−∞<x<+∞

3.3 概率密度函数

  • 设连续性随机变量X有概率分布函数F(X),则F(X)的导数f(x) = F’(X)
  • F(a⩽X⩽b)=F(b)−F(a)=∫ba(x)dx

4 联合分布函数

4.1 定义

联合分布函数(joint distribution function)亦称多维分布函数
设(X,Y)是二维随机变量, 对于任意实数x, y二元函数:


F(x,y)=P{(X≤x)∩(Y≤y)}=P{X⩽x,Y≤y}


则称二维随机变量

(X,Y)的分布函数,或称为随机变量X和Y的联合分布函数

4.2 几何意义

将二维随机变量(X,Y)看成是平面上随机点的坐标,分布函数F(x,y)在(x,y)处的函数值就是随机点(X,Y)落在如图以(x,y)为顶点而位于该点左下方的无穷矩形区域内的概率。

机器学习笔记--概率与数理统计_数据_02

随机点(X,Y)落在矩形区域 {(x,y)|x1⩽x⩽x2,y1⩽y⩽y2}的概率为 : P{x1⩽x⩽x2,y1⩽y⩽y2}=F(x2,y2)−F(x1,y2)−F(x2,y1)+F(x1,y1)

机器学习笔记--概率与数理统计_数据_03


相当于一个大的无穷矩形减去两个小的无穷矩形,但是多减了一个重合的面积,将它加回来。


5 数学期望

5.1 定义

设随机变量X只取有限个可能值a1,a2,⋯,am,其概率分布为P(X=ai)=pi,i=1,2,⋯,m,则X的数学期望为:

E(X)=a1pi+a2p2+⋯+ampm


当X为离散型变量,并且个数为无穷个的时候也写成:


E(X)=∑i=1∞aipi


6 方差和标准差

6.1 方差

每个样本值与全体样本值的平均数之差的平方值的平均数
方差是衡量源数据和期望值相差的度量值

D(X)=E(X−EX)2

6.2 标准差

标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
用σ表示


7 协方差

协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:

Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−2E[Y]E[X]+E[X]E[Y]=E[XY]−E[X]E[Y]


如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。


8 大数定理和中心极限定理

8.1 大数定律

  • 大数定律是说,n只要越来越大,把这n个独立同分布的数加起来去除以n得到的这个样本均值(也是一个随机变量)会依概率收敛到真值u,但是样本均值的分布是怎样的我们不知道。
  • 切比雪夫大数定理:设x1,x2,⋯,xn是一列相互独立的随机变量(或者两两不相关),他们分别存在期望 E(xk)和方差D(xk) 。若存在常数C使得: D(xk)⩽C(k=1,2,3,⋯,n)
    则对任意小的正数 ε,满足公: limn→∞P{∣∣∣1n∑k=1nxk−1n∑k=1nExk∣∣∣<ε}=1
    随着样本容量n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。
  • 伯努利大数定律: 设μ是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的概率为P,则对任意正数ε,有公式: limn→∞P(∣∣μnn−p∣∣<ε)=1
    当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性

8.2 中心极限定律

设随机变量X1,X2,⋯,Xn,⋯独立同分布,并且具有有限的数学期望和方差:E(Xi)=μ,D(Xi)=σ2(k=1,2,⋯),则对任意x,分布函数:

limn→∞P(∑ni=1Xi−nμn√σ⩽x)=12π−−√∫x−∞e−t22dt=Φ(x)


只要n足够大,便可以把独立同分布的随机变量之和当作正态变量


9 极大似然估计(MLE)

  • 似然函数:
  • 离散:L(θ)=L(x1,x2,⋯,xn;θ)=∐ni=1p(xi;θ)
  • 连续:L(θ)=L(x1,x2,⋯,xn;θ)=∐ni=1f(xi;θ)
  • 设总体的分布类型已知,但含有未知参数θ,又设(x1,x2,⋯,xn)为总体X的一个样本,若似然函数L(θ)在θ^=θ^(x1,x2,⋯,xn)处取得最大值,则称θ^=θ^(x1,x2,⋯,xn)为 θ的极大似然估计值。
  • 若L(θ)关于θ可导,则θ^可从方程:ddθL(θ)=0解得。
  • 为了求解方便,会求lnL(θ),故求方程ddθlnL(θ)=0的解。
    由上可知最大似然估计的一般求解过程:
      (1) 写出似然函数;
      (2) 对似然函数取对数,并整理;
      (3) 求导数 ;
      (4) 解似然方程
      

10 贝叶斯估计

  • 贝叶斯估计,是在给定训练数据D时,确定假设空间H中的最佳假设。 最佳假设:一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。
  • 先验概率和后验概率用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率。类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h成立时D的概率。机器学习中,我们关心的是P(h|D),即给定D时h的成立的概率,称为h的后验概率。
  • 贝叶斯公式提供了从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)的方法p(h|D)=P(D|H)∗P(H)/P(D),P(h|D)随着P(h)和P(D|h)的增长而增长,随着P(D)的增长而减少,即如果D独立于h时被观察到的可能性越大,那么D对h的支持度越小。

11 最大后验概率(MAP)

  • 最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。
  • 假设x为独立同分布的采样,θ为模型参数,f为我们所使用的模型。那么最大似然估计可以表示为:θ^MLE(x)=argθmaxf(x|θ)
    现在,假设θ的先验分布为g。通过贝叶斯理论,对于θ的后验分布如下式所示:θx↦f(θ|x)=f(x|θ)g(θ)∫θϵΘf(x|θ′)g(θ′)dθ′
    最大后验分布的目标为: θ^MAP(x)=argθmaxf(x|θ)g(θ)∫θϵΘf(x|θ′)g(θ′)dθ′=argθmaxf(x|θ)g(θ)
  • ​​一个例子​​

概率统计基本上也学到这里了,还有很多没有整明白,感觉是时候开始搞python了,要不然会越来越无趣了。简单的基础学好了,可以结合下机器学习实战这本书,来一些例子学起来了。


阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: 机器学习