极大似然估计(MLE)相关总结
阿里云国内75折 回扣 微信号:monov8 |
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6 |
一、极大似然估计概述
极大似然估计是频率学派的进行参数估计的法宝基于以下两种假设前提
①某一事件发生是因为该事件发生概率最大。
②事件发生与模型参数θ有关模型参数θ是一个定值。
极大似然估计是通过已知样本数据来推导出最大概率出现这个事实的模型参数值并将这一参数值作为估计的真实值。
举例抛硬币10次若出现一次结果为5次正面朝上5次反面朝上。设出现这一结果与P有关则似然函数为L(P)=p^5*(1-p)^5,对其取对数求导令导数为零求得p为0.5。则我们有理由认为当p等于0.5时最有可能出现抛硬币10次其中5次正面朝上5次反面朝上这样的结果。
二、极大似然原理及思想
极大似然原理的直观想法是一个随机试验如有若干个可能的结果ABC…。若在一次试验中结果A出现则一般认为试验条件对A出现有利也即A出现的概率很大。
极大似然原理若事件A发生的概率与参数 θ有关θ取值不同则 P(A)也不同。记事件A发生的概率为 P(A|θ). 若一次试验事件中A发生了可认为此时的 θ值是在其定义域内使得P(A|θ) 达到最大的那一个。
极大似然估计是建立在极大似然原理基础上的一个统计方法。它是一种参数估计在样本满足独立同分布情况下通过已知的样本数据来推导最大概率出现这个事实的模型参数值若已知某个参数能使得这个样本出现的概率最大就将这一参数值作为估计的真实值。即模型已知参数未知通过已知模型推导出参数最可能的值。
三、似然函数与概率密度函数L(θ|x)= f(x|θ)
似然函数L(θ|x) | 概率密度函数 f(x|θ) |
在给定一个样本X后在不同θ下推测这个样本出现的可能性多大 | 在给定参数θ情况下样本X出现的可能性多大 |
似然函数与概率密度函数在概念上不等但在数值上相等。等式核心意思是在给定一个θ和一个样本X时整个事件发生的可能性多大。
四、极大似然估计的求解
假设总体分布族为{p(xθ)θ ∈ 参数空间}其中pxθ为概率分布列或密度函数为f(xθ)。x1x2…xn是简单样本则样本的联合概率分布为
① 离散型随机变量
② 连续型随机变量
当样本x1x2…xn给定时px1x2…xnθ是参数θ的函数称这个函数为似然函数记为L(θx1x2…xn)或L(θx)或Lθ即
具体求解步骤
1构造似然函数 L(θ)
总体X为离散型
总体X为连续型
2取对数 lnL(θ) :
总体X为离散型
总体X为连续型:
3对Ln Lθ)求偏导等于0
4解似然方程得到 θ 的极大似然估计值 θ^ 。
五、极大似然估计的优点与缺点
优点 | 缺点 |
①不变性 | ①前提是分布已知要求较高 |
六、其他参数估计方法
矩估计
以样本矩估计总体中相应的参数以样本矩的函数估计总体矩的函数。
最小二乘估计LSE
通过最小化误差的平方和寻找数据的最佳函数匹配。具体为找一个组估计值使 得实际值与估计值之差的平方加总之后的值最小。这时将这个差的平方的和式对参数求导 数并取一阶导数为零就是LSE。
贝叶斯估计
贝叶斯估计是包含先验假设的极大似然估计是对极大似然估计的一种改进。认为待估 参数θ也是随机的我们可以根据先验信息建立一个θ服从的分布合理利用先验信息进行统 计判断。
七、极大似然估计MLE与最大后验估计MAP
MLE | MAP |
极大似然估计是频率学派常用参数估计方法认为事件本身就具有客观的不确定性直接为事件本身建模也就是说事件在多次重复实验中趋于一个稳定的值p那么这个值就是该事件的概率。 | 贝叶斯学派不去试图解释 事件本身的随机性而是从观察者角度出发认为不确定性来源于观察者的知识不完备在这种情况下通过已经观察到的信息来描述最有可能推导的过程。 |
模型参数是个定值 | 模型参数源于某种潜在分布 |
MLE是求参数θ的值使得似然函数P(x|θ)最大。 | MAP希望θ不仅使似然函数最大同时也希望θ本身出现的先验概率也最大。 |
极大似然估计与最大后验概率估计的区别在于对先验信息的了解程度如果忽略模型参 数本身的概率的分布或者认为参数服从0-1均匀分布那么最大后验概率估计将弱化为最大 似然估计。
八、关于极大似然估计的总结
极大似然估计是生产生活中一种常用的参数估计方法它是根据已出现的样本结果来推测导致该结果出现概率最大的模型参数θ。例如在二分类机器学习模型logistic回归中可以通过MLE估计模型参数再使用其他方法进行参数优化。MLE是一种较为简单的估计当样本数目增加时收敛性很好如果在假设的概率模型正确通常能获得较好的结果。
参考