gamma函数、beta分布、贝叶斯估计及运用

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

目录

一、 gamma函数

1.在实数域上伽玛函数定义为

    Γ ( x ) = ∫ 0 + ∞ t x − 1 e − t   d t ( x > 0 ) \ \ \ \Gamma(x)=\int_0^{+\infty} t^{x-1} e^{-t} \mathrm{~d} t(x>0)    Γ(x)=0+tx1et dt(x>0)

Gamma的重要性质包括下面几条

  1. 递推公式 Γ ( x + 1 ) = x Γ ( x ) \Gamma(x+1) = x\Gamma(x) Γ(x+1)=xΓ(x)

  2. 对于正整数n, 有 Γ ( n + 1 ) = n ! Γ( n + 1 ) = n! Γ(n+1)=n!
    因此可以说Gamma函数是阶乘的推广。

  3. Γ ( 1 ) = 1 \Gamma(1) = 1 Γ(1)=1

  4. Γ ( 1 2 ) = π Γ(\frac {1} {2}) = \sqrt{\pi} Γ(21)=π

关于递推公式可以用分部积分完成证明

Γ ( n + 1 ) = ∫ 0 ∞ t n e − t d t = − ∫ 0 ∞ t n d ( e − t ) = − ( t n e − t ∣ 0 ∞ − n ∫ 0 ∞ e − t ⋅ t n − 1 d t ) \begin{aligned} \Gamma(\mathrm{n}+1) & =\int_0^{\infty} \mathrm{t}^{\mathrm{n}} \mathrm{e}^{-\mathrm{t}} \mathrm{dt} \\ & =-\int_0^{\infty} \mathrm{t}^{\mathrm{n}} \mathrm{d}\left(\mathrm{e}^{-\mathrm{t}}\right) \\ & =-\left(\mathrm{t}^{\mathrm{n}} \mathrm{e}^{-\mathrm{t}}|_0^{\infty}-\mathrm{n} \int_0^{\infty} \mathrm{e}^{-\mathrm{t}} \cdot \mathrm{t}^{\mathrm{n}-1} \mathrm{dt}\right) \end{aligned} Γ(n+1)=0tnetdt=0tnd(et)=(tnet0n0ettn1dt)

由洛必达法则易知括号内第一项为0, 则可以得出 Γ ( n + 1 ) = n Γ ( n ) Γ ( n + 1 ) = nΓ(n) Γ(n+1)=nΓ(n)

二、Beta分布

贝塔分布也称B分布是指一组定义在(01)区间的连续概率分布有两个参数 α , β > 0 \alpha,\beta>0 α,β>0。其概率密度函数如下

f ( θ ; α , β ) = θ α − 1 ( 1 − θ ) β − 1 ∫ 0 1 u α − 1 ( 1 − u ) β − 1 d u = Γ ( α + β ) Γ ( α ) Γ ( β ) θ α − 1 ( 1 − θ ) β − 1 = 1 B ( α , β ) θ α − 1 ( 1 − θ ) β − 1 f(\theta ; \alpha, \beta)=\frac{\theta^{\alpha-1}(1-\theta)^{\beta-1}}{\int_{0}^{1} u^{\alpha-1}(1-u)^{\beta-1} d u}=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)} \theta^{\alpha-1}(1-\theta)^{\beta-1}=\frac{1}{B(\alpha, \beta)} \theta^{\alpha-1}(1-\theta)^{\beta-1} f(θ;α,β)=01uα1(1u)β1duθα1(1θ)β1=Γ(α)Γ(β)Γ(α+β)θα1(1θ)β1=B(α,β)1θα1(1θ)β1

下面证明 Γ ( α + β ) Γ ( α ) Γ ( β ) = 1 ∫ 0 1 u α − 1 ( 1 − u ) β − 1 d u \text {下面证明} \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)}=\frac{1}{\int_0^1 u^{\alpha-1}(1-u)^{\beta-1} d u} 下面证明Γ(α)Γ(β)Γ(α+β)=01uα1(1u)β1du1

Γ ( α ) Γ ( β ) = ∫ 0 ∞ x α − 1 e − x d x ∫ 0 ∞ y b − 1 e − y d y = ∫ 0 ∞ x α − 1 [ ∫ 0 ∞ y β − 1 e − ( x + y ) d y ] d x  令  t = y + x , d y = d t = ∫ 0 ∞ x α − 1 [ ∫ x ∞ ( t − x ) β − 1 e − t d t ] d x  交换积分次序  = ∫ 0 ∞ [ ∫ 0 t x α − 1 ( t − x ) β − 1 e − t d x ] d t  令  x = t u , d x = t d u = ∫ 0 ∞ e − t t α − 1 t b − 1 t d t ∫ 0 1 u α − 1 ( 1 − u ) b − 1 d u = Γ ( α + β ) ∫ 0 1 u α − 1 ( 1 − u ) β − 1 d u \begin{aligned} \Gamma(\alpha) \Gamma(\beta) & =\int_0^{\infty} x^{\alpha-1} e^{-x} d x \int_0^{\infty} y^{b-1} e^{-y} d y \\ & =\int_0^{\infty} x^{\alpha-1}\left[\int_0^{\infty} y^{\beta-1} e^{-(x+y)} d y\right] d x \\ & \text { 令 } t=y+x, d y=d t \\ & =\int_0^{\infty} x^{\alpha-1}\left[\int_x^{\infty}(t-x)^{\beta-1} e^{-t} d t\right] d x \\ & \text { 交换积分次序 }\\ & =\int_0^{\infty}\left[\int_0^t x^{\alpha-1}(t-x)^{\beta-1} e^{-t} d x\right] d t \\ & \text { 令 } x=t u, d x=t d u \\ & =\int_0^{\infty} e^{-t} t^{\alpha-1} t^{b-1} t d t \int_0^1 u^{\alpha-1}(1-u)^{b-1} d u \\ & =\Gamma(\alpha+\beta) \int_0^1 u^{\alpha-1}(1-u)^{\beta-1} du \end{aligned} Γ(α)Γ(β)=0xα1exdx0yb1eydy=0xα1[0yβ1e(x+y)dy]dx  t=y+x,dy=dt=0xα1[x(tx)β1etdt]dx 交换积分次序 =0[0txα1(tx)β1etdx]dt  x=tu,dx=tdu=0ettα1tb1tdt01uα1(1u)b1du=Γ(α+β)01uα1(1u)β1du

期望 E ( θ ) = α α + β E(\theta)=\frac {\alpha} {\alpha + \beta} E(θ)=α+βα

方差 V a r ( x ) = α β ( α + β ) 2 ( α + β + 1 ) Var(x)=\frac {\alpha \beta}{(\alpha+\beta)^2(\alpha+\beta+1)} Var(x)=(α+β)2(α+β+1)αβ

期望、方差证明如下
E ( X ) = ∫ 0 1 x B ( α , β ) x α − 1 ( 1 − x ) β − 1 d x = 1 B ( α , β ) ∫ 0 1 x α ( 1 − x ) β − 1 d x = B ( α + 1 , β ) B ( α , β ) = Γ ( α + 1 ) Γ ( β ) Γ ( α + β + 1 ) / Γ ( α ) Γ ( β ) Γ ( α + β ) = α Γ ( α ) Γ ( β ) ( α + β ) Γ ( α + β ) / Γ ( α ) Γ ( β ) Γ ( α + β ) = α α + β E ( X 2 ) = ∫ 0 1 x 2 B ( α , β ) x α − 1 ( 1 − x ) β − 1 d x = 1 B ( α , β ) ∫ 0 1 x α + 1 ( 1 − x ) β − 1 d x = B ( α + 2 , β ) B ( α , β ) = Γ ( α + 2 ) Γ ( β ) Γ ( α + β + 2 ) / Γ ( α ) Γ ( β ) Γ ( α + β ) = ( α + 1 ) α Γ ( α ) Γ ( β ) ( α + β + 1 ) ( α + β ) Γ ( α + β ) / Γ ( α ) Γ ( β ) Γ ( α + β ) = ( α + 1 ) α ( α + β + 1 ) ( α + β ) .  Var ⁡ ( X ) = E ( X 2 ) − [ E ( X ) ] 2 = ( α + 1 ) α ( α + β + 1 ) ( α + β ) − ( α α + β ) 2 = ( α + 1 ) α ( α + β ) − α 2 ( α + β + 1 ) ( α + β ) 2 ( α + β + 1 ) = ( α 3 + α 2 β + α 2 + α β ) − ( α 3 + α 2 β + α 2 ) ( α + β ) 2 ( α + β + 1 ) = α β ( α + β ) 2 ( α + β + 1 ) .  \begin{aligned} & E(X)=\int_0^1 \frac{x}{B(\alpha, \beta)} x^{\alpha-1}(1-x)^{\beta-1} d x=\frac{1}{B(\alpha, \beta)} \int_0^1 x^\alpha(1-x)^{\beta-1} d x=\frac{B(\alpha+1, \beta)}{B(\alpha, \beta)} \\ & =\frac{\Gamma(\alpha+1) \Gamma(\beta)}{\Gamma(\alpha+\beta+1)} / \frac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma(\alpha+\beta)}=\frac{\alpha \Gamma(\alpha) \Gamma(\beta)}{(\alpha+\beta) \Gamma(\alpha+\beta)} / \frac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma(\alpha+\beta)}=\frac{\alpha}{\alpha+\beta} \\ \\ & E\left(X^2\right)=\int_0^1 \frac{x^2}{B(\alpha, \beta)} x^{\alpha-1}(1-x)^{\beta-1} d x=\frac{1}{B(\alpha, \beta)} \int_0^1 x^{\alpha+1}(1-x)^{\beta-1} d x=\frac{B(\alpha+2, \beta)}{B(\alpha, \beta)} \\ & =\frac{\Gamma(\alpha+2) \Gamma(\beta)}{\Gamma(\alpha+\beta+2)} / \frac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma(\alpha+\beta)}=\frac{(\alpha+1) \alpha \Gamma(\alpha) \Gamma(\beta)}{(\alpha+\beta+1)(\alpha+\beta) \Gamma(\alpha+\beta)} / \frac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma(\alpha+\beta)} \\ & =\frac{(\alpha+1) \alpha}{(\alpha+\beta+1)(\alpha+\beta)} \text {. } \\ \\ & \operatorname{Var}(X)=E\left(X^2\right)-[E(X)]^2=\frac{(\alpha+1) \alpha}{(\alpha+\beta+1)(\alpha+\beta)}-\left(\frac{\alpha}{\alpha+\beta}\right)^2 \\ & =\frac{(\alpha+1) \alpha(\alpha+\beta)-\alpha^2(\alpha+\beta+1)}{(\alpha+\beta)^2(\alpha+\beta+1)}=\frac{\left(\alpha^3+\alpha^2 \beta+\alpha^2+\alpha \beta \right)-\left(\alpha^3+\alpha^2 \beta+\alpha^2\right)}{(\alpha+\beta)^2(\alpha+\beta+1)} \\ & =\frac{\alpha \beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \text {. } \\ & \end{aligned} E(X)=01B(α,β)xxα1(1x)β1dx=B(α,β)101xα(1x)β1dx=B(α,β)B(α+1,β)=Γ(α+β+1)Γ(α+1)Γ(β)/Γ(α+β)Γ(α)Γ(β)=(α+β)Γ(α+β)αΓ(α)Γ(β)/Γ(α+β)Γ(α)Γ(β)=α+βαE(X2)=01B(α,β)x2xα1(1x)β1dx=B(α,β)101xα+1(1x)β1dx=B(α,β)B(α+2,β)=Γ(α+β+2)Γ(α+2)Γ(β)/Γ(α+β)Γ(α)Γ(β)=(α+β+1)(α+β)Γ(α+β)(α+1)αΓ(α)Γ(β)/Γ(α+β)Γ(α)Γ(β)=(α+β+1)(α+β)(α+1)αVar(X)=E(X2)[E(X)]2=(α+β+1)(α+β)(α+1)α(α+βα)2=(α+β)2(α+β+1)(α+1)α(α+β)α2(α+β+1)=(α+β)2(α+β+1)(α3+α2β+α2+αβ)(α3+α2β+α2)=(α+β)2(α+β+1)αβ

三、贝叶斯估计

百科上的定义如下
贝叶斯估计Bayesian estimation是利用贝叶斯定理结合新的证据及以前的先验概率来得到新的概率。它提供了一种计算假设概率的方法基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。

P ( θ ∣ X ) = P ( θ ) P ( X ∣ θ ) P ( X ) P(\theta \mid X)=\frac{P(\theta) P(X \mid \theta)}{P(X)} P(θX)=P(X)P(θ)P(Xθ)

其中 P ( θ ) P(\theta) P(θ)为参数的先验分布 P ( X ∣ θ ) 为似然函数 P(X \mid \theta)为似然函数 P(Xθ)为似然函数 P ( X ) P(X) P(X)为边缘概率分布 P ( θ ∣ X ) P(\theta \mid X) P(θX)为后验分布注意 P ( θ ∣ X ) P(\theta \mid X) P(θX) P ( θ ) P(\theta) P(θ)服从的分布是不一样的。

它的核心思想就是在先假设数据服用某种概率分布即先验分布然后利用观察到的信息对先验进行修正得到后验分布。即先验假设+实验数据⇒后验分布

四、贝叶斯估计的运用

在搜广推领域贝叶斯估计可以用来做特征的校准以商品的点击率为例如果曝光的数据特别少那么求出的点击率是不置信的此时直接把它当成一个特征输入到模型中肯定是存在些许问题的一个折中的办法就是对这类数据进行平滑校准。基本思想就是对于曝光量少的商品而言首先求得同类商品的总体点击率这个点击率是基于大量曝光得出的是较为置信的然后随着商品曝光量的不断增加通过贝叶斯估计去获取它的后验概率。

P ( θ ) P(\theta) P(θ)服从beta分布 X X X服从二项分布时先验同后验呈共轭分布即分布的形式相同其优点是在求后验分布时不需要求得分布的具体形式就能获得其参数。对于商品的点击率校准而言可以假设其点击率服从beta分布点击序列本身是一个二项分布下面证明其先验同后验呈共轭分布。

设商品曝光的次数中有 c 0 c_0 c0次没被点击 c 1 c_1 c1次被点击。

P ( θ ∣ c 0 , c 1 , α , β ) = P ( c 0 , c 1 ∣ θ ) P ( θ ) P ( c 0 , c 1 ) = ( c 1 + c 0 c 1 ) θ c 1 ( 1 − θ ) c 0 1 B ( α , β ) θ α − 1 ( 1 − θ ) β − 1 ∫ 0 1 ( c 1 + c 0 c 1 ) θ c 1 ( 1 − θ ) c 0 1 B ( α , β ) θ α − 1 ( 1 − θ ) β − 1 d θ = θ c 1 + α − 1 ( 1 − θ ) c 0 + β − 1 ∫ 0 1 θ c 1 + α − 1 ( 1 − θ ) c 0 + β − 1 d θ = B ( θ ∣ c 1 + α , c 0 + β ) \begin{aligned} & P\left(\theta \mid c_0, c_1, \alpha, \beta\right)=\frac{P\left(c_0, c_1 \mid \theta\right) P(\theta)}{P\left(c_0, c_1\right)} \\ & =\frac{\left(\begin{array}{c} c_1+c_0 \\ c_1 \end{array}\right) \theta^{c_1}(1-\theta)^{c_0} \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1}(1-\theta)^{\beta-1}}{\int_0^1\left(\begin{array}{c} c_1+c_0 \\ c_1 \end{array}\right) \theta^{c_1}(1-\theta)^{c_0} \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1}(1-\theta)^{\beta-1} d \theta} \\ & =\frac{\theta^{c_1+\alpha-1}(1-\theta)^{c_0+\beta-1}}{\int_0^1 \theta^{c_1+\alpha-1}(1-\theta)^{c_0+\beta-1} d \theta} \\ & =B\left(\theta \mid c_1+\alpha, c_0+\beta\right) \end{aligned} P(θc0,c1,α,β)=P(c0,c1)P(c0,c1θ)P(θ)=01(c1+c0c1)θc1(1θ)c0B(α,β)1θα1(1θ)β1dθ(c1+c0c1)θc1(1θ)c0B(α,β)1θα1(1θ)β1=01θc1+α1(1θ)c0+β1dθθc1+α1(1θ)c0+β1=B(θc1+α,c0+β)

证毕。

目前为止 α \alpha α β \beta β的值还是未知的它们是先验分布的参数在第二小节中证明了 α 、 β \alpha 、\beta αβ同期望、方差的数学关系基于此我们可以挑选部分商品计算他们点击率的均值和方差用样本的统计量作为总体统计量的估计值然后计算出 α , β \alpha, \beta α,β的值然后在结合 c 0 、 c 1 c_0、c_1 c0c1的值求得 θ \theta θ后验均值。更加详细的可以参考【腾讯转化率预估】贝叶斯平滑。挑选哪些商品去计算 α 、 β \alpha、\beta αβ也是较为重要的环节一般来说尽可能分类目校准并剔除曝光量过少的商品。



参考文献

gamma函数

beta分布

Beta分布性质总结

beta分布及共轭Bernoulli分布-先验、后验、预测分布

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6