矩阵博弈及其纳什均衡

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

在众多博弈模型中占有重要地位的是二人有限零个对策又称为矩阵博弈这对策是目前为止在理论研究和求解方法方面都比较完善的一个博弈。

矩阵博弈

矩阵博弈就是二人有限零和博弈或有限二人零和博弈
在众多博弈模型中占有重要地位是到目前为止在理论研究和求解方法方面都比较完整的一类博弈。

数学定义
假设玩家一有m个策略玩家二有n个策略那么构建一个m*n的矩阵对应值为玩家一的收益。

又因为是零和博弈所以玩家二的收益矩阵就是负的玩家一的收益矩阵。

矩阵博弈通常记为
G = S 1 , S 2 , A G={S_1,S_2,A} G=S1,S2,A

纯策略矩阵博弈的纳什均衡解

saddle points鞍点
同时满足某一行的最小值某一列的最大值
就是纯策略的纳什均衡

为什么要这样
零和博弈参与者2的pay与参与者1的相反所以固定一行参与者1可以推导参与者2会选择哪个
也就是已经知道对方贪心会选择最利于自己的那个那么自己的一个有效的做法是使得损失最小

两个人都这样然后交点就是一个纳什均衡

示例

最大最小、最小最大原则
在这里插入图片描述
如图玩家一的收益矩阵。
最小最大原则
当玩家一选 α 1 \alpha_1 α1时理性玩家二会选择 β 3 \beta_3 β3则玩家一的收益为-9往下同理略所以玩家一会在这里边挑一个最大的也就是3.

最大最小原则
当玩家二选择 β 1 \beta_1 β1时玩家一 会选择 α 3 \alpha_3 α3收益为7往后同理那么对于玩家二来说会选择让玩家一收益最小的策略也就是使玩家一收益为3。
综上形成纳什均衡 ( α 2 , β 2 ) (\alpha_2,\beta_2) (α2,β2)

用公式简洁表示
m a x i m i n j a i j = m i n j m a x i a i j = a 22 = 3 max_imin_ja_{ij}=min_jmax_ia_{ij}=a_{22}=3 maximinjaij=minjmaxiaij=a22=3
可以看出 a 22 a_{22} a22是矩阵A所在行的最小元素也是所在列的最大元素。

所以一个定理矩阵博弈在纯策略定义下有纳什均衡的充要条件是存在一个策略组合对应的那个玩家一的收益是所在行的最小元素也是所在列的最大元素。即是鞍点。

性质

在这里插入图片描述
1.无差别性
2.可交换性
如图示例子总共有四个五四个纳什均衡即纳什均衡解不唯一。

混合策略矩阵博弈纳什均衡

混合策略之前的文章讲过了这里省略。
在这里插入图片描述
假如玩家一以概率p选择第一行1-p选择第二行
如果想要使得第二个人看不出第一个人会用什么策略也就是使得
a p + d ( 1 − p ) = b p + c ( 1 − p ) ap+d(1-p)=bp+c(1-p) ap+d(1p)=bp+c(1p)
解得 p = c − d ( a − b ) + ( c − d ) p=\frac{c-d}{(a-b)+(c-d)} p=(ab)+(cd)cd
当p取该值时玩家一的期望收益
v = a p + d ( 1 − p ) = a c − b d a − b + c − d v=ap+d(1-p)=\frac{ac-bd}{a-b+c-d} v=ap+d(1p)=ab+cdacbd

随机博弈

随机博弈

本文部分图片来源

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6