协方差(Covariance)

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

协方差

1.协方差

笔记来源Covariance, Clearly Explained!!!

在概率论与统计学中用于衡量两个随机变量的联合变化程度

协方差衡量的是一个变量的变化会如何影响另一个变量的变化测量的是两个变量之间的线性相关程度

1.1 相关性

以细胞中的基因X和基因Y的数量为例下面给出了5个细胞中每个细胞分别含有的基因X和基因Y的数量我们计算出了这5个细胞含基因X数量的样本均值 x ˉ \bar{x} xˉ 和含基因Y数量的样本均值 y ˉ \bar{y} yˉ我们观察这细胞中基因X的数量和基因Y的数量有没有什么相关性


显然如下图所示大体上当细胞中基因X的数量增加时基因Y的数量也在增加这表现出一种正相关性

我们来看一看另一组样本数据

显然如下图所示大体上当细胞中基因X的数量增加时基因Y的数量却在减小这表现出一种负相关性

我们再来看另外两组样本数据
第一组样本数据大体上当基因X的数量增加时基因Y的数量基本保持不变即二者几乎无相关性
第二组样本数据大体上当基因Y的数量增加时基因X的数量基本保持不变即二者几乎无相关性

1.2 计算协方差

每个细胞中基因X的数量为 x x x、基因Y的数量为 y y y
5个细胞中所有基因X数量的平均值 x ˉ \bar{x} xˉ、所有基因Y数量的平均值 y ˉ \bar{y} yˉ
细胞数量为 n n n
无偏估计要除以 n − 1 n-1 n1详见本人博客有偏样本方差、无偏样本方差


由上我们观察到这5个细胞中的基因X的数量和基因Y的数量呈现正相关性而计算得到的协方差也为正即我们得到当协方差 > 0 \gt 0 >0时数据呈现正相关性


类似的当协方差 < 0 \lt 0 <0时数据呈现负相关性


当协方差 = 0 = 0 =0时数据没有相关性


无相关性的三种情况

1.3 协方差与相关性

协方差之正负号显示着变量的相关性

两组数据呈现正相关性协方差 cov ( X , Y ) > 0 \text{cov}(X,Y)\gt 0 cov(X,Y)>0
两组数据呈现负相关性协方差 cov ( X , Y ) < 0 \text{cov}(X,Y)\lt 0 cov(X,Y)<0
两组数据呈现无相关性协方差 cov ( X , Y ) ≈ 0 \text{cov}(X,Y)\approx 0 cov(X,Y)0

1.4 协方差能让我们知道些什么信息

协方差的值可以告诉我们样本数据与拟合直线的接近程度

协方差的值越大样本数据离拟合直线越远

1.5 协方差无法让我们知道哪些信息

协方差无法告知我们拟合直线的斜率大小


协方差无法告知我们样本数据的集中程度


协方差的应用之一主成分分析Principal Component AnalysisPCA

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6