kmeans聚类，8个点分为三类

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

已知有如下8个点:

$X_1:(2,10),X_2:(2,5),X_3:(8,4),X_4:(5,8),X_5:(7,5)X_6:(6,4),X_7:(1,2)X_8:(4,9)$

初始点为 $X_1,X_4,X_7$ ,试用k-means聚类算法将其聚为三类

解:

首先给出距离公式

距离公式
假设A点坐标为 $X_1,Y_1)$ ,B点坐标为 $X_2,Y_2$
Distance= $\sqrt{(X_1-X_2)^2+(Y_1-Y_2)^2}$ 注此为欧几里得距离Euclidean Distance
参考机器学习中的数学——距离定义一欧几里得距离Euclidean Distance

首先分别计算各点到 $X_1,X_4,X_7$ 的距离如下如下 (比如 $X_1$ 到 $X_1$ 的距离为0 $X_1$ 到 $X_2$ 的距离为 $\sqrt{(2-2)^2+(10-5)^2}=5$ )

	$X_1(2,10)$	$X_4(5,8)$	$X_7(1,2)$
$X_1(2,10)$	0	3.6	8.1
$X_2(2,5)$	5.0	4.2	3.2
$X_3(8,4)$	8.5	5.0	7.3
$X_4(5,8)$	3.6	0	7.2
$X_5(7,5)$	7.1	3.6	6.7
$X_6(6,4)$	7.2	4.1	5.4
$X_7(1,2)$	8.1	7.2	0
$X_8(4,9)$	2.2	1.4	7.6

注:以 $X_8$ 为例其与 $X_4$ 最近故将他们两个归为一类这里的距离都保留的一位小数

中心点坐标=x坐标的均值y坐标的均值

即 $X_1$ 为一类中心点也就是它的坐标(2,10)

$X_4,X_3,X_5,X_6,X_8$ 为一类
中心点坐标( $\displaystyle\frac{8+5+7+6+4}{5},\displaystyle\frac{4+8+5+4+9}{5}$ )等于(6,6)

$X_7,X_2$ 为一类同理中心点为(1.5,3.5)

第二步计算这个8个点到这三个中心点的距离

	210	6,6	1.5,3.5
$X_1$	0	5.7	6.5
$X_2$	5.0	4.1	1.6
$X_3$	8.5	2.8	6.5
$X_4$	3.6	2.2	5.7
$X_5$	7.1	1.4	5.7
$X_6$	7.2	2.0	4.5
$X_7$	8.1	6.4	1.6
$X_8$	2.2	3.6	6.0

同样的X1,X8到(2,10)最近归为一类中心点为(3,9.5)

X3,X4,X5,X6到(6,6)最近归为一类中心点为(6.25.4.5)

X7,X2到(1.5,3.5)最近归为一类中心点为(1.5.3.5)

3.第三步重复上次动作计算这个8个点到这三个中心点的距离

	$(3, 9.5)$	$(6.25.4.5)$	$(1.5.3.5)$
$X_1$	1.1	7.0	6.5
$X_2$	4.6	4.3	1.6
$X_3$	7.4	1.8	6.5
$X_4$	2.5	3.7	5.7
$X_5$	6.0	0.90	5.7
$X_6$	6.3	0.56	4.5
$X_7$	7.8	5.8	1.6
$X_8$	1.1	5.0	6.0

$X_1,X_4,X_8$ 归为一类中心点为 $(3.66, 9)$

$X_3,X_5,X_6$ 归为一类中心点为 $(7, 4)$

$X_2,X_7$ 归为一类中心点为 $(1.5.3.5)$

3.第四步重复上次动作计算这个8个点到这三个中心点的距离

	$(3.66, 9)$	$(7, 4)$	$(1.5.3.5)$
$X_1$	1.9	8.1	6.5
$X_2$	4.3	5.5	1.6
$X_3$	6.6	0.60	6.5
$X_4$	1.7	4.7	5.7
$X_5$	5.2	1.1	5.7
$X_6$	5.5	1.4	4.5
$X_7$	7.5	6.7	1.6
$X_8$	0.34	6.0	6.0

$X_1,X_4,X_8$ 归为一类 , $X_3,X_5,X_6$ 归为一类 , $X_2,X_7$ 归为一类

此时分类结果遇上一步分类一样分类结束,上面就是最后的分类结果

说第“几”步其实不太对这就是一个不停更新中心点的过程。。。。

最后附上代码
定义一个distance的函数,这里就是计算每个点到坐标 $(x, y)$ 的距离

from sympy import *
def distance(x,y):
    data=[[2,10],[2,5],[8,4],[5,8],[7,5],[6,4],[1,2],[4,9]]
    for i in range(len(data)):
       row=np.array([(N(sqrt( (data[i][0]-x)**2+(data[i][1]-y)**2),2)) for i in range(len(data))])
       return row
# pd.DataFrame(distance(2,10),distance(2,10),distance(1,2))
list=[distance(3.66,9),distance(7.4,4),distance(1.5,3.5)]
Y=pd.DataFrame(list).T
Y.columns=["$X_1$", "$X_2$", "$X_3$"]
Y.index = ["$X_1$", "$X_2$", "$X_3$", "$X_4$",
            "$X_5$","$X_6$", "$X_7$","$X_8$"]