spss分析方法-聚类分析

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

聚类分析是根据研究对象的特征按照一定标准对研究对象进行分类的一种分析方法。
下面我们主要从下面四个方面来解说

 

  • 实际应用
  • 理论思想
  • 建立模型
     
  • 分析结果


 

一、实际应用


 

聚类分析的目标就是在相似的基础上收集数据来分类。

聚类源于很多领域包括数学计算机科学统计学生物学和经济学。在不同的应用领域很多聚类技术都得到了发展这些技术方法被用作描述数据衡量不同数据源间的相似性以及把数据源分类到不同的簇中。

商业上

聚类分析被用来发现不同的客户群并且通过购买模式刻画不同的客户群的特征。聚类分析是细分市场的有效工具同时也可用于研究消费者行为寻找新的潜在市场、选择试验的市场并作为多元分析的预处理。
 

生物上
聚类分析被用来动植物分类和对基因进行分类获取对种群固有结构的认识。


 

地理上

聚类能够帮助在地球中被观察lei的数据库趋于的相似性。


 

保险行业上
聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组同时根据住宅类型价值地理位置来鉴定一个城市的房产分组。


 

因特网上

聚类分析被用来在网上进行文档归类来修复信息。


 

电子商务上
聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面通过分组聚类出具有相似浏览行为的客户并分析客户的共同特征可以更好的帮助电子商务的用户了解自己的客户向客户提供更合适的服务。



 



 

二、理论思想



 

聚类分析是基于数据之间的距离远近对研究变量进行聚类分组聚类分析事先不知道分组情况是一种探索性分析。


 

聚类分析就是分析如何对样品或变量进行量化分类的问题。

按照研究对象的不同聚类分析一般分为样本聚类和变量聚类。


 

样本聚类又称Q型聚类它针对实测量进行分类将特征相近的实测量分为一类特征差异较大的实察量分在不同的类。

变量聚类又称R型聚类它针对变量分类将性质相近的变量分为一类将性质差异较大的变量分在不同的类。


 

聚类常见类型有系统聚类、K-means聚类和两步聚类

系统聚类

先将n个样品或变量看成n个分类然后将距离接近样品聚类或性质接近变量聚类的两类合并为一类再从n-1类中继续寻找最接近的两类合并为一类如此继续最终将所有类别合并为一类。


 

K-means聚类又称快速聚类

n个数值变量参与快速聚类则n个变量组成一个n维的空间每个样品是空间中的一个点最终按照事先要求聚类聚成K个类别。聚类前计算机随机产生初始的聚类中心计算各个点到中心的距离然后计算机迭代新的聚类中心。如果各个点到第二次聚类中心的距离比第一次小则放弃第一次中心留取第二次中心。接着计算机继续迭代寻找第三次聚类中心直至各个点到前后聚类中心的距离之差为零此时认为已经无法再进一步优化即找到最佳的聚类中心。


 

两步聚类

利用统计量作为距离进行聚类两步聚类顾名思义分为两步先进行预聚类然后在预聚类基础上根据AICBIC最小原则自动判定聚类数目。两步聚类算法复杂但软件实现起来也不复杂。


 

一般可以根据以下的条件选中聚类方法


 




 

三、建立模型


模型建立的步骤

构建模型的步骤如下

1数据预处理

2为衡量数据点间的相似度定义一个距离函数

3聚类或分组

4评估输出

5优化模型。


快速聚类案例
 

题目以下我国2006年各地区能源消耗的情况。根据不同省市的能源消耗情况对其进行分类分析我国不同地区的能源消耗情况。


一、数据输入

二、操作步骤1、进入SPSS打开相关数据文件选择分析”|“分类 ”|“K-均值聚类命令2选择进行聚类分析的变量。在对话框的左侧列表框中选择“地区”进入“个案标注依据”列表框选择“Zscore单位地区生产总值煤消耗量”“Zscore单位地区生产总值电消耗量”“Zscore单位工业增加值煤消耗量”3个变量进入“变量”列表框在“聚类数”中输入聚类分析的类别数3

3、设置输出及缺失值处理方法。

单击“K均值聚类分析对话框中的选项按钮。在统计选项组中选中全部的3个复选框缺失值选择默认值。

设置完毕后单击继续按钮返回“K均值聚类分析对话框。

4、其余设置采用系统默认值即可。单击确定按钮等待输出结果。





 

四、结果分析



1、初始聚类中心可以知道初始聚类中心。
2、聚类成员分析可以知道每个地区属于哪一类还可以知道每个地区到最终聚类中心的距离。

3、最终聚类中心表可以看出3类的中心位置同初始位置相比均发生了变化。

4、每个聚类中的样本数可以知道聚类1所包含样本数最多聚类3所包含样本数最少。
分析结论获取更多知识前往gz号程式解说
通过K中心聚类分析可以对我国不同地区的能源消耗情况有一个基本的了解。我们可以将不同地区的能源消耗情况分成3类其中第一类地区包含的省市最多有24个其他两类包含省市较少。通过分析也可以知道每个地区属于哪一类。


 

参考案例数据
 

1spss统计分析与行业应用案例详解(第四版杨维忠,张甜,王国平  清华大学出版社

收录于合集 #spss

 13

上一篇spss分析方法-回归分析

 

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6