数学建模学习笔记(13)分类模型_ksa模型

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

分类模型

分类问题的基本概念

分类问题概述对于给定的一个对象根据其特征将其划分到多个已给定的类别中的一个。

二分类和多分类给定的类别有多少个就是几分类。如果有两个类别则称为二分类如果有多个两个以上类别则称为多分类。

分类问题的预处理-创建虚拟变量

  • 必须的预处理创建虚拟变量的过程也就是将分类变量转换成数字进行表示。这是处理分类问题必须的数据预处理过程。
  • SPSS创建虚拟变量

打开SPSS并导入数据后如图所示点击转换→创建虚变量

在这里插入图片描述
在如下所示的窗体右上方选择需要创建虚拟变量的分类变量下方根名称处填写虚拟变量的名称。选择需要创建虚拟变量的变量→给虚拟变量组命名

在这里插入图片描述

最后分类变量可以取多少个值就会生成多少个虚拟变量每个虚拟变量占据新的一列。

清除掉多余的虚拟变量并给保留的虚拟变量重命名。清除过程略给虚拟变量重命名只需要打开左下角的变量视图然后在里面双击变量名修改即可。

逻辑斯蒂回归Logistic

逻辑回归模型的基本思想把因变量视为分类变量的概率大于0.5表示事件发生否则认为事件不发生。由此得到的模型称为线性概率模型LPM。线性概率模型的基本形式与多元线性回归模型的基本形式相同。但是由于因变量的取值范围只能是[0,1]因此需要借助连接函数将因变量的范围进行压缩。

连接函数常用的连接函数有两种分别是标准正态分布的累积密度函数和Sigmoid函数分别对应的两种回归方式是Probit回归和逻辑斯蒂回归。但是由于逻辑斯蒂回归有解析表达式所以该模型更加方便。

逻辑斯蒂模型的求解方法模型可以通过极大似然估计法进行参数求解。

SPSS建立并求解逻辑斯蒂回归模型

1.打开SPSS并导入数据依次点击分析→回归→二元Logistic

在这里插入图片描述
2.在新窗体中分别选择好因变量和协变量其中协变量就是指自变量。窗口中的”方法“部分可以选择回归的方法具体选择哪个没有确定的准则可以都尝试一下。

在这里插入图片描述
3.如果自变量中存在定性变量且没有手动生成虚拟变量则需要点击窗体右边的“分类”按钮在如下所示的窗体中将定性变量移动到右边。

在这里插入图片描述

  1. 保存选项中对应需要输出并放在原始表格中的结果。
  • 概率表示逻辑斯蒂回归模型函数求解出的预测值是一个小数。
  • 组成员表示逻辑斯蒂回归模型的分类结果。
    在这里插入图片描述

5.在“选项”按钮菜单中可以设置最大迭代次数和分类临界值。分类临界值一般设置为0.5默认增大最大迭代次数高可能会提高模型准确率。

在这里插入图片描述

6.“自助抽样”方法是指在样本数很少的情况下通过对原始样本的重复使用来扩大样本集一般不使用。

SPSS逻辑斯蒂回归结果解读

  • 分类表表示各类的预测正确率。
    在这里插入图片描述
  • 方程中的变量表示逻辑斯蒂回归模型的各个回归系数B所在列以及对应的显著性。一般认为显著性小于0.05的是显著的因此width height和 color_score是显著的。

在这里插入图片描述

逻辑回归模型预测成功率低的优化方法在原始模型中增加自变量自变量可以是原始自变量的平方项、交互项等。但是这种方法可能会导致过拟合问题需要使用交叉验证进行检验。

SPSS增加自变量的方法

  • 打开导入了数据的SPSS表格依次点击转换→计算变量

在这里插入图片描述

  • 在新的窗体中定义新自变量的名称和计算公式
    在这里插入图片描述

Fisher线性判别分析

Fisher线性判别分析基本思想给定训练集样例设法将样例投影到一维的直线上使得同类样例的投影点尽可能接近和密集不同类投影点尽可能远离。

SPSS进行Fisher线性判别分析

1.打开导入了数据集的SPSS软件依次点击分析→分类→判别式

在这里插入图片描述

2.选择因变量和自变量过程与逻辑斯蒂回归模型的使用类似。但是需要给因变量定义范围。

在这里插入图片描述

3.在”统计“按钮菜单中勾选”费希尔“和”未标准化“。

在这里插入图片描述

4.在“分类”选项菜单中勾选摘要表用于记录分类结果。

在这里插入图片描述

5.在“保存”按钮菜单中勾选预测组成员和组成员概率。

在这里插入图片描述

SPSS进行Fisher线性判别分析的结果

  • 典型判别函数系数表

在这里插入图片描述

  • 分类结果表格记录了分类的准确率等信息。

在这里插入图片描述

  • 分类函数系数也称为贝叶斯判别函数系数。可以将各个样本的参数代入不同类的分类函数所得到的函数值最大的一类就是该样本的分类结果。

在这里插入图片描述

多分类问题的SPSS求解

使用Fisher线性判别分析求解多分类问题在求解二分类问题的基础上修改因变量的取值范围即可。

使用逻辑斯蒂回归求解多分类问题将Sigmoid函数推广到Softmax函数即可用于逻辑斯蒂的多分类问题。在SPSS中依次点击分析→回归→多元Logistic

在这里插入图片描述

使用方法和二元Logistic方法类似。

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6