【机器学习】第四节：监督学习算法对比评估

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

作者️‍♂️让机器理解语言か

专栏机器学习sklearn

描述本专栏主要分享博主学习机器学习的笔记和一些心得体会。

寄语没有白走的路每一步都算数

0、介绍

监督学习英语Supervised learning是机器学习中最为常见、应用最为广泛的分支之一。本次实验将带你了解监督学习中常见的分类方法并学会使用 scikit-learn 来构建预测模型用于解决实际问题。

知识点

常用监督学习方法
常用算法对比评估

除了前面两节介绍过的线性模型以及支持向量机还有很多监督学习方法都非常流行。例如K 近邻、决策树、随机森林、朴素贝叶斯等。

1、K 近邻

K 近邻是一种十分常用的监督学习算法。简单来讲K 近邻就是假设一个给定的数据集且数据的类别已经确定。这些数据的特征所构成的特征向量可以映射到对应的特征空间中。现在假设一个输入实例我们可以计算该输入和其他数据点之间的距离再通过多数表决的方式来确定新输入实例的类别最后完成分类。

其中K 近邻中的「近邻」代表原有特征空间中与新输入实例距离最近的那些样本。而 K 代表距离最近的 K 个样本。所以对于 K 近邻而言。K 值的大小和距离的度量方式欧式距离或者曼哈顿距离是其构成的两个关键因素。

如上图所示原数据集由红、绿两类组成。现在我们新输入一个橙色实例图中表示了样本对应在特征空间的位置。现在我们确定 K = 3然后可以圈定出距离橙色实例最近的 3 个样本点。其中红色样本为 1 个绿色 2 个。根据多数表决的规则最终确定新输入的橙色样本数据被判定为 B 类别。而当我们指定 K = 7 时红色样本 4 个绿色样本 3 个则橙色样本被判定为 A 类别。

2、决策树和随机森林

决策树也是一种十分常见的监督学习方法。它是一种特殊的树形结构一般由节点和有向边组成。其中节点表示特征、属性或者一个类。而有向边包含有判断条件。

如图所示决策树从根节点开始延伸经过不同的判断条件后到达不同的子节点。而上层子节点又可以作为父节点被进一步划分为下层子节点。一般情况下我们从根节点输入数据经过多次判断后这些数据就会被分为不同的类别。这就构成了一颗简单的分类决策树。

当我们使用决策树分类时对于已有训练集只建立一颗决策树。而随机森林的概念是对于一个训练集随机建立多颗决策树。而建立这些决策树时会采取一种叫 Bootstrap 的取样方式即每一次从数据集中又放回的取出一部分数据再用这部分数据去建立小决策树。对于随机森林而言最终的分类结果由众多小决策树输出类别的众数确定。下图展示了一个由 3 颗决策树构成的随机森林过程。

由于随机森林的特点有效地降低过拟合程度具有较好的泛化误差。另外训练速度也非常快模型的表现往往都比较好是十分受欢迎的一种机器学习方法。

监督学习包含的方法众多在此就不再一一介绍。下面我们直接上手看一看 scikit-learn 中一些常用监督学习方法的分类效果如何。

3、常见监督学习方法

下面我们通过同一个示例数据集来对常见的监督学习算法分类性能做一个比较。

为了更方便可视化这里选用了一个随机生成的二分类数据集。总共包含 300 条数据类别为 0 和 1。

接下来你可以通过 Pandas 读取数据集并预览这些数据。

import pandas as pd  # 加载 pandas 模块
import warnings
warnings.filterwarnings('ignore')

# 读取 csv 文件, 并将第一行设为表头
data = pd.read_csv(
    "https://labfile.oss.aliyuncs.com/courses/866/class_data.csv", header=0)

data.head()  # 输出数据预览

通常情况下可视化是直观认识陌生数据的很好方法。这里我们通过 Matplotlib 来可视化这些数据。只需要 3 行代码就可以画出数据集的散点图。

from matplotlib import pyplot as plt  # 加载绘图模块
%matplotlib inline

plt.scatter(data["X"], data['Y'], c=data['CLASS'])  # 绘制散点图

上面我们用 c=data['CLASS'] 参数来控制散点的颜色。

接下来加载本次实验需要的模块以及 scikit-learn 中常见的分类器。你也可以通过官方文档对应的页面来查看这些分类方法。

# 集成方法分类器
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import RandomForestClassifier
# 高斯过程分类器
from sklearn.gaussian_process import GaussianProcessClassifier
# 广义线性分类器
from sklearn.linear_model import PassiveAggressiveClassifier
from sklearn.linear_model import RidgeClassifier
from sklearn.linear_model import SGDClassifier
# K近邻分类器
from sklearn.neighbors import KNeighborsClassifier
# 朴素贝叶斯分类器
from sklearn.naive_bayes import GaussianNB
# 神经网络分类器
from sklearn.neural_network import MLPClassifier
# 决策树分类器
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import ExtraTreeClassifier
# 支持向量机分类器
from sklearn.svm import SVC
from sklearn.svm import LinearSVC

接下来建立预测模型采用默认参数即可。由于方法较多所有这里就不再依次单独定义模型而是用列表形式管理。

# 建立模型
models = [
    AdaBoostClassifier(),
    BaggingClassifier(),
    ExtraTreesClassifier(),
    GradientBoostingClassifier(),
    RandomForestClassifier(),
    GaussianProcessClassifier(),
    PassiveAggressiveClassifier(),
    RidgeClassifier(),
    SGDClassifier(),
    KNeighborsClassifier(),
    GaussianNB(),
    MLPClassifier(),
    DecisionTreeClassifier(),
    ExtraTreeClassifier(),
    SVC(),
    LinearSVC()
]

# 依次为模型命名
classifier_Names = ['AdaBoost', 'Bagging', 'ExtraTrees',
                    'GradientBoosting', 'RandomForest', 'GaussianProcess',
                    'PassiveAggressive', 'Ridge', 'SGD',
                    'KNeighbors', 'GaussianNB', 'MLP',
                    'DecisionTree', 'ExtraTree', 'SVC', 'LinearSVC']

然后划分数据集。70% 用于训练另外 30% 用于测试。

from sklearn.model_selection import train_test_split  # 导入数据集切分模块

feature = data[['X', 'Y']]  # 指定特征变量
target = data['CLASS']  # 指定标签变量
X_train, X_test, y_train, y_test = train_test_split(
    feature, target, test_size=.3)  # 切分数据集

准备好数据之后就可以开始模型训练和测试了。

from sklearn.metrics import accuracy_score  # 导入准确度评估模块

# 遍历所有模型
for name, model in zip(classifier_Names, models):
    model.fit(X_train, y_train)  # 训练模型
    pre_labels = model.predict(X_test)  # 模型预测
    score = accuracy_score(y_test, pre_labels)  # 计算预测准确度
    print('%s: %.2f' % (name, score))  # 输出模型准确度

输出结果

AdaBoost: 0.82
Bagging: 0.86
ExtraTrees: 0.87
GradientBoosting: 0.86
RandomForest: 0.84
GaussianProcess: 0.88
PassiveAggressive: 0.76
Ridge: 0.86
SGD: 0.81
KNeighbors: 0.86
GaussianNB: 0.86
MLP: 0.87
DecisionTree: 0.79
ExtraTree: 0.84
SVC: 0.90
LinearSVC: 0.86

我们可以看到这 16 个分类器最终的准确度均在 80% ~ 90% 之间差距不是很大。对于这种现象主要有两个原因。首先本次使用的是一个非常规范整洁的线性分类数据集。其次所有的分类器均采用了默认参数而 scikit-learn 提供的默认参数一般已经较优。

接下来我们通过可视化的方法将每一个模型在分类时的决策边界展示出来这样能更加直观的感受到机器学习模型在执行分类预测时发生的变化。

from matplotlib.colors import ListedColormap  # 加载色彩模块
import numpy as np  # 导入数值计算模块
from tqdm.notebook import tqdm

# 绘制数据集
i = 1  # 为绘制子图设置的初始编号参数
cm = plt.cm.Reds  # 为绘制等高线选择的样式
cm_color = ListedColormap(['red', 'yellow'])  # 为绘制训练集和测试集选择的样式

# 栅格化
x_min, x_max = data['X'].min() - .5, data['X'].max() + .5
y_min, y_max = data['Y'].min() - .5, data['Y'].max() + .5

xx, yy = np.meshgrid(np.arange(x_min, x_max, .1),
                     np.arange(y_min, y_max, .1))

# 模型迭代
plt.figure(figsize=(20, 10))

for name, model in tqdm(zip(classifier_Names, models)):
    ax = plt.subplot(4, 4, i)  # 绘制 4x4 子图

    model.fit(X_train, y_train)  # 模型训练
    pre_labels = model.predict(X_test)  # 模型测试
    score = accuracy_score(y_test, pre_labels)  # 模型准确度

    # 根据类的不同选择决策边界计算方法
    if hasattr(model, "decision_function"):
        Z = model.decision_function(np.c_[xx.ravel(), yy.ravel()])
    else:
        Z = model.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]

    # 绘制决策边界等高线
    Z = Z.reshape(xx.shape)
    ax.contourf(xx, yy, Z, cmap=cm, alpha=.6)

    # 绘制训练集和测试集
    ax.scatter(X_train['X'], X_train['Y'], c=y_train, cmap=cm_color)
    ax.scatter(X_test['X'], X_test['Y'], c=y_test,
               cmap=cm_color, edgecolors='black')

    # 图形样式设定
    ax.set_xlim(xx.min(), xx.max())
    ax.set_ylim(yy.min(), yy.max())
    ax.set_xticks(())
    ax.set_yticks(())
    ax.set_title('%s | %.2f' % (name, score))
    i += 1

按照上面的步骤执行你就能看到如下图所示的对比图了。

上面将决策边界绘制出来并用等高线图显示。其中颜色越深表示偏向于黄色散点分类的概率越高而颜色越浅则表示偏向红色散点的概率越高。

为了进一步探索各分类器对于不同特征分布的数据集的适用情况。接下来我们将原有数据集做一些变换。

在前几节的课程中我们都知道了 sklearn.datasets 这个模块可以导入一些预设的数据集。其实不仅如此这个模块开提供了一些数据集的生成方法。比如

sklearn.datasets.make_circles 方法可以生成大圆环包小圆环样式的数据集。
sklearn.datasets.make_moons 方法可以生成两个交织间隔圆环样式的数据集。

from sklearn import datasets

# 生成 200 个包含噪声的环状样本
circles = datasets.make_circles(n_samples=200, noise=.1)
plt.scatter(circles[0][:, 0], circles[0][:, 1], c=circles[1])

# 生成 300 个包含噪声的月牙状样本
moons = datasets.make_moons(n_samples=300, noise=.2, random_state=1)
plt.scatter(moons[0][:, 0], moons[0][:, 1], c=moons[1])

这两组数据都是无法进行线性分类所以如果是非线性分类器其结果应该会好很多。

# 对月牙状样本进行分割测试
X_train, X_test, y_train, y_test = train_test_split(
    moons[0], moons[1], test_size=0.3)

for name, model in zip(classifier_Names, models):
    model.fit(X_train, y_train)  # 训练模型
    pre_labels = model.predict(X_test)  # 模型预测
    score = accuracy_score(y_test, pre_labels)  # 计算预测准确度
    print('%s: %.2f' % (name, score))  # 输出模型准确度

输出结果