统计学习方法学习笔记（1）统计学习方法及监督学习理论

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

统计学习方法及监督学习理论

1.1.统计学习

1.1.1.统计学习的特点

统计学习的概念统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也被称为统计机器学习。

统计学习的主要特点

统计学习以计算机及网络为平台是建立在计算机及网络上的。
统计学习以数据为研究对象是数据驱动的学科。
统计学习的目的是对数据进行预测和分析。
统计学习以方法为中心统计学习方法构建模型并应用模型进行预测和分析。
统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科并且在发展中逐步形成独自的理论体系和方法论。

学习的定义来自赫尔伯特·西蒙如果一个系统能够通过执行某个过程改进它的性能这就是学习。

1.1.2.统计学习的对象

统计学习的对象统计学习的对象是数据。它从数据出发提取数据的特征抽象出数据的模型发现数据中的知识又回到对数据的分析和预测中去。

统计学习对数据的基本假设统计学习假设同类数据具有一定的统计规律性这也是统计学习的前提。

1.1.3.统计学习的目的

统计学习的作用统计学习用于对数据的预测和分析特别是对未知新数据的预测和分析。

1.1.4.统计学习的方法

实现统计学习方法的基本步骤

得到一个有限的训练数据集合
确定包含所有可能的模型的假设空间也就是学习模型的集合
确定模型选择的准则也就是学习的策略
实现求解最优模型的算法也就是学习的算法
通过学习方法选择最优模型
利用学习的最优模型对新数据进行预测或分析。

1.1.5.统计学习的研究

统计学习研究的三个方面统计学习方法、统计学习理论和统计学习应用。

统计学习方法旨在开发新的学习方法。
统计学习理论探求统计学习方法的有效性和效率。
统计学习应用将统计学习方法应用到实际问题中去。

1.1.6.统计学习的重要性

统计学习在科学技术中重要性的体现

统计学习是处理海量数据的有效方法。
统计学习是计算机智能化的有效手段。
统计学习是计算机科学发展的一个重要组成部分。

1.2.统计学习的分类

统计学习一般包括监督学习、无监督学习和强化学习三类。有时也包括半监督学习和主动学习。

1.2.1.基本分类

1.2.1.1.监督学习

监督学习的定义从标注数据中学习预测模型的机器学习问题。

监督学习的本质学习输入到输出的映射统计规律。

1.2.1.1.1.输入空间、特征空间和输出空间

输入空间和输出空间在监督学习中将输入与输出所有可能取值的集合分别称为输入空间和输出空间。通常输出空间远远小于输入空间。

特征空间每个具体的输入对应一个特征向量所有特征向量存在的空间称为特征空间。特征空间的每一维对应一个特征。有时对特征空间和输入空间不作区分实际上模型都是定义在特征空间上的。

监督学习的过程从训练数据集合中学习模型对测试数据进行预测。每一组数据称为样本。

监督学习的分类

回归问题输入变量与输出变量都是连续变量的预测问题。
分类问题输出变量为有限个离散变量的预测问题。
标注问题输入变量与输出变量均为变量序列的预测问题。

1.2.1.1.2.联合概率分布

监督学习关于数据的基本假设输入变量和输出变量具有联合概率分布。

1.2.1.1.3.假设空间

假设空间的概念由输入空间到输出空间的映射的集合。假设空间的确定意味着学习范围的确定。

1.2.1.2.无监督学习

无监督学习的定义从无标注数据中学习预测模型的机器学习问题。

无监督学习的本质学习数据中的统计规律或潜在结构。

无监督学习的输出每一个输出是对输入的分析结果如输入的类别、转换或概率表示。

无监督学习模型的作用实现数据的聚类、降维或概率估计。

1.2.1.3.强化学习

强化学习的定义智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。

强化学习的本质学习最优的序贯决策。

智能系统与环境的互动过程每一步中智能系统从环境中观测到一个状态和一个奖励便采取一个动作环境在智能系统采取动作后会根据该动作决定下一步的状态和奖励。要学习的策略就是在给定状态下智能系统采取的动作。

智能系统的目标不是短期奖励的最大化而是长期累积奖励的最大化。

马尔可夫决策过程的马尔可夫性强化学习中假设智能系统与环境的互动基于马尔可夫决策过程。马尔可夫过程的马尔可夫性是指下一个状态只依赖于前一个状态与动作下一个奖励依赖于前一个状态与动作。

1.2.1.4.半监督学习与主动学习

半监督学习定义利用标注数据和未标注数据学习预测模型的机器学习问题。

半监督学习的目标标注数据的构建往往需要人工成本较高而未标注数据的收集不需要太多成本。半监督学习旨在利用未标注数据中的信息辅助标注数据进行监督学习以较低的成本达到较好的学习效果。

主动学习的定义机器不断主动给出实例让教师进行标注然后用标注数据学习预测模型的机器学习问题。

主动学习的目标找出对学习最有帮助的实例让教师标注以较小的标注代价达到较好的学习效果。

1.2.2.按模型分类

1.2.2.1.概率模型与非概率模型

概率模型概率模型的形式是条件概率分布形式。决策树、隐马尔可夫模型、条件随机场、概率潜在语义分析、高斯混合模型等都是概率模型。

非概率模型也称为确定性模型其形式是函数形式。感知机、支持向量机、K近邻、AdaBoost、K均值以及神经网络都是非概率模型。逻辑斯蒂回归既可以视为概率模型也可以视为非概率模型。

概率模型和非概率模型的区别不在于输入和输出之间的映射关系在于模型的内在结构。

概率图模型简介概率图模型是概率模型的代表是联合概率分布由有向图或无向图表示的概率模型而联合概率分布可以根据图的结构分解为因子乘积的形式。贝叶斯网络、马尔可夫随机场和条件随机场都是概率图模型。

1.2.2.2.线性模型与非线性模型

线性模型与非线性模型的定义如果模型本身是线性函数那么该模型就称为线性模型否则称该模型为非线性模型。

常见的线性模型和非线性模型感知机、线性支持向量机、K近邻、K均值都是线性模型核函数支持向量机、AdaBoost、神经网络是非线性模型。深度学习实际上是复杂神经网络的学习也属于非线性模型。

1.2.2.3.参数化模型与非参数化模型

参数化模型的定义模型参数的维度固定模型可以由有限维参数完成刻画。感知机、逻辑斯蒂回归、K均值、高斯混合模型都是参数化模型。

非参数化模型的定义模型参数的维度不固定或者说无限大随着训练数据量的增加而不断扩大。决策树、支持向量机、K近邻都是非参数化模型。

两种模型的适用情况参数化模型适用于简单问题对于复杂问题使用非参数化模型更加有效。

1.2.3.按算法分类

统计学习按照算法可以分为在线学习与批量学习。

在线学习的定义每次接收一个样本进行预测之后学习模型并不断重复该操作的机器学习。

批量学习的定义一次接受所有数据学习模型之后进行预测。

在线学习和批量学习的比较在线学习通常比批量学习更难很难学到预测准确率高的模型因为模型的每次更新中可以利用的数据有限。但是有些实际应用中要求学习必须是在线的。

1.2.4.按技巧分类

1.2.4.1.贝叶斯学习

贝叶斯学习的定义又称为贝叶斯推理是统计学和机器学习中最重要的方法。其主要的思想是在概率模型的学习和推理中利用贝叶斯定理计算在给定数据条件下模型的条件概率即后验概率并应用这个定理进行模型的估计和数据的预测。

1.2.4.2.核方法

核方法的作用核方法是使用核函数表示和学习非线性模型的一种机器学习方法可以用于监督学习和无监督学习。核方法可以把一些线性模型的学习方法扩展到非线性模型的学习使得其应用范围更加广泛。

1.3.统计学习方法三要素

统计学习方法的三要素模型、策略、算法。

1.3.1.模型

模型的假设空间包含所有可能的条件概率分布或决策函数通常是由一个参数向量决定的函数族。参数向量的取值空间称为参数空间。

1.3.2.策略

策略的作用有了模型的假设空间后统计学习接着需要考虑按照什么样的准则学习最优的模型。

1.3.2.1.损失函数和风险函数

损失函数和风险函数的区别损失函数度量模型一次预测的好坏风险函数度量平均意义下模型预测的好坏。损失函数值越小模型越好。

常用的损失函数0-1损失函数、平方损失函数、绝对值损失函数、对数损失函数等。

经验风险的概念模型关于训练数据集的平均损失称为经验风险或经验损失。

1.3.2.2.经验风险最小化与结构风险最小化

经验风险最小化策略

认为经验风险最小的模型是最优的模型。
样本容量足够大时有很好的学习效果在现实中被广泛采用。
样本容量很少时经验风险最小化学习的效果未必就好容易产生过拟合现象。

结构风险最小化

为了防止过拟合而提出等价于正则化。
认为结构风险最小的模型是最优的模型。
结构风险在经验风险的基础上增加了表示模型复杂度的正则化项或罚项。
模型越复杂正则化项的值越大。

1.3.3.算法

算法的概念算法是指学习模型的具体计算方法统计学习的算法成为求解最优化问题的算法。

1.4.模型评估与模型选择

1.4.1.训练误差与测试误差

训练误差和测试误差的概念训练误差是指模型关于训练数据集的平均损失测试误差是指模型关于测试数据集的平均损失。

训练误差和测试误差的使用训练误差的大小对于判定给定问题是不是一个容易学习的问题是有意义的但是本质上不重要测试误差是学习中的重要概念对于给定的两种学习方法测试误差小的方法具有更好的预测能力被认为是更有效的方法。

1.4.2.过拟合与模型选择

过拟合问题如果一味追求提高对训练数据的预测能力所选模型的复杂度往往会比真模型更高这种现象称为过拟合。过拟合是指学习时选择的模型所包含的参数过多以至于出现这一模型对已知数据预测得很好但是对未知数据预测得很差。

训练误差和测试误差随模型复杂度的变化训练误差随着模型复杂度的提升而降低测试误差随着模型复杂度升高先减小后增大。

1.5.正则化和交叉验证

1.5.1.正则化

正则化的定义正则化是结构风险最小化策略的实现是在经验风险上加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数模型越复杂正则化值越大。

正则化的作用选择经验风险和模型复杂度同时较小的模型。

奥卡姆剃刀原理在所有可能选择的模型中能够很好地解释已知数据并且十分简单的才是最好的模型也就是应该选择的模型。

1.5.2.交叉验证

交叉验证的背景在给定的样本数量充足时可以随机地将数据集切分成三部分分别为训练集、验证集和测试集。训练集用来训练模型验证集用于模型的选择而测试集用于最终对学习方法的评估。在学习到的不同复杂度的模型中选择对验证集有最小预测误差的模型。但是实际情况下数据往往是不足的为了选择好的模型就可以采用交叉验证的方法。

交叉验证的过程把给定的数据集进行划分把切分的数据集组合成训练集和测试集在此基础上评价各个模型的测试误差选出测试误差最小的模型。

交叉验证的分类

简单交叉验证首先随机将已知数据分为两部分一部分作为训练集一部分作为测试集然后用训练集在各种条件下训练模型从而得到不同的模型在测试集上评价各个模型的测试误差选出测试误差最小的模型。
S折交叉验证这是应用最多的交叉验证方法。随机地将已知数据分为S个互不相交且大小相同的子集然后利用S-1个子集的数据训练模型利用余下的子集测试模型将这个过程对可能的S种选择重复进行最后选出S次评测中平均测试误差最小的模型。
留一交叉验证是S折交叉验证中S=样本总个数的特殊情形往往在数据非常缺乏时使用这种方法。

1.6.泛化能力

泛化能力的定义学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力是学习方法本质上重要的性质。

泛化误差上界的概念泛化误差的上界通常学习方法的泛化能力分析比较就是通过泛化误差上界确定的。泛化误差上界是样本容量的函数当样本容量增加时泛化误差趋于零同时也是假设空间容量的函数假设空间容量越大模型就越难学泛化误差上界就越大。

泛化误差上界定理给出了泛化误差、训练误差和假设空间大小、样本容量和概率的函数关系。通过该定理可以得出在给定假设空间大小、样本容量和概率时某个方法的泛化误差上界。

在这里插入图片描述

1.7.生成模型与判别模型

监督学习方法的分类监督学习方法又可以分成生成方法与判别方法所学到的模型分别称为生成模型和判别模型。

生成模型的概念生成模型由数据学习联合概率分布然后求出条件概率分布作为预测的模型。典型的生成方法有朴素贝叶斯法和隐马尔可夫模型。

判别模型的概念判别模型由数据直接学习决策函数或者条件概率分布作为预测的模型。典型的判别方法有K近邻法、感知机、逻辑斯蒂回归模型等。

生成模型的优点

可以还原出联合概率分布
收敛速度更快
存在隐变量时仍然可以使用。

判别模型的优点

学习的准确率往往更高
可以简化学习问题。

1.8.监督学习应用

监督学习的应用主要是三个方面分类问题、标注问题和回归问题。

1.8.1.分类问题

分类问题的定义输出变量为有限个离散值的监督问题。

分类问题的求解过程在学习过程中根据已知的训练数据集利用有效的学习方法学习一个分类器在分类的过程中利用学习的分类器对新的输入实例进行分类。

分类器性能评价

准确率对于给定的测试数据集分类器正确分类的样本数和总样本数之比
精确率预测和实际都是正类的样本数/预测为正类的样本数
召回率预测和实际都是正类的样本数/实际为正类的样本数。
F1分数精确率和召回率的调和平均数。

1.8.2.标注问题

标注问题的定义标注问题是分类问题的推广。标注问题的输入是一个观测序列输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型使得该模型对观测序列给出标记序列作为预测。

常用的标注问题模型隐马尔可夫模型、条件随机场。

1.8.3.回归问题

回归问题的概念回归问题等价于函数拟合选择一条函数曲线使得其很好地拟合已知数据且很好地预测未知数据。

回归问题的分类按照输入变量的个数可以分为一元回归和多元回归按照输入变量和输出变量之间的关系可以分为线性回归和非线性回归。