Python+sklearn机器学习应该了解的33个基本概念

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

机器学习（Machine Learning）根据已知数据来不断学习和积累经验，然后总结出规律并尝试预测未知数据的属性，是一门综合性非常强的多领域交叉学科，涉及线性代数、概率论、逼近论、凸分析、算法复杂度理论等多门学科。

目前机器学习已经有了十分广泛的应用，例如数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

总体上说，机器学习算法和问题可以分为有监督学习和无监督学习两大类。

在有监督学习中，数据带有额外的属性（例如每个样本所属的类别），必须同时包含输入和输出（也就是特征和目标），通过大量已知的数据不断训练和减少错误来提高认知能力，最后根据积累的经验去预测未知数据的属性。分类和回归属于经典的有监督学习算法。在分类算法中，样本属于两个或多个离散的类别之一，我们根据已贴标签的样本来学习如何预测未贴标签样本所属的类别。如果预期的输出是一个或多个连续变量，则分类问题变为回归问题。

在无监督学习算法中，训练数据包含一组输入向量而没有任何相应的目标值。这类算法的目标可能是发现原始数据中相似样本的组合（称作聚类），或者确定数据的分布（称作密度估计），或者把数据从高维空间投影到二维或三维空间（称作降维）以便进行可视化。

一般地，不会把给定的整个数据集都用来训练模型，而是将其分成训练集和测试集两部分，模型使用训练集进行训练（或学习），然后把测试集输入训练好的模型并评估其表现。另外，大多数模型都有若干参数可以设置，例如支持向量机模型的gamma参数，这些参数可以手动设置，也可以使用网格搜索（grid search）和交叉验证（cross validation）寻找合适的值。

接下来，我们一起了解一下机器学习中常见的几个概念。

阅读原文

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6