《零基础学机器学习》读书笔记一

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

《零基础学机器学习》读书笔记一

一、机器学习快速上手路径

1.1 机器学习的家族谱

人工智能可以被简单地定义为努力将通常由人类完成的智力任务自动化。
AI效应的2个阶段
1AI将新技术、新体验带进人类的生活完成了一些原本需要人类智慧才能完成的工作此时舆论会对AI期待极高形成一种让人觉得“真正的”AI时代麻黄素那个就要到来的氛围。
2一旦大家开始习惯这些新技术就又开始认为这些技术没什么了不起根本代表不了真正的人类智慧此时又形成一种对AI的现状十分失望的氛围。
机器学习是AI的分支而深度学习是机器学习的技术之一。
AI的发展离不开数据和硬件
1数据。数据是燃料有了算法所需要的海量数据机器才能够运转。
2硬件。存储能力、计算能力的增强以及云服务、GPU等。
技术的可达性和实用性才是机器学习和深度学习的真正价值所在。

1.1.1 入门机器学习

在入门阶段需要一些数学基础包括函数、概率统计线性代数和微积分最基础的内容。机器学习中的数学内容重在理解不重在公式的推演。
机器学习注重模型的选择、整合、参数的调试。这要求的主要是逻辑分析与判断能力再加上点直觉和运气。

1.1.2 机器学习就是从数据中发现规律

使用正确的特征来构建正确的模型以完成既定的任务。
——Peter Flach《机器学习》

机器学习的关键内涵之一在于利用计算机的运算能力从大量的数据中发现一个“函数”或“模型”并通过它来模拟现实世界事物间的关系从而实现预测或判断的功能。
这个过程的关键是建立一个正确的模型。
特征自变量x₁,x₂,x₃,…x_n)
标签因变量y。
训练数据集 training dataset测试数据集 test dataset。
机器学习就是在已知数据集的基础上通过反复的计算选择最贴切的函数去描述数据集中自变量x₁,x₂,x₃,…x_n)和因变量y之间的关系。
从数据中发现关系归纳成函数以实现从A到B的推断。

机器学习的另外一个特质是从错误中学习。
机器找到一个函数去拟合fit它要解决的问题一直到找到相对最为合适的函数为止机器通过机器学习算法自己摸索出来。机器从已知数据中不断试错之后归纳出规则。
训练步骤
1选定模型的类型也就是算法
2通过fit方法来训练机器进行函数的拟合
3预测验证集的y值
4计算验证集中预测值和真值之间的差异评估预测结果
拟合意味着找到最优的函数去模拟训练集中的输入特征和目标标签的关系确定模型的参数。
要比较不同的模型都应采用相同的评估指标在同样的标准下哪个分数更高就说明哪个模型更好。
学习重点在于解释这些算法并应用它们建立机器学习模型函数来解决具体问题。

1.1.3 机器学习的类别

最常见的分类为 监督学习、无监督学习和半监督学习。
监督学习的训练需要标签数据而无监督学习不需要标签数据半监督学习介于两者之间。
半监督学习使用大量的无标签数据同时使用部分有标签数据来进行建模。
另一种分类方式监督学习、无监督学习和强化学习。

1.1.4 机器学习的重要分支

深度学习是根据机器学习的模型或训练机器时所采用的算法进行分类。
监督学习或无监督学习着眼点在于数据即问题的本身
传统机器学习还是深度学习着眼点在于解决问题的方法。
人工神经网络是数据结构和算法形成的机器学习模型由大量的所谓人工神经元相互联结而成这些神经元都具有可以调整的参数可以实现监督学习或无监督学习。
现在把层数较多、结构比较复杂的神经网络的机器学习技术叫作深度学习。
深度学习的另一大好处是对数据特征的要求降低自动地实现非结构化数据的结构化无须手工获取特征减少特征工程。
特征工程是指对数据特征的整理和优化工作让它们更易于被机器所学习。
数据结构化的目标使数据变得**“计算机友好”**。
深度学习通过神经网络把特征提取和分类任务一并解决了。

1.1.5 机器学习新热点

强化学习研究的目标是智能体如何基于环境而做出行动反应以取得最大化的累积奖励。智能体通过所得到的奖励或惩罚、环境反馈回来的状态以及动作与环境互动。
强化学习和普通机器学习的差异在于普通机器学习是在开放的环境中学习而强化学习的环境是封闭的。
强化学习和监督学习的差异在于监督学习是从数据中学习而强化学习是从环境给它的奖惩中学习。监督学习中数据的标签就是答案强化学习得到惩罚后没人告诉它具体哪里做错了所以它调整策略的时候需要的智能更强要求它的思路也更加广阔、更为长远。智能体不一定每次都明确地选择最优动作而是要在探索未知领域和利用当前知识之间找到平衡。
其他机器学习方法算法例如集成学习、在线学习、迁移学习等。

1.1.6 机器学习的两大应用场景

回归和分类是两种最常见的机器学习问题类型。
回归问题通常用来预测一个值其标签的值是连续的。常见的回归算法是线性回归算法以及深度学习中的神经网络等。
分类问题是将事物标记一个类别标签结果为离散值也就是类别中的一个选项。分类有二元分类和多元分类每类的最终正确结果只有一个。
分类是机器学习的经典应用领域很多种机器学习算法都可以用于分类包括最基础的逻辑回归算法、经典的决策树算法以及深度学习中的神经网络等。

1.1.7 机器学习的其他应用场景

无监督学习中最常见的聚类问题是在没有标签的情况下把数据按照其特征的性质分成不同的簇数据分类还有一种无监督学习是关联规则通过它可以找到特征之间的影响关系。
时间序列指在内部结构随时间呈规律性变化的数据集如趋势性数据、随季节变化的数据等。时间序列问题其实就是和时间、周期紧密关联的回归问题。
结构化输出通常机器学习都是输出一个答案或者选项而有时需要通过学习输出一个结构。
生成式学习比如AI画画。
当机器学习的目标是做出决定时叫决策性问题。决策性问题本质上仍然是分类问题因为每一个决策实际上还是在用最适合的行为对环境的某一个状态进行分类。在很多决策性问题中机器必须学习哪些决策是有效的、可以带来回报的哪些是无效的、会带来负回报的以及哪些是对长远目标有利的。因此强化学习是这种情况下的常用技术。
机器学习的诀窍在于要了解自己的问题并针对自己的问题选择最佳的机器学习方法算法也就是找到哪一种技术最有可能适合这种情况。
机器学习分类