java基础巩固-宇宙第一AiYWM：为了维持生计，编程语言番外篇之机器学习（项目预测模块总结：线性回归算法、逻辑回归分类算法）~整起

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

机器学习

一、机器学习常见算法未完待续...
巨人的肩膀

一、机器学习常见算法未完待续…

1.算法一线性回归算法找一条完美的直线完美拟合所有的点使得直线与点的误差最小

干货前的杂谈
- 之前学的Hadoop生态中的东西们都是为了应对海量历史数据的存储与计算。而真正的展望未来是基于历史数据对未来进行预测。
- 科普
  - 国外亚马逊的推荐系统质量比较高是因为亚马逊掌握的数据质量高。
  - 另外5G时代到来后形成万物互联就像一个八爪鱼5G这个词基建位于中心每个爪爪有着自己独一枝的终端设备。
    - 此时如果每个终端设备需要处理数据等业务时必须得和中间的5G中心交互这时间成本太高所以“引入边缘计算”。临近的终端设备可以互相帮忙。但是互帮互助也不能让邻居白帮忙呀所以得引入“区块链”进行记账、付费等。
- 数据+算法==>模型规律
  - 数据量决定了模型的高度算法只是逼近这个高度
线性回归算法整体思路
- 1.随机产生w参数
  - 其实就是不断调整完美直线的指向与坐标轴的交点找到误差值最小的w参数也就相当于找到了完美直线
- 2.把w参数与样本数据带入到误差函数中求解误差值
- 3.误差值与用户指定的误差阈值比较
  - 如果大于用户指定的误差阈值继续调整w参数
  - 如果小于用户指定的误差阈值那么此时的w参数就是最佳的w参数
线性回归具体知识点
- y=w0 + w1 * x此时咱们需要两组数据才能确定这个方程因为有两个未知数两点确定一条直线多一个点少一个点都不行。具体到咱们机器学习、大数据这块咱们有好几亿组数据我们此时 需要找到一根离好几亿数据最近的且能代表数据规律的完美直线【这个规律不就是w参数嘛】
  - 当咱们x不止一个时就要找的是多元线性回归y=W0+W1X1+W2X2+…+WnXn
- 线性回归算法的量化公式
  - 当咱们J(θ)值越小证明咱们好几亿数据跟直线的误差越小不就相当于说咱们已经找到这条完美直线【这条完美直线指的是这条直线到所有点的距离最小也就是所有点的误差最小】了嘛
    - 这个J(θ)叫做误差函数/损失函数/目标函数
    - 损失函数为什么用平方而不是绝对值【平方当误差比较大时会放大误差从而会在全局的角度中帮咱们找到更好的完美直线】
    - 完美直线如果是曲线虽然说曲线能够拟合所有的点也就是说能够保证误差很小但是曲线不能体现出数据的规律所以曲线算作过拟合而不是完美直线体现出来的完美拟合
      - 过拟合问题如何控制把好几亿数据这个数据集分(代码中可以用data.RandomSplit方法来分)为三块【从原始好几亿数据中随机选取出来的数据分为三块】验证集、训练集、测试集
        
        验证集不参与训练模型的可以用验证集来防止过拟合。验证集的目的是辅助训练模型
        测试集测试model2参与训练模型过程
- 咱们的目标是这个J(θ)值越小越好【这个J(θ)是个凹函数所以这个J(θ)有极小值】所以可以通过求导求偏导然后令导数为0求出未知数。但是在海量数据下通过求导令导为0求极值根本不太现实你求导求到啥时候。所以此时通过正向试参数这种方法其实就是**令参未知数为0为1...同时和几亿个数据或者叫点带入到误差函数中求出一个J(θ)误差值如果这个误差值在咱们可接受的范围内不就相当于把未知参数试出来了嘛【其实咱们试w这未知参数就是在改变直线的方向和与坐标轴的交点从而确定在w这未知参数为多少时直线与点的距离最近也就相当于误差最小】**。未知参数有了相当于直线的方程不就有了不就相当于找到完美直线了嘛。
  - 然后咱们得到y=w0 + w1*…x…不就可以把x带入到完美直线中此时得到的y值就是预测值
    - 你量化公式如果不加平方误差之间可能会抵消这不是耽误事呢嘛所以得加平方
  - 此时咱们目标是想预测的y值准确些所以咱们此时玩的是y轴方向上的误差。或者说此时的点到直线上的距离是y轴方向的并不是真正的点到直线的距离【真正的点到直线的距离是要做垂线的哦】
  - 但是J(θ)并不是越小越好可能会出现过拟合等情况
  - 光说试w这未知参数那咋调呢就是 梯度下降法【梯度下降法指的就是调整w参数这种方法用来优化损失函数梯度的方向总是指向函数增大的方向而咱们w参数调整的方向正好是梯度相反的方向所以叫做梯度下降法】
- 梯度下降法
  - 如果导数<0w参数往大了调整【导数的正负决定了w参数的调整方向公式中的α决定了每次w调整的步长【步长α不能太大步子迈的太大会让误差变大的这跟咱们的期望不是反着来了嘛】【但是α太小速度又很慢所以α不能太小也不能太大】α一般取0.2、0.3左右】
    - 往大了调整相当于w参数加上一个东西也相当于w参数减上导数因为导数此时为负数呀负负得正不就相当于w参数加上了什么东西
  - 如果导数>0w参数往小了调整
    - 往小了调整相当于w参数减上一个东西此时咱们就用w参数减上导数因为导数此时为正数呀。这样一来正好能跟导数<0那种情况合并起来
- 在训练模型的时候一般都会指定收敛条件【多个收敛条件满足一个即可停止迭代】不然会无休止的调整参数一般常用的收敛条件有两个
  - 1.迭代次数在代码中可以用for i in range(10000):相当于指定迭代次数为10000.迭代了10000次
  - 2.误差容忍度0.01在代码中就是while err > 0.00001:指定误差容忍度或者说用户指定的误差阈值
```
import numpy as np
...
def  h(x): #定义一个函数h(x)
    return w0 + w1 * x #函数h(x)的返回值

# Spark mllib是一个机器学习库封装好了咱们经常用的机器学习算法可以跟Anaconda一块使用
```
- 线性回归的抗噪声以及抗冗余

2.算法二逻辑回归分类算法

逻辑回归又叫logistic回归是一种广义的线性回归【逻辑回归底层也算是用的是线性回归或者说多元的线性回归】分析模型逻辑回归也算是一种用于分类的算法
- 咱们用Y=0.5作为咱们人为设置的一个阈值【分类阈值可以调整判断日常消费这种0.51、0.49就可以得到结论推送结论了。但是诊断病情、股票这些高精尖的0.9左右你才敢得结论推送结论吧】不就可以进行分类了嘛【计算出来的y值大于0.5属于上面那一类小于0.5属于下面那一类】
  - Z无限大则Y值无限逼近于0Y越逼近1越属于上面那一类
  - Z无限小则Y值无限逼近于1从图像也可以看出来呀
- 样本倾斜
  - 训练集数据发生了严重的数据倾斜会导致结果有误差或者有错
  - 解决训练集数据倾斜的方法调整两类数据的权重为一样的
    - 上采样少的多复制几份
    - 下采样从多的那部分中抽取一部分和少的保持一致
- 如果空间中样本的分布如下那么无法准确找到一根分类线来将数据分开【一根直线无法分开样本数据有可能就表示咱们需要升高维度喽】此时就要调整样本的维度或者换个非线性算法
  - 将样本数据的维度升高2->3高维的数据一定是基于已有的两维数据经过一系列计算得来的【不断的试】
- 模型正确率是50%证明模型很差这跟咱们瞎猜差不多
- 假如训练逻辑回归算法模型时要求分类的直线过原点也就是无截距
  - 这就是难题了平时咱们的都有截距有截距一般能够很好的对样本数据进行分类
- 逻辑回归的误差函数/损失函数
  - 下面的误差函数针对计算一条样本的误差【咱们最终分类的目的就是得出y到底属于哪一类呀所以y就是代表当前样本的真实分类号】
  - 就算多条样本的误差函数/目标函数
  - 咱们还是利用梯度下降法来优化目标函数或者说误差函数
    - 梯度下降就是通过对目标函数或者叫误差函数求导根据导数来决定w参数的调整方向利用结合步长α和导数一块优化误差函数或者说目标函数
- 逻辑回归算法训练模型的整体流程
  - 1.随机产生w参数值
  - 2.将我们的训练集数据和w参数带入到误差函数中计算出误差
  - 3.将误差与用户指定的误差预知相比较
    - 计算出来的误差值小于用户指定的误差阈值则对应的w参数就是最佳的w相当于w参数对应的分割线就是最佳的分割线
    - 计算出来的误差值大于用户指定的误差阈值说明还需要调整那就继续对误差函数求导依据导数的大小来确定w参数的调整方向同时使用用户指定的α来调整w参数如果计算出来的误差依然大于用户指定的误差阈值则迭代23步骤直到误差小于用户指定的误差阈值
- 逻辑回归常用优化方法
  - 归一化训练集中各个特征数量级差得很大调整w参数时可能数量级差距很大造成错误所以要进行归一化
    - 对数据做归一化将数据映射到0-1之间
    - 归一化方法
      - 最大最小值归一化((特征值-min)/(max-min))。最大最小归一化缺点是容易受到离群值的影响
      - 方差归一化
        优点抗干扰能力强和所有数据都有关求方差需要所有值的介入若有离群值的话离群值的影响会被方差归一化抑制下来
        缺点最终未必会落到0到1之间
  - 归一化后还有问题
    - 所以总的来说还是拐弯效率高那怎么样能够实现拐弯呢。
      - 进行均值归一化让每个数量减去平均数让w1和w2有正有负就可以实现拐弯去调w参数
  - w越大的优点和缺点同理w越小正好对应w越大的缺点和优点所以w并不是越大越好或者越小越好而是刚刚好才好
    - 优点
    - 缺点会放大噪声数据【w越大越会受噪声的影响抗干扰能力越小】
  - L1正则化与L2正则化为了达到刚刚好的w参数这个目的需要重写一些误差函数在原来的误差函数后面加了一项带有惩罚系数λ的正则化项
    - 通过L1正则化把w调的刚刚好【前一部分一大坨求和用来保证模型的正确率后一部分λL用来保证抗干扰能力】
      - 如果这个λ=0.3说明咱们更看重前面那一坨简化版的误差公式
      - 如果这个λ=1说明同时看重简化版的误差公式以及带有惩罚系数的正则化项
    - L2正则化
    - L1正则化与L2正则化区别L1正则化是把w参数取绝对值再累加起来L2正则化是把w参数求平方再累加起来
      - L1正则化使得w参数趋向于0
        同时L1还可以降维体现出矩阵中为0的w参数w=0没用呀所以比如六个w参数相当于六维咱们就可以去掉那些0不就相当于降维了嘛
      - L2正则化使得w参数趋向于整体变小
常见的分类问题根据输入的特征数据来获取因变量y从而判断出分类结果
- 判断是…或者不是…吃饭没吃饭、生病没生病、吃药没吃药…
- 股票预测
- 确诊及未确诊
- 价格预测涨跌
逻辑回归算法和线性回归算法的比较
- 线性回归算法简单回忆
逻辑回归实际项目部分点总结
- 逻辑回归算法实现交通路况预测所有的多分类都可以归结为二分类本类+其他类不就相当于二分类了嘛我管你其他类是多少类呢
  - 路况四种类型A类严重拥堵、B类拥挤、C类缓行、D类畅通。【路况类别粒度越细抗干扰能力越强】
  - 模型model1A类、其他类BCD
  - 模型model2B类、其他类ACD
  - 模型model3C类、其他类ABD
- 整体思路用指定路段的历史拥堵情况来预测未来路况先实现实时路况数据统计【数据源源不断写入后台的MQ中将数据放入redis中然后用SparkStreaming去进行实时处理】然后用统计而来的历史数据先进行模型的训练然后进行交通路况的预测。
  - 统计卡口的数据卡口数据形式卡口号、车牌号、车辆经过卡口的时间、车辆经过卡口的速度
    - 经过卡口的速度需要用一段时间内比如说五分钟内的经过这个卡口所有车辆的速度除以车辆总数量就能得到这个卡口所在路段的平均速度衡量【用历史数据衡量这一刻的速度来排除偶然因素的影响】。在SparkStreaming中有个窗口函数是reduceByKeyAndWindow(5min, 10min) #窗口长度为510代表每隔10min计算一次
- 编程思路你的训练集是什么样的训练出来的模型就具备什么样的功能规律
  - 实时统计路况拥堵状况利用流式计算框架SparkStreaming每条路每分钟的拥堵情况都计算出来然后把数据存到redis中
    - 1.将卡口数据写入kafka
      - 写数据直接向kafka中写而消费者拿数据消费是从zookeeper集群中节点中拿【因为zookeeper中记录着用户数据的偏移量】
    - 2.用SparkStreaming去消费kafka中数据
  - 构建训练集训练集存到redis中但是redis是基于内存的所以给HDFS中也存一份
  - 利用redis中的数据进行预测
    - 每一条路对应一个模型model。假设为通过最近三分钟的数据预测接下来一分钟的路况
      - 影响A中路的要素有两方面。【当然啦实际影响因素有很多天气、周六周日等…】
    - 假设通过最近三分钟的数据来预测第10分钟后的路况拥堵程度
      - 欲训练模型的卡口号对应路段及其影响要素
      - 如果模型的准确率超过80%则模型保存在hdfs上
    - 假设通过最近10分钟的数据来预测第5分钟的拥堵情况

3.算法三贝叶斯分类算法

在这里插入图片描述

来源于一篇逆概文章。【正向概率问题指的是顺着推导就能推导出来的那种】
- 训练贝叶斯算法模型就是在统计概率得到概率表然后依据表预测未来
常用于比如邮件分类垃圾邮件及非垃圾邮件。
- 做法就是整理思路得到概率表
- 当基数太小时贝叶斯可能会不符合客观事实所以可以用拉普拉斯平滑定理【给分子分母都加上一个数让最终概率符合客观事实】

4.算法四KNN分类算法

所谓的识别数字/字母其实就是一个分类过程【需要有对应的数字或者字母的数据数据是什么样的训练出来的模型就具备什么样的功能】。常见的场景有web识别车牌号码、数字、验证码

5.算法五KMeans算法

根据两个样本之间的距离来对样本数据进行划分堆咱们也得确定聚类要聚的是哪几类
实现KMeans算法。【可以自己实现也可以用python中的scikit-learn机器学习库封装了大量的机器学习算法来做KMeans聚类】
- 1.随机产生K个中心点中心点可以是真是存在的也可以是虚拟的
  - K的值是咱们不断试出来的得到一个合适的K值【这个合适的K值可以使得聚类效果很好也就是类内部相似性很高类之间差异很大】。咱们K值就可以用matplotlab画出图来看一下看看聚成的几个类在K为何值图中分的类合适
- 2.计算空间中到K个中心点的距离
  - 距离指的是欧氏距离等
- 3.看一下空间中的样本距离哪一个中心点最近
- 4.归完类之后我们要重新计算K个类的新的中心点这个类所有样本的横纵坐标取均值
- 5.计算空间中的样本与新的K个中心点距离
- 6.归类
- 7.直到新的中心的坐标与上一次中心点的坐标不再发生变化
KMeans算法在推荐系统中的应用
- 推荐系统根据用户的兴趣爱好去推荐用户感兴趣的信息或者商品、抖音、快手、电商领域的京东、天猫、亚马逊。推荐系统产生的本质就是信息过载信息量过大。
  - 但是信息总会有错有丢失你咋也不可能100%把所需要的数据都搞到手方方面面的所以得靠技术手段也就是机器学习算法、KMeans解决字段丢失问题然后数据齐全之后可以利用“基于用户的协同过滤”或者“基于物品的系统过滤【物品捆绑买卖次数有时候上架新商品没有捆绑经历所以得通过一些手段搞出来捆绑记录】”等推荐算法再结合其他的算法去实现推荐。
    - 协同意思是协同别人的数据看看自己的有别人的数据的相似性进而去给你推荐
- one-hot编码搞一个库然后把每种组合以矩阵的形式展示或者说统计出来