深度学习相关概念：感知器

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

深度学习相关概念交叉熵损失

摘要
背景
应用于深度学习的感知器。

在这里插入图片描述

摘要

如今Keras、TensorFlow 或 PyTorch 等框架提供了对大多数深度学习解决方案的交钥匙访问而不必深入了解它们。但是一旦您的模型没有按预期工作这就会出现问题。您可能需要自己调整它。所以如果你是来理解深度学习中感知器的概念我认为你走在正确的轨道上如果你想有一天能够以任何方式为这个生态系统做出贡献那么了解这些的根源是必不可少的系统。否则如果您已经熟悉感知器的概念那也没什么大不了的。还是希望给你惊喜在本文中我将介绍Perceptron的概念。我们将看看它在 1950 年是如何被考虑的以及它是如何运作的。

背景

早在 1943 年McCulloch 和 Pitts 就发表了一篇题为神经活动内在思想的逻辑演算的论文—— 今天被称为神经网络的第一个数学模型这篇文章的想法是想要通过复制人脑的功能来创建智能机器的时代动力的一部分。我把它的摘要的开头作为证据。由于神经活动的“全有或全无”特性神经事件及其之间的关系可以用命题逻辑来处理。当时人脑的功能被普遍认为是相互连接的神经细胞像简单的逻辑门一样传输电信号和化学信号

现在让我们向前跳 14 年到 1957 年Rosenblatt 发表了一篇名为The Perceptron — A Perceiving and Recognizing Automaton 的文章。正是在这篇文章中我们找到了今天所理解的感知器。一种学习最佳权重以与输入相乘以确定神经元是否激活的系统。下面你可以看到第一个被训练来识别物体或模式的感知器在这种情况下是字母表中的字母。
Flickr —— Mark 1 感知器的相机系统公共领域

应用于深度学习的感知器。

基本感知器用于监督机器学习中的二元分类。提醒一下例如二元分类意味着只有两个类可以预测 1 和 -1。有监督的机器学习是指通过已经标记的数据及其相关类来训练模型。

数学定义

我们按以下方式定义输入𝑥、输出y和权重𝑤。
在这里插入图片描述
其中 m 是向量 𝑤、𝑥 或y的大小。

令 𝑧为由 𝑥 和 𝑤 的线性组合组成的净输入。
在这里插入图片描述
分类由激活函数phi : 𝜙 (𝑧) 定义阈值theta : 𝜃 对应于所谓的偏差我们稍后会看到。
激活函数以某种方式定义了传入元素的分类方式。

如果神经元激活也就是说如果z ≥ 𝜃则当前输入将被分配为 1 类否则为 -1。

这种函数称为Heaviside 阶跃函数。
在这里插入图片描述
在上面theta 等于 0。通过更改此值我们将曲线向左或向右移动。

回顾一下既然我们已经添加了 theta净输入 z 的方程式会发生一点变化。

我们现在有
在这里插入图片描述

你现在知道感知器的数学定义了。

这是等效的图形
在这里插入图片描述

训练感知器

但是你如何训练一个感知器呢
以下是训练步骤

将权重初始化为 0或一个小的随机数
对于每个训练样例x⁽ⁱ⁾

计算估计输出ŷ⁽ⁱ⁾
更新权重

更新向量w的每个权重
在这里插入图片描述

完成如下在这里插入图片描述

我们引入eta的地方𝜂 学习率在 0.0 和 1.0 之间。

根据您是否熟悉这些符号您可能难以想象感知器是如何训练的。

例子
为了简单起见让我们假设学习率等于 1 并且我们知道以下值。

在这里插入图片描述
我们认为数据集中只有一个特征来简化计算。下面是一些在感知器中计算第一个权重的 delta 的例子。

在这里插入图片描述
你可以看到激活函数给出的估计输出值被系统地从实际输出值中减去。

当估计值与真实值相同时它等于0所以没有更新。

否则必须更新权重。

最后两个例子就是这种情况。我们可以注意到输入 𝑥 的值尺度使权重更新或多或少变化。

在示例 3 中𝑥 = 3因此权重差异为 6而在示例 4 中𝑥 = 0.5因此权重差异仅为 1。

误差

早些时候我故意跳过了对误差的解释以免给您带来过多的信息。如上所述偏差是一个标量值在通过激活函数之前添加到净输入 z 。它允许感知器的决策边界从原点移开这在数据不可线性分离的情况下很有用。

在这里插入图片描述
偏差是感知器的附加值它有自己的权重。这个权重也在学习阶段学习。

学习率

学习率是一个标量值它控制训练过程中权重更新的步长。根据其值当存在预测错误时或多或少地修改权重。它的值是在训练过程之前定义的。所以你必须小心因为它的值在整个训练过程中保持不变。如果将其值设置得太高感知器可能会超出最佳解决方案并且可能无法收敛到一个好的解决方案。也就是说它会在权重空间中采取较大的步长这可能会导致越过最佳点并最终进入权重空间中比最优解更差的区域。

此外如果将其值设置得太低感知器会收敛得太慢并且可能需要很长时间来训练它。此外它可能会陷入局部最小值而无法找到全局最小值。

在这里插入图片描述
学习率的最佳值取决于许多因素。在训练期间尝试不同的值以找到提供最佳性能的值是很常见的。