《机器学习》第5章神经网络-CSDN博客

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

文章目录

5.1 神经元模型
5.2 感知机与多层网络
5.3 误差逆传播算法
5.4 全局最小与局部最小
5.5 其他常见神经网络
5.6 深度学习

5.1 神经元模型

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。

神经网络中最基本的成分是神经元模型即上述定义中的简单单元。

M-P神经元模型
在这里插入图片描述
理想中的跃阶函数

实际常用Sigmoid作激活函数

把许多个这样的神经元按一定层次结构连接起来就形成了神经网络。

5.2 感知机与多层网络

感知机由两层神经元组成如下图所示输入层接收外界输入信号后传递给输出层输出层是M-P神经元亦称阈值逻辑单元。
在这里插入图片描述
感知机权重

要解决非线性可分问题需要考虑使用多层神经元.如下图简单的两层感知机就能解决异或问题输入层与输出层之间的一层神经元被称为隐层或隐含层隐含层和输出层神经元都是拥有激活函数的功能神经元。

在这里插入图片描述
每层神经元与下一层神经元完全互连神经元之间不存在同层连接也不存在跨层连接这样的神经网络结构通常称为“多层前馈神经网络”。

5.3 误差逆传播算法

误逆差传播算法(BP):训练多层网络BP算法不仅可用于多层前馈神经网络还可用于其他类型的神经网络。但通常说“BP网络”时一般指用BP算法训练多层前馈神经网络。
在这里插入图片描述
假定神经网络的输出为

则均方误差为
在这里插入图片描述
确定参数
网络中有(dl+1)ql个参数需确定:输入层到隐层的d × q个权值、隐层到输出层的q × l 个权值、q个隐层神经元的阙值、l个输出层神经元的阈值.BP是一个迭代学习算法,在迭代的每一轮中采用广义的感知机学习规则对参数进行更新估计。任意参数v的估计公式为
在这里插入图片描述

算法
在这里插入图片描述

目标最小化训练集D上的累积误差
在这里插入图片描述

缓解BP过拟合的两种方式

1早停将数据分成训练集和验证集训练集用来计算梯度、更新连接权和阈值验证集用来估计误差若训练集误差降低但验证集误差升高则停止训练同时返回具有最小验证集误差的连接权和阈值。
2正则化在误差目标函数中增加一个用于描述网络复杂度的部分例如连接权与阈值的平方和则误差目标函数5.16改变为

5.4 全局最小与局部最小

在这里插入图片描述

5.5 其他常见神经网络

RBF网络

RBF:径向基函数是一种单隐层前馈神经网络它使用径向基函数作为隐层神经元激活函数而输出层则是对隐层神经元输出的线性组合。
假定输入为d维向量x,输出为实值则RBF网络可表示为
在这里插入图片描述

ART网络

竞争型学习是神经元网络中一种常用的无监督学习策略在使用该策略时网络的输出元神经相互竞争每一时刻仅有一个竞争获胜的神经元被激活其他神经元的状态被抑制。这种机制被称为“胜者通吃”原则。

ART:自适应协振理论竞争型该网络由比较层、识别层、识别阈值和重置模块构成。
比较层负责接收输入样本并将其传递给识别层神经元。识别层每个神经元对应一个模式类神经元数目可在训练过程中动态增长以增加新的模式类。

ART比较好的缓解了竞争型学习中“可塑性-稳定性窘境”可塑性是指神经网络要有学习新知识的能力而稳定性是指神经网络在学习新知识时要保持对旧知识的记忆。这就使得ART网络有一个很重要的优点可进行增量学习或在线学习。

SOM网络

SOM:自组织映射一种竞争学习型的无监督神经网络它能将高维输入数据映射到低维空间同时保持输入数据在高维空间的拓扑结构即将高维空间中相似的样本点映射到网络输出层中的临近神经元。

SOM的训练过程很简单:在接收到一个训练样本后,每个输出层神经元会计算该样本与自身携带的权向量之间的距离,距离最近的神经元成为竞争获胜者,称为最佳匹配单元(best matching unit).然后,最佳匹配单元及其邻近神经元的权向量将被调整,以使得这些权向量与当前输入样本的距离缩小.这个过程不断迭代,直至收敛.
在这里插入图片描述

级联相关网络

一般的神经网络模型通常假定网络结构是事先固定的,训练的目的是利用训练样本来确定合适的连接权、阈值等参数.与此不同,结构自适应网络则将网络结构也当作学习的目标之一,并希望能在训练过程中找到最符合数据特点的网络结构.级联相关(Cascade-Correlation)网络[Fahlman and Lebiere, 1990]是结构自适应网络的重要代表.
在这里插入图片描述
与一般的前馈神经网络相比,级联相关网络无需设置网络层数、隐层神经元数目且训练速度较快,但其在数据较小时易陷入过拟合.

Elman网络

与前馈神经网络不同“递归神经网络”(recurrent neural networks)允许网络中出现环形结构,从而可让一些神经元的输出反馈回来作为输入信号.这样的结构与信息反馈过程,使得网络在t时刻的输出状态不仅与t时刻的输入有关,还与t―1时刻的网络状态有关,从而能处理与时间有关的动态变化.
在这里插入图片描述