人工智能入门基础概念—教你正确打开人工智能世界的大门

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

一、机器学习

1.1机器学习概述

机器学习简介
机器学习通俗地讲就是让机器拥有学习的能力从而改善系统自身的性能。
这里的“学习”指的是从数据中学习从数据中产生模型的算法即学习算法。有了学习算法只要把经验数据提供给它它就能够基于这些数据产生模型在面对新的情况时模型能够提供相应的判断进行预测。
机器学习实质上是基于数据集的它通过对数据集进行研究找出数据集中数据之间的联系和数据的真实含义。
机器学习的发展
机器学习的应用前景
1.数据分析与挖掘
数据挖掘是“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的过程”

数据分析则通常被定义为“指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析以求最大化地开发数据资料的功能发挥数据的作用是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程”。

2.模式识别
模式识别研究主要集中在两个方面一是研究生物体（包括人是如何感知对象的属于认识科学的范畴；二是在给定的任务下如何用计算机实现模式识别的理论和方法这些是机器学习的长项。

模式识别的应用领域广泛包括计算机视觉、医学图像分析、光学文字识别、自然语言处理、语音识别、手写识别、生物特征识别、文件分类、搜索引擎等而这些领域也正是机器学习大展身手的舞台因此模式识别与机器学习的关系越来越密切。

3.更广阔的领域
研究和应用机器学习的最终目标是全面模仿人类大脑创造出拥有人类智慧的机器大脑。

1.2机器学习的分类

监督学习
监督学习是指利用一组已知类别的样本调整分类器的参数使其达到所要求性能的过程也称为监督训练或有教师学习。
1.监督学习概述
监督学习表示机器学习的数据是带标记的这些标记可以包括数据类别、数据属性及特征点位置等。

具体实现过程是通过大量带有标记的数据来训练机器机器将预测结果与期望结果进行比对；之后根据比对结果来修改模型中的参数再一次输出预测结果；再将预测结果与期望结果进行比对重复多次直至收敛最终生成具有一定鲁棒性的模型来达到智能决策的能
力。

常见的监督学习有分类（Classification和回归（Regression分类是将一些实例数据分到合适的类别中其预测结果是离散的；回归是将数据归到一条“线”上即为离散数据生产拟合曲线因此其预测结果是连续的。

2.监督学习的应用
判断邮件是否为垃圾邮件
无监督学习
根据类别未知（没有被标记的训练样本解决模式识别中的各种问题称为无监督学习。
1.无监督学习概述
无监督学习的训练样本的标记信息是未知的目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律。
无监督学习表示机器从无标记的数据中探索并推断出潜在的联系。

常见的无监督学习有聚类（Clustering和降维（Dimensionality Reduction两种。在聚类工作中由于事先不知道数据类别因此只能通过分析数据样本在特征空间中的分布如基于密度或基于统计学概率模型从而将不同数据分开把相似数据聚为一类。降维是将数据的维度降低由于数据本身具有庞大的数量和各种属性特征若对全部数据信息进行分析则会增加数据训练的负担和存储空间。因此可以通过主成分分析等其他方法考虑主要因素舍弃次要因素从而平衡数据分析的准确度与数据分析的效率。在实际应用中可以通过一系列的转换将数据的维度降低。
2.无监督学习的应用
数据挖掘用于在大量无标签数据中寻找信息。

3.监督学习与无监督学习的区别
（1监督学习是一种目的明确的训练方式；而无监督学习是没有明确目的的训练方式。
（2监督学习需要给数据打标签；而无监督学习不需要给数据打标签。
（3监督学习由于目的明确因此可以衡量效果；而无监督学习几乎无法衡量效果如
何。
半监督学习
机器学习的核心是从数据中学习从数据出发得到未知规律利用规律对未来样本进行预测和分析。

监督学习需要大量已标记类别的训练样本来保证其良好的性能；无监督学习不使用先验信息利用无标签样本的特征分布规律使得相似样本聚到一起但模型准确性难以保证。
获取大量无标记样本相当容易而获取大量有标记样本则困难得多且人工标注需要耗费大量的人力和物力。如果只使用少量的有标记样本进行训练往往导致学习的泛化性能低下且浪费大量的无标记样本数据资源。

因此使用少量标记样本作为指导利用大量无标记样本改善学习性能的半监督学习成为研究的热点。

半监督学习包括半监督聚类、半监督分类、半监督降维和半监督回归 4 种学习场景。
常见的半监督分类代表算法包括生成式方法、半监督支持向量机（Semi-supervised Support Vector MachinesS3VMs、基于图的半监督图方法和基于分歧的半监督方法共 4 种算法。
常见的假设模型有混合高斯模型、混合专家模型、朴素贝叶斯模型采用极大似然方法作为参数估计的优化目标选择最大期望（Expectation-MaximizationEM算法进行参数的优化求解。

常见的 S3VMs 方法有直推式支持向量机（Transductive Support Vector MachineTSVM、拉普拉斯支持向量机（Laplacian Support Vector MachineLaplacian SVM、均值标签半监督支持向量机（Mean Semi-supervised Support Vector MachineMeanS3VM、安全半监督支持向量机（Safe Semi-supervised SVMS4VM、基于代价敏感的半监督支持向量机（Cost-sensitive Semi-supervised SVMCS4VM。
基于图的半监督方法是利用有标签和无标签样本之间的联系得到图结构利用图结构进行标签传播。典型的基于图的半监督方法有标签传播算法、最小割算法以及流形正则化算法。
迁移学习
迁移学习是运用已存有的知识对不同但相关领域的问题进行求解的一种新的机器学习方法。按照迁移学习方法采用的技术划分可以把迁移学习方法分为 3 类基于特征选择的迁移学习、基于特征映射的迁移学习和基于权重的迁移学习。

根据源领域和目标领域中是否有标签样本可将迁移学习方法划分为 3 类目标领域中有少量标注样本的归纳迁移学习（Inductive Transfer Learning、只有源领域中有标签样本的直推式迁移学习（Transductive Transfer Learning、源领域和目标领域都没有标签样本的无监督迁移学习。
根据源领域中是否有标签样本把归纳迁移学习方法分为 2 类多任务迁移学习和自学习
强化学习
强化学习（Reinforcement LearningRL又称再励学习、评价学习或增强学习是机器学习的范式和方法论之一用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

强化学习主要包括智能体、环境状态、奖励和动作 4 个元素以及一个状态。

强化学习是带有激励机制的即如果机器行动正确则施予一定的“正激励”；如果机器行动错误则会给出一定的惩罚也可称为“负激励”。在这种情况下机器将会考虑在一个环境中如何行动才能达到激励的最大化具有一定的动态规划思想。

强化学习的应用
机械狗
AlphaGo Zer

1.3 机器学习常用算法

回归算法
回归算法是一种应用极为广泛的数量分析方法。该算法用于分析事物之间的统计关系侧重考察变量之间的数量变化规律并通过回归方程的形式描述和反映这种关系以帮助人们准确把握变量受其他一个或多个变量影响的程度进而为预测提供科学依据。
回归算法的分类
线性回归（Linear Regression
逻辑回归（Logistic Regression
多项式回归（Polynomial Regression
逐步回归（Step-wise Regression
岭回归（Ridge Regression
套索回归（Lasso Regression
弹性回归（Elastic Net Regression
聚类算法
聚类就是将相似的事物聚集在一起将不相似的事物划分到不同类别的过程是数据挖掘中一种重要的方法。聚类算法的目标是将数据集合分成若干簇使得同一簇内的数据点相似度尽可能大而不同簇间的数据点相似度尽可能小。聚类能在未知模式识别问题中从一堆没有标签的数据中找到其中的关联关系。
1.聚类算法概述
聚类技术是一种无监督学习是研究样本或指标分类问题的一种统计分析方法。聚类与分类的区别是其要划分的类是未知的。常用的聚类分析方法有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法和聚类预报法等。
聚类分析注意点
（1可伸缩性
（2处理不同类型属性的能力
（3发现任意形状的聚类
（4输入参数的选择
（5处理“噪声”数据的能力
（6对于输入记录的顺序不敏感
（7高维度
（8基于约束的聚类
（9可解释性和可用性
2.聚类算法的分类
（1基于划分的聚类算法
K-Means 算法
K-Medoids 算法
CLARANS 算法
（2基于层次的聚类算法
BIRCH 算法
CURE 算法
Chameleon 算法
（3基于密度的聚类算法
DBSCAN 算法
OPTICS 算法
DENCLUE 算法
（4基于网格的聚类算法
STING 算法
CLIQUE 算法
Wave-Cluster 算法
（5基于模型的聚类算法
统计的方法
神经网络的方法
（6传递闭包法、布尔矩阵法、直接聚类法、相关性分析聚类法
降维算法
1.降维算法概述
降维就是一种针对高维度特征进行的数据预处理方法是应用非常广泛的数据预处理方法。
降维算法指对高维度的数据保留下最重要的一些特征去除噪声和不重要的特征从而实现提升数据处理速度的目的。在实际的生产和应用中在一定的信息损失范围内降维可以节省大量的时间和成本。
机器学习领域中所谓的降维就是指采用某种映射方法将原高维空间中的数据点映射到低维度的空间中。
2.降维算法的分类
主成分分析（Principal Component AnalysisPCA法
试图在保证数据信息丢失最少的原则下对多个变量进行最佳综合简化即对高维变量空间进行降维处理。
因子分析（Factor AnalysisFA法
因子分析法是从假设出发。
因子分析法有几个主要目的一是进行结构的探索在变量之间存在高度相关性的时候希望用较少的因子来概括其信息；二是把原始变量转换为因子得分后使用因子得分进行其他分析从而简化数据如聚类分析、回归分析等；三是通过每个因子得分计算出综合得分对分析对象进行综合评价。
3.降维算法的应用场景
降维算法通常应用于数据压缩与数据可视化中
决策树算法
贝叶斯算法
贝叶斯算法是对部分未知的状态进行主观概率估计并使用贝叶斯公式对发生概率进行修正最后利用期望值和修正概率做出最优决策。
支持向量机算法
支持向量机算法是一种支持线性分类和非线性分类的二元分类算法。经过演进其现在也支持多元分类被广泛地应用在回归以及分类当中。
支持向量机算法在垃圾邮件处理、图像特征提取及分类、空气质量预测等多个领域都有应用已成为机器学习领域中不可缺少的一部分。
关联规则算法
关联规则算法常用来描述数据之间的相关关系关联规则模式属于描述型模式。
遗传算法
遗传算法是一种启发式的寻优算法该算法是以进化论为基础发展出来的。它是通过观察和模拟自然生命的迭代进化建立起一个计算机模型通过搜索寻优得到最优结果的算法。

1.4机器学习小结

（1机器学习通俗地讲就是让机器来实现学习的过程让机器拥有学习的能力从而改善自身的性能。
（2监督学习表示机器学习的数据是带标记的这些标记包括数据类别、数据属性及特征点位置等。
（3无监督学习的训练样本的标记信息是未知的目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律。
（4半监督学习突破了传统方法只考虑一种样本类型的局限性综合利用了有标签与无标签样
本是在监督学习和无监督学习的基础上进行的研究。
（5迁移学习是运用已存有的知识对不同但相关领域的问题进行求解的一种新的机器学习方法。迁移学习放宽了传统机器学习中的两个基本假设目的是迁移已有的知识来解决目标领域中仅有少量（甚至没有有标签样本数据的学习问题。
（6强化学习又称为再励学习、评价学习是一种重要的机器学习方法在智能控制机器人及分析预测等领域有许多应用。强化学习主要包含智能体、环境状态、奖励和动作 4 个元素。
（7回归算法是一种应用极为广泛的数量分析方法该算法用于分析事物之间的统计关系侧重考察变量之间的数量变化规律并通过回归方程的形式描述和反映这种关系以帮助人们准确把握变量受其他一个或多个变量影响的程度进而为预测提供科学依据。
（8聚类就是将相似的事物聚集在一起将不相似的事物划分到不同类别的过程。
（9降维算法可将数据的维度降低它通过主成分分析等其他方法考虑主要因素舍弃次要因素从而平衡数据分析准确度与数据分析效率。
（10决策树通过把实例从根节点排列到某个叶子节点来分类实例叶子节点即为实例所属的分类。
（11贝叶斯算法是一种使用先验概率进行处理的算法其最后的预测结果就是具有最大概率的那个类。
（12支持向量机算法是一种支持线性分类和非线性分类的二元分类算法也支持多元分类。
（13关联规则算法常用来描述数据之间的相关关系关联规则模式属于描述型模式。
（14遗传算法是一种启发式的寻优算法该算法是以达尔文进化论为基础发展出来的。它是通
过观察和模拟自然生命的迭代进化建立起一个计算机模型通过搜索寻优得到最优结果的算
法。

二、深度学习

2.1神经网络

神经网络简介
神经网络（Neural NetworkNN亦称为人工神经网络（Artificial Neural NetworkANN是由大量神经元（Neurons广泛互连而成的网络是对人脑的抽象、简化和模拟应用了一些人脑的基本特性。

神经网络与人脑的相似之处可概括为两方面一是通过学习过程利用神经网络从外部环境中获取知识二是内部神经元用来存储获取的知识信息。
神经网络的信息处理是由神经元之间的相互作用实现的知识与信息的存储主要表现为网络元件互相连接的分布式物理联系。
人工神经网络具有很强的自学习能力它可以不依赖于“专家”的头脑自动从已有的实验数据中总结规律。
人工神经网络擅长处理复杂的多维的非线性问题不仅可以解决定性问题还可以解决定量问题同时具有大规模并行处理和分布信息存储能力具有良好的自适应性、自组织性、容错性和可靠性。
神经网络的结构
神经网络会将多个单一神经元连接在一起将一个神经元的输出作为下一个神经元的输入
神经网络的结构大致可以分为以下 5 类
（1前馈式网络该网络结构是分层排列的每一层的神经元输出只与下一层的神经元连接。
（2输出反馈的前馈式网络该网络结构与前馈式网络的不同之处在于其中存在着一个从输出层到输入层的反馈回路。
（3前馈式内层互连网络在该网络结构中同一层的神经元之间相互关联它们有相互制约的关系。但从层与层之间的关系来看它仍然是前馈式的网络结构许多自组织神经网络大多具有这种结构。
（4反馈型全互连网络在该网络结构中每个神经元的输出都和其他神经元相连从而形成了动态的反馈关系该网络结构具有关于能量函数的自寻优能力。
（5反馈型局部互连网络在该网络结构中每个神经元只和其周围若干层的神经元发生互连关系形成局部反馈从整体上看是一种网状结构。
神经网络的学习
神经网络的学习也称为训练指的是通过神经网络所在环境的刺激作用调整神经网络的自由参数使神经网络以一种新的方式对外部环境做出反应的一个过程。
神经网络最大的特点是能够从环境中学习以及在学习中提高自身性能。经过反复学习神经网络对其环境会越来越了解。
激活函数
激活函数（Activation Functions对于人工神经网络模型以及卷积神经网络模型学习理解非常复杂和非线性的函数来说具有十分重要的作用。
损失函数
损失函数是模型对数据拟合程度的反映拟合得越差损失函数的值就越大。与此同时当损失函数比较大时其对应的梯度也会随之增大这样就可以加快变量的更新速度。

2.2 感知机

感知机简介
感知机被称为深度学习领域最为基础的模型。虽然感知机是最为基础的模型但是它在深度学习的领域中有着举足轻重的地位它是神经网络和支持向量机学习的基础。感知机学习的目标就是求得一个能够将训练数据集中正、负实例完全分开的分类超平面为了找到分类超平面即确定感知机模型中的参数 w 和 b需要定义一个基于误分类的损失函数并通过将损失函数最小化来求解 w 和 b。
多层感知机
多层感知机（MLP也叫作前馈神经网络是深度学习中最基本的网络结构。

2.3 卷积神经网络

卷积神经网络简介
卷积神经网络（Convolutional Neural NetworkCNN顾名思义指在神经网络的基础上加入了卷积运算通过卷积核局部感知图像信息提取其特征多层卷积之后能够提取出图像的深层抽象特征凭借这些特征来达到更准确的分类或预测的目标。卷积神经网络与一些传统的
机器学习方法相比能够更加真实地体现数据内在的相关特征因此目前卷积神经网络是图像、行为识别等领域的研究热点。
卷积神经网络的结构

卷积神经网络是多层感知机的变体根据生物视觉神经系统中神经元的局部响应特性设计采用局部连接和权值共享的方式降低模型的复杂度极大地减少了训练参数提高了训练速度也在一定程度上提高了模型的泛化能力。
常用的卷积神经网络
1.AlexNet
2.VGG
3.GoogLeNet
4.ResNet

2.4 循环神经网络

循环神经网络简介
循环神经网络（Recurrent Neural NetworkRNN是深度学习领域中一类特殊的内部存在自连接的神经网络可以学习复杂的矢量到矢量的映射。
循环神经网络是一种以序列（Sequence数据为输入在序列的演进方向进行递归（Recursion且所有节点（循环单元按链式连接形成闭合回路的递归神经网络（Recursive Neural Network)。
循环神经网络是为了刻画一个序列当前的输出与之前信息的关系。从网络结构上看循环神经网络会记忆之前的信息并利用之前的信息影响后面节点的输出。
循环神经网络的隐藏层之间的节点是有连接的隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。对于每一个时刻的输入循环神经网络会结合当前模型的状态给出一个输出其可以看作同一神经网络被无限复制的结果。
闭合回路连接是循环神经网络的核心部分。循环神经网络对于序列中每个元素都执行相同的任务输出依赖于之前的计算（即循环神经网络具有记忆功能记忆可以捕获迄今为止已经计算过的信息。循环神经网络在语音识别、语言建模、自然语言处理（Natural Language ProcessingNLP等领域有着重要的应用。
循环神经网络的结构
常用的循环神经网络
1.长短期记忆网络（Long Short-Term MemoryLSTM
2.门控循环单元神经网络（Gated Recurrent UnitGRU

2.5 生成对抗网络

生成对抗网络简介
生成对抗网络（Generative Adversarial NetworksGAN的基本思想是学习训练样本的概率分布。
生成对抗网络独特的对抗性思想使得它在众多生成网络模型中脱颖而出被广泛应用于计算机视觉、机器学习和语音处理等领域。
GAN 过程描述
GAN 让两个网络（生成网络 G 和判别网络 D相互竞争G 不断捕捉训练集中真实样本 xreal 的概率分布并通过加入随机噪声将其转变成赝品 xfake。D 观察真实样本 xreal和赝品 xfake判断这个 xfake 到底是不是 xreal。整个对抗过程是先让 D 观察（机器学习一些真实样本 xreal当 D 对 xreal 有了一定的认知之后G 尝试用 xfake 来欺骗D让 D 相信 xfake 是 xreal。有时候 G 能够成功骗过 D但是随着 D 对 xreal 了解的加深（即学习的样本数据越来越多G 发现越来越难以欺骗 D因此 G 在不断提升自己仿制赝品 xfake 的能力。如此往复多次不仅 D 能精通 xreal 的鉴别G 对 xreal的伪造技术也会大为提升。这便是 GAN 的生成对抗过程。
GAN 优点的简单总结
（1能学习真实样本的分布探索样本的真实结构。
（2具有更强大的预测能力。
（3样本的脆弱性在很多机器学习模型中普遍存在而 GAN 对生成样本的鲁棒性强。
（4通过 GAN 生成以假乱真的样本缓解了小样本机器学习的困难。
（5为指导人工智能系统完成复杂任务提供了一种全新的思路。
（6与强化学习相比对抗式学习更接近人类的学习机理。
（7GAN 与传统神经网络的一个重要区别是传统神经网络需要人工精心设计和建构一个损失函数而 GAN 可以学习损失函数。
（8GAN 解决了先验概率难以确定的难题。
生成对抗网络的结构

1.生成网络
生成网络本质上是一个可微分函数生成网络接收随机变量 z 的输入经生成器 G 生成假样本 G(z)。
生成网络理论上可以逐渐学习任何概率分布经训练后的生成网络可以生成逼真图像但又不会和真实图像完全一样即生成网络实际上是学习了训练数据的一个近似分布这在数据增强应用方面尤为重要。
2.判别网络
在 GAN 中判别网络的主要目的是判断输入是否为真实样本并提供反馈以指导生成网络训练。
判别网络和生成网络组成零和博弈的两个玩家为取得游戏的胜利判别网络和生成网络通过训练不断提高自己的判别能力和生成能力游戏最终会达到一个纳什均衡状态。
常用的生成对抗网络
1.条件生成对抗网络
条件生成对抗网络（Conditional GANCGAN在原始 GAN 的基础上增加了约束条件控制了 GAN 过于自由的问题使网络朝着既定的方向生成样本。
2.深度卷积生成对抗网络
深度卷积生成对抗网络（Deep Convolutional GANDCGAN的提出对 GAN 的发展有着极大的推动作用它将 CNN 和 GAN 结合起来使得生成的图片质量和多样性得到了保证。
3.循环一致性生成对抗网络
循环一致性生成对抗网络（Cycle-consistent Generative Adversarial NetworksCycleGANCycleGAN 可以让两个域的图像互相转换且不需要成对的图像作为训练数据

2.6 深度学习的应用

深度学习技术目前在人工智能领域占有绝对的统治地位因为相比于传统的机器学习算法而言深度学习在某些领域展现出了最接近人类所期望的智能效果同时在悄悄地走进人们的生活如刷脸支付、语音识别、智能翻译、自动驾驶、棋类人机大战等。

AlphaGo Zero
自动驾驶

2.7 深度学习小结

（1神经网络亦称为人工神经网络是由大量神经元广泛互连而成的网络是对人脑的抽象、简化和模拟神经网络应用了一些人脑的基本特性。
（2感知机被认为是具有实用价值的重要分类算法之一。
（3卷积神经网络在神经网络的基础上加入了卷积运算通过卷积核局部感知图像信息提取其特征多层卷积之后能够提取出图像的深层抽象特征凭借这些特征来达到更准确的分类或预测的目标。
（4循环神经网络是一种以序列数据为输入在序列的演进方向进行递归且所有节点（循环单元按链式连接形成闭合回路的递归神经网络。
（5生成对抗网络的网络结构由生成网络和判别网络共同构成。生成网络和判别网络可以看作博弈中的两个玩家在模型训练的过程中生成网络和判别网络会各自更新自身的参数以使损失最小通过不断迭代优化最终达到纳什均衡状态。

三、计算机视觉

3.1 计算机视觉概述

计算机视觉简介
计算机视觉（Computer VisionCV是机器认知世界的基础最终的目的是使得计算机能够像人类一样“看懂世界”。
计算机视觉是从图像或视频中提出符号或数值信息分析计算该信息以进行目标的识别、检测和跟踪等。更形象地说计算机视觉就是让计算机像人类一样能看到并理解图像。计算机视觉是一门涉及图像处理、图像分析、模式识别和人工智能等多种技术的新兴交叉学科具有快速、实时、经济、一致、客观、无损等特点。
1.计算机视觉的概念
计算机视觉技术的基本原理是利用图像传感器获得目标对象的图像信号并传输给专用的图像处理系统将像素分布、颜色、亮度等图像信息转换成数字信号并对这些信号进行多种运算与处理提取出目标的特征信息进行分析和理解最终实现对目标的识别、检测和控制等。
2.计算机视觉的特点
首先计算机视觉是一个全新的应用方向而非像预测分析那样只是对原有解决方案的一种改进。
其次计算机视觉能够以无障碍的方式改善人类的感知能力。
最后计算机视觉能够以远超其他人工智能工具的速度收集训练数据。
计算机视觉研究的意义
在采集图像、分析图像、处理图像的过程中计算机视觉的灵敏度、精确度、快速性都是人类视觉所无法比拟的它克服了人类视觉的局限性。
计算机视觉的应用及面临的挑战
1.智慧医疗领域的应用
2.公共安全领域的应用
3.无人机与自动驾驶领域的应用
4.工业领域的应用
5.其他领域的应用
计算机视觉面临的挑战
（1有标注的图像和视频数据较少机器在模拟人类智能进行认知或感知的过程中需要大量有标注的图像或视频数据指导机器学习其中的一般模式。当前海量的图像视频数据主要依赖人工标注不仅费时费力还没有统一的标准可用的有标注的数据有限导致机器的学习能力受限。
（2计算机视觉技术的精度有待提高如在物体检测任务中当前最高的检测正确率为66%只能在对正确率要求不是很高的场景下应用。
（3计算机视觉技术的处理速度有待提高图像和视频信息需要借助高维度的数据进行表示这是让机器看懂图像或视频的基础对机器的计算能力和算法的效率要求很高。

3.2 图像分类

图像分类简介
图像分类是根据不同类别的目标在图像信息中所反映的不同特征将它们区分开来的图像处理方法。它利用计算机对图像进行定量分析把图像或其中的每个像素或区域划分为若干个类别中的某一种以代替人的视觉判断。
图像分类的任务就是输入一张图像正确输出该图像所属的类别。
图像分类就是寻找一个函数关系这个函数关系能够将这些像素的数值映射为一个具体的类
别（类别可以用某个数值表示。
图像分类的核心任务是分析一张输入的图像并得到一个给图像分类的标签标签来自预定义的可能类别集。
图像分类算法
1.传统图像分类算法
完整建立图像识别模型一般包括底层特征提取、特征编码、空间约束、分类器分类等几个阶段。
2.基于深度学习的图像分类算法
基于深度学习的图像分类算法的原理是输入一个元素为像素值的数组并给它分配一个分类标签。

输入是包含 N 张图像的集合每张图像的标签是 K 种分类标签中的一种。这个集合称为训练集。
学习即让分类器使用训练集来学习每个类的特征也叫作训练分类器。
评价即让分类器来预测它未曾见过的图像的分类标签对分类器预测的标签和图像真正的分类标签进行对比并以此来评价分类器的质量。分类器预测的分类标签和图像真正的分类标签一致的情况越多分类器的质量越好。
常用的 3 类深度学习模型
（1VGG 模型
（2GoogLeNet 模型
（3残差网络模型

3.3 目标检测

目标检测简介
目标检测需要定位出图像目标的位置和相应的类别。由于各类物体有不同的外观、形状、姿态加上成像时光照、遮挡等因素的干扰目标检测一直是计算机视觉领域最具有挑战性的问题。
目标检测的任务是在图像中找出所有感兴趣的目标（物体并确定它们的位置和大小是计算机视觉领域的核心问题之一。
图像分类任务关心整体给出的是整张图像的内容描述；而目标检测关注特定的物体目标要求同时获得该目标的类别信息和位置信息。相比于图像分类目标检测给出的是对图像前景和背景的理解算法需要从背景中分离出感兴趣的目标并确定这一目标的描述（类别和位置。
目标检测需要解决目标可能出现在图像的任何位置、目标有不同的大小以及目标可能有不同的形状这 3 个核心问题。
目标检测框架模型
深度学习是具有更多隐藏层数的神经网络它可以学习到机器学习等算法不能学习到的更加深层次的数据特征能够更加抽象并且准确地表达数据。因此基于深度学习的各类算法被广泛地应用于目标检测中。
1.R-CNN
R-CNN 采用的是选择性搜索（Selective Search算法使用聚类的方法对图像进行分组
得到多个候选框的层次组。
2.SPP-NET
SPP-NET 是在 R-CNN 的基础上提出的由于 R-CNN 只能接收固定大小的输入图像
若对图像进行裁剪以符合要求则会导致图像信息不完整；若对原始图像进行比例缩放
则会导致图像发生形变。
3.Fast R-CNN
4.Faster R-CNN
5.Mask R-CNN
6.YOLO
7.YOLO v2
8.SSD
等等不一一列举。

3.4 图像分割

图像分割简介
图像分割是图像分析的第一步是计算机视觉的基础是图像理解的重要组成部分也是图像处理中最困难的问题之一。
图像分割指利用图像的灰度、颜色、纹理、形状等特征把图像分成若干个互不重叠的区域并使这些特征在同一区域内呈现相似性在不同的区域之间存在明显的差异性。此后可以将分割的图像中具有独特性质的区域提取出来用于不同的研究。简单地说图像分割就是在一幅图像中把目标从背景中分离出来。对于灰度图像来说区域内部的像素一般具有灰度相似性而在区域的边界上一般具有灰度不连续性。
图像分割算法
1.基于阈值的图像分割算法
这种算法具有易于操作、功能稳定、计算简单高效等优点。其基本原理是根据图像的整体或部分信息选择阈值依据灰度级别划分图像。
2.基于边缘检测的图像分割算法
这种算法的基本原理是通过检测边界来把图像分割成不同的部分。在一张图像中不同区域的边缘通常是灰度值剧烈变化的地方这种算法就是根据灰度突变来进行图像分割的。
其按照执行顺序的差异可分为两种即串行边缘分割法和并行边缘分割法。其重点是如何权衡检测时的抗噪性能和精度。若提高检测精度则噪声引起的伪边缘会导致过分割；然而若提高抗噪性能则会使得轮廓处的结果精度不高。
3.基于区域的图像分割算法
这种算法的基本原理是连通含有相似特点的像素点最终组合成分割结果。其主要利用图像局部空间信息能够很好地避免其他算法图像分割空间小的缺陷。
4.基于神经网络的图像分割算法
这种算法的基本原理是以样本图像数据来训练多层感知机得到决策函数进而用获得的决策函数对图像像素进行分类得到分割的结果。

3.5 计算机视觉小结

（1计算机视觉是从图像或视频中提出符号或数值信息分析计算该信息以进行目标的识别、检测和跟踪等。
（2图像分类是根据不同类别的目标在图像信息中所反映的不同特征将它们区分开来的图像处理方法。
（3目标检测的任务是在图像中找出所有感兴趣的目标（物体并确定它们的位置和大小。
（4图像分割是利用图像的灰度、颜色、纹理、形状等特征把图像分成若干个互不重叠的区域并使这些特征在同一区域内呈现相似性在不同的区域之间存在明显的差异性。

四、自然语言处理

4.1 自然语言处理简介

自然语言处理的定义
语言是人类智慧的结晶自然语言处理是指利用计算机对自然语言的形、音、义等信息进行
处理它是计算机科学领域和人工智能领域的一个重要的研究方向。
自然语言处理（Natural Language ProcessingNLP
自然语言是指人们日常使用的语言它是随着人类社会不断发展演变而来的是人类沟通、交流的重要工具也是人类区别于其他动物的根本标志没有语言人类的思维无从谈起。
自然语言处理是指利用计算机对自然语言的形、音、义等信息进行处理即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。它是计算机科学领域和人工智能领域的一个重要的研究方向研究用计算机来处理、理解以及运用人类语言可以实现
人与计算机的有效交流。
自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。
自然语言处理的研究方向
（1文字识别
文字识别借助计算机系统自动识别印刷体或者手写体文字将其转换为可供计算机处理的电子文本。对于普通的文字识别系统主要研究字符的图像识别；而对于高性能的文字识别系统往往需要同时研究语言理解技术。
（2语音识别
语音识别又称自动语音识别目标是将人类语音中的词汇内容转换为计算机可读的输入。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。
（3机器翻译
（4自动文摘
（5句法分析
（6文本分类
（7信息检索
（8信息获取
（9信息过滤
（10自然语言生成
（11中文自动分词
（12语音合成
（13问答系统
自然语言处理的一般工作原理
计算机处理自然语言的整个过程一般可以概括为 4 部分语料预处理、特征工程、模型训练
和指标评价。
1.语料预处理
（1语料清洗即保留有用的数据删除噪声数据常见的清洗方式有人工去重、对齐、删除、标注等。
（2分词即将文本分成词语如通过基于规则的、基于统计的分词方法进行分词。
（3词性标注即给词语标上词类标签如名词、动词、形容词等。常用的词性标注方法有基于规则的、基于统计的算法如最大熵词性标注、HMM 词性标注等。
（4去停用词即去掉对文本特征没有任何贡献作用的字词如标点符号、语气词、助词等。
2.特征工程
3.模型训练
4.指标评价

4.2 自然语言处理的组成

1.自然语言理解
2.自然语言生成

4.3 自然语言理解

自然语言理解的层次
从微观上讲自然语言理解是指从自然语言到机器内部的映射；
从宏观上看自然语言是指机器能够执行人类所期望的某些语言功能。
自然语言理解中至少有 3 个主要问题
第一计算机需要具备大程序量的人类知识语言动作描述的是复杂世界中的关系这些关系的知识必须是理解系统的一部分；
第二语言是基于模式的音素构成单词单词组成短语和句子音素、单词和句子的顺序不是随机的没有对这些元素的规范使用就不可能达成交流；
第三语言动作是主体的产物主体或者是人或者是计算机主体处在个体层面和社会层面的复杂环境中语言动作都是有其目的的。
自然语言的理解和分析是一个层次化的过程
1.语音分析
2.词法分析
3.句法分析
4.语义分析
5.语用分析
词法分析
词法分析是理解单词的基础其主要目的是从句子中切分出单词找出词汇的各个词素从中获得单词的语言学信息并确定单词的词义.
句法分析
句法是语言在长期发展过程中形成的、全体成员必须共同遵守的规则。
句法分析也称语法解析是对句子和短语的结构进行分析找出词、短语等的相互关系及各自在句子中的作用等并以一种层次结构加以表达。层次结构可以反映从属关系、直接成分关系也可以反映语法功能关系。
语义分析
句法分析完成后不等于计算机已经理解了该语句还需要对语义进行解释。语义分析的任务是把分析得到的句法成分与应用领域中的目标表示相关联从而确定语言所表达的真正含义或概念。

4.4 自然语言处理面临的问题和展望

自然语言处理面临的问题
1.缺乏有效的知识表示和利用手段
2.缺乏未知语言现象的处理能力
3.模型缺乏解释性和举一反三的能力
4.缺乏交互学习和自主进化的能力
5.单一模态信息处理的局限性
自然语言处理的展望
（1与神经科学密切结合探索人脑理解语言的神经基础构建更加精准、可解释、可计算的语义表征和计算方法。
（2构建高质量的基础资源和技术平台。
（3打通不同模态信息处理的壁垒构建多模态信息融合的处理方法和模型。

4.5 自然语言处理小结

（1自然语言处理是指利用计算机对自然语言的形、音、义等信息进行处理即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。
（2计算机处理自然语言的整个过程一般可以概括为语料预处理、特征工程、模型训练和指标评价 4 部分。
（3自然语言理解是指让计算机能够理解自然语言文本的意义它可以分为语音分析、词法分析、句法分析、语义分析和语用分析 5 个层次。
（4自然语言生成是指让计算机按照一定的语法和语义规则生成自然语言文本通俗来讲它指对语义信息以人类可读的自然语言形式进行表达。
（5词法分析的主要目的是从句子中切分出单词找出词汇的各个词素从中获得单词的语言学信息并确定单词的词义。
（6句法分析的作用是确定构成句子的各个词、短语之间的关系以及各自在句子中的作用等并将这些关系用层次结构加以表达并规范句法结构。
（7语义分析的任务是把分析得到的句法成分与应用领域中的目标表示相关联从而确定语言所表达的真正含义或概念。语义分析的方法主要有语义文法和格文法。
（8信息检索是信息按一定的方式进行加工、整理、组织并存储起来并根据用户特定的需要将相关信息准确地查找出来的过程。
（9机器翻译是让计算机自动将源语言表示的语句转换为目标语言表示语句的过程它有直译式翻译、中间语言式翻译和转换式翻译 3 种基本模式。统计机器翻译是目前主流的机器翻译方法分为基于词的统计机器翻译和基于短语的统计机器翻译两种。
（10情感分析是从评论的文本中提取出评论的实体以及评论者对该实体所表达的情感倾向和观点。根据处理文本颗粒度的不同情感分析大致可以分为篇章级、句子级和属性级 3 个级别的任务。
（11语音识别是将人类语音中的词汇内容转换为计算机可读的输入一般为可以理解的文本内容或者字符序列。语音识别的基本原理如下先将经过预处理后的语音信号送入特征提取模块再利用声学模型和语言模型对语音信号进行特征识别最后输出识别结果。

五、知识图谱

5.1 知识图谱简介

知识图谱的定义
知识图谱（Knowledge Graph是一种揭示实体之间关系的语义网络。2012 年 5 月 17 日谷歌正式提出了知识图谱的概念其初衷是优化搜索引擎返回的结果增强用户搜索质量及体验。
知识图谱以结构化的形式描述客观世界中的概念、实体及其关系将互联网的信息表达成更接近人类认知世界的形式提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力同时在问答系统中显示出了强大作用已经成为互联网知识驱动的智能应用的基础设施。知识图谱与大数据和深度学习一起成为推动互联网和人工智能发展的核心驱动力之一。
知识图谱不是一种新的知识表示方法而是知识表示在工业界的大规模知识应用它对互联网中可以识别的客观对象进行关联以形成客观世界实体和实体关系的知识库其本质上是一种语义网络其中的节点代表实体或者概念边代表实体/概念之间的各种语义关系。知识图谱的架构包括知识图谱自身的逻辑结构以及构建知识图谱所采用的技术（体系架构。
. 知识图谱的类型
1.事实知识
在描述实体的特定属性或者关系
2.概念知识
概念知识分为两类一类是实体与概念之间的类属关系另一类是子概念与父概念之间的子类关系。一个概念可能有子概念也可能有父概念这使得全体概念构成层级体系。概念之间的层级关系是本体定义中最重要的部分是构建知识图谱的第一步模式设计的重要内容。
3.词汇知识
词汇知识主要包括实体与词汇之间的关系（实体的命名、称谓、英文名等以及词汇之间的关系（同义关系、反义关系、缩略词关系、上下位词关系等。
4.常识知识
常识是人类通过身体与世界交互而积累的经验与知识是人们在交流时无须言明就能理解的知识。
常识知识的获取是构建知识图谱时的一大难点。常识的表征与定义、常识的获取与理解等问题一直都是人工智能发展的瓶颈问题。
知识图谱的重要性
1.知识图谱是人工智能的重要基石
2.知识图谱推动智能应用
3.知识图谱是强人工智能发展的核心驱动力之一
尽管人工智能依靠机器学习和深度学习取得了快速进展但是由于严重依赖人类的监督以及大量的标注数据仍属于弱人工智能范畴离强人工智能具有较大差距。
强人工智能的实现需要机器掌握大量的常识性知识将信息中的知识或者数据加以关联同时以人类的思维模式和知识结构来进行语言理解、视觉场景解析和决策分析。
知识图谱技术是由弱人工智能发展到强人工智能的必要条件对于实现强人工智能有着重要的意义。

5.2 知识表示和知识建模

知识表示
知识表示学习主要是面向知识图谱中的实体和关系进行表示学习使用建模方法将实体和向量表示在低维稠密向量空间中并进行计算和推理。
知识表示方法主要分为基于符号的知识表示方法与基于表示学习的知识表示方法。
知识建模
目前知识建模的实际操作过程可分为手工建模方式和半自动建模方式。手工建模方式适用于容量小、质量要求高的知识图谱但是无法满足大规模的知识构建是一个耗时、昂贵、需要专业知识的任务；半自动建模方式将自然语言处理与手工方式结合适用于规模大且语义复杂的知识图谱。

5.3 知识抽取

1.概述
知识抽取指从不同来源、不同结构的数据中进行知识提取形成知识的过程。

为了提供令用户满意的知识服务知识图谱不仅要包含其涉及领域已知的知识还要能及时发现并添加新的知识。

知识的完整性及准确性决定了知识图谱所能提供的知识服务的广度、深度和精度。因此知识抽取在知识图谱的构建过程中显得尤为重要。

知识抽取往往采用一些自动化的抽取方法从结构化、半结构化和非结构化的信息源中提取出实体、关系、属性等信息形成三元组或多元组关系。知识抽取的关键技术包括实体抽取、关系抽取和属性抽取。
在这里插入图片描述
2. 实体抽取
实体抽取也被称为命名实体识别（Named Entity RecognitionNER指从原始数据中自动识别出命名实体。由于实体是知识图谱中最基础的知识要素关系和属性都与实体息息相关因此实体的抽取质量直接影响了图谱中知识的质量。

实体抽取的方法主要有基于规则与词典的方法、基于机器学习的方法以及面向开放域的方法。

基于规则与词典的方法主要利用用户手工制定的实体规则和词典通过匹配的方式在信息
源中标记出实体；
基于机器学习的方法主要利用统计机器学习的方式对原始数据进行训练利用训练完成的
模型进行实体的识别；
面向开放域的方法则主要对海量的 Web 数据中的实体进行分类与聚类。

关系抽取
关系抽取的目标是抽取语料中命名实体的语义关系。实体抽取技术会在原始的语料上标记一些命名实体。为了形成知识结构还需要从中抽取命名实体间的关联信息从而利用这些信息将离散的命名实体连接起来这就是关系抽取技术。
属性抽取
实体的属性可以使实体对象更加丰满。属性抽取的目的是从多种来源的数据中抽取目标实体的属性内容。实体的属性可以看作连接实体与属性值的关系因此在实际应用中一些学者将属性抽取问题转换为关系抽取问题。

5.4 知识存储

知识存储概述
知识存储是针对知识图谱的知识表示形式设计底层存储方式完成各类知识的存储以支持对大规模数据的有效管理和计算。

知识存储的对象包括基本属性知识、关联知识、事件知识、时序知识和资源类知识等。知识存储方式的质量直接影响了知识图谱中知识查询、知识计算及知识更新的效率。
知识存储方式
知识存储工具
1.关系数据库
2.图数据库

5.5 知识融合

知识融合概述
知识融合即合并两个知识图谱（本体基本的问题是研究将来自多个来源的关于同一个实体或概念的描述信息融合起来的方法。
知识融合过程

5.6 知识推理

知识图谱的表示
知识图谱中知识的结构化表示主要有符号表示和向量表示两类方法。早期常用一阶谓词逻辑（First Order Logic、语义网络（semantic network、描述逻辑（Description Logic和框架系统（Frame System等基于符号逻辑的知识表示方法。而当前主要使用基于图数据结构的三元组形式（头实体关系尾实体来符号化地表示知识。
并行知识推理
基于符号的知识图谱推理一般是应用推理规则到知识图谱上通过触发规则的前件来推导出新的实体关系这里的推理规则可能是知识表示语言所有的也可能是人工设定或者通过机器学习技术获取的。基于符号的推理虽然有能够提高推理效率的各种优化方法但是还是跟
不上数据增长的速度特别是在数据规模大到目前基于内存的服务器无法处理的情况下。为了应对这一挑战研究人员开始对描述逻辑和 RDFS 的推理进行并行推进以提升推理的效率和可扩展性并且取得了很多成果。
并行推理工作所借助的并行技术分为单机环境下的多核、多处理器技术（多线程、GPU 技术等和多机环境下基于网络通信的分布式技术（MapReduce 计算框架、Peer-To-Peer 网络框架等两大类技术。
实体关系知识推理
实体关系知识推理的目的是通过统计方法或者神经网络方法学习知识图谱中实体之间的关系。
基于表示学习的方法将知识图谱中的实体与关系统一映射至低维连续向量空间以此来刻画它们的潜在语义特征。通过比较、匹配实体与关系的分布式表示可以得到知识图谱中潜在成立的实体间的关系。此类方法灵活自由通常具有较高的计算效率但可解释性较差对
于困难的推理问题往往精度不足。
基于图特征的方法利用从知识图谱中观察到的图特征来预测一条可能存在的边代表性工作包括归纳逻辑程序设计、关联规则挖掘、路径排序算法等。此类方法在推理的同时能从知识图谱中自动挖掘推理规则具备明确的推理机理。然而图特征的提取效率较低对于超大规模的知识图谱更是如此。提高效率是基于图特征的方法亟待突破的壁垒。
模式归纳知识推理
模式归纳知识推理是从知识图谱中学习本体的模式层信息或丰富已有本体包括对概念层次、属性层次、不相交公理、属性的值域与定义域和属性或概念的约束等公理的学习。

5.7 知识图谱的应用

语义搜索
语义搜索是指搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身而是透过现象看本质准确地捕捉到用户的真实意图并依此来进行搜索从而更准确地向用户返回最符合其需求的搜索结果。
问答系统
问答系统需要理解查询的语义信息将输入的自然语言转换为知识库中的实体和关系的映射。

5.8 知识图谱小结

（1知识图谱以结构化的形式描述客观世界中的概念、实体及其关系。
（2知识表示方法主要分为基于符号的知识表示方法、基于表示学习的知识表示方法。
（3知识抽取指从不同来源、不同结构的数据中进行知识提取形成知识的过程。
（4知识存储是针对知识图谱的知识表示形式设计底层存储方式完成各类知识的存储以支持对大规模数据的有效管理和计算。
（5知识融合的目标是产生新的知识对松耦合来源中的知识进行集成构成一个合成的资源以补充不完全的知识和获取新知识。
（6知识图谱的推理首先需要考虑的是知识如何表达的问题即知识图谱的知识表示它包括基于图结构的表示和相应的逻辑基础以及基于张量的表示。
（7语义搜索是指搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身而是透过现象看本质准确地捕捉到用户的真实意图并依此来进行搜索从而更准确地向用户返回最符合其需求的搜索结果。
（8知识库问答系统在回答用户问题时需要正确理解用户所提出的自然语言问题抽取其中的关键语义信息在已有单个或多个知识库中通过检索、推理等手段获取答案并返回给用户。

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

返回列表

上一篇：理解CSS

下一篇：阿维塔冲击年10万台订单，第二款车型Q2发布