自然语言处理的分类-CSDN博客

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

动动发财的小手点个赞吧

alt

简介

作为理解、生成和处理自然语言文本的有效方法自然语言处理NLP的研究近年来呈现出快速传播和广泛采用。鉴于 NLP 的快速发展获得该领域的概述并对其进行维护是很困难的。这篇博文旨在提供 NLP 不同研究领域的结构化概述并分析该领域的最新趋势。

本文[1]中我们研究以下问题

  • NLP 研究哪些不同的研究领域
  • NLP 研究文献的特点和随时间的发展是什么
  • NLP目前的趋势和未来工作的方向是什么

尽管 NLP 的大多数研究领域都是众所周知的和明确的但目前还没有常用的分类法或分类方案试图以一致且易于理解的格式收集和构建这些研究领域。因此了解整个 NLP 研究领域的概况是很困难的。虽然会议和教科书中列出了 NLP 主题但它们往往差异很大而且往往要么太宽泛要么太专业。因此我们开发了一个涵盖 NLP 广泛不同研究领域的分类法。尽管该分类法可能不包括所有可能的 NLP 概念但它涵盖了广泛的最受欢迎的研究领域因此缺失的研究领域可以被视为所包含研究领域的子主题。在制定分类法时我们发现某些较低级别的研究领域必须分配给多个较高级别的研究领域而不仅仅是一个。因此一些研究领域在 NLP 分类中被多次列出但被分配到不同的更高级别的研究领域。最终的分类法是与领域专家一起在迭代过程中凭经验开发的。

该分类法作为一种总体分类方案其中 NLP 出版物可以根据至少一个所包含的研究领域进行分类即使它们不直接涉及其中一个研究领域而只是其子主题。为了分析 NLP 的最新发展我们训练了一个弱监督模型根据 NLP 分类法对 ACL Anthology 论文进行分类。

NLP的不同研究领域

以下部分对上述 NLP 分类法中包含的研究概念领域进行简短说明。

多模态

多模态是指系统或方法处理不同类型或模态输入的能力。我们区分可以处理自然语言文本以及视觉数据、语音和音频、编程语言或结构化数据例如表格或图表的系统。

自然语言接口

自然语言接口可以基于自然语言查询处理数据通常实现为问答系统或对话系统。

语义文本处理

这一高级研究领域包括试图从自然语言中获取含义并使机器能够从语义上解释文本数据的所有类型的概念。这方面最强大的研究领域之一是尝试学习单词序列的联合概率函数的语言模型。语言模型训练的最新进展使这些模型能够成功执行各种下游 NLP 任务。在表示学习中语义文本表示通常以嵌入的形式学习可用于比较语义搜索设置中文本的语义相似度。此外可以合并知识表示例如以知识图的形式来改进各种 NLP 任务。

情绪分析

情感分析试图从文本中识别和提取主观信息。通常研究的重点是从文本中提取观点、情感或极性。最近基于方面的情感分析成为一种比一般情感分析提供更详细信息的方法因为它旨在预测文本中给定方面或实体的情感极性。

句法文本处理

这一高级研究领域旨在分析文本的语法和词汇。这种情况下的代表性任务是句子中单词依赖性的句法分析、将单词标记到各自的词性、将文本分割成连贯的部分或者纠正语法和拼写方面的错误文本。

语言学与认知 NLP

语言学与认知 NLP 处理自然语言的基础是这样的假设我们的语言能力牢牢植根于我们的认知能力意义本质上是概念化语法是由用法决定的。目前存在许多不同的语言理论它们普遍认为语言习得受到所有典型发育人类所共有的通用语法规则的控制。心理语言学试图模拟人脑如何获取和产生语言、处理语言、理解语言并提供反馈。认知建模涉及以各种形式特别是计算或数学形式对人类认知过程进行建模和模拟。

推理

推理使机器能够使用演绎和归纳等技术根据可用的信息得出逻辑结论并得出新知识。论据挖掘自动识别和提取自然语言文本中表达为论据的推论和推理结构。文本推理通常被建模为蕴涵问题自动确定是否可以从给定前提推断出自然语言假设。常识推理使用文本中未明确提供的世界知识来连接前提和假设而数值推理则执行算术运算。机器阅读理解旨在教会机器根据给定的段落确定问题的正确答案。

多语言能力

多语言处理涉及多种自然语言的所有类型的 NLP 任务并且通常在机器翻译中进行研究。此外语码转换可以在单个句子内或句子之间自由交换多种语言而跨语言迁移技术则使用一种语言可用的数据和模型来解决另一种语言的 NLP 任务。

信息检索

信息检索涉及从大型集合中查找满足信息需求的文本。通常这涉及检索文档或段落。

信息提取与文本挖掘

该研究领域的重点是从非结构化文本中提取结构化知识并能够分析和识别数据中的模式或相关性。文本分类自动将文本分类为预定义的类别而主题建模旨在发现文档集合中的潜在主题通常使用文本聚类技术将语义相似的文本组织到相同的集群中。摘要生成文本摘要其中在更小的空间中包含输入的关键点并将重复保持在最低限度。此外信息提取和文本挖掘领域的研究还包括命名实体识别处理命名实体的识别和分类共指解析旨在识别对同一实体的所有引用话语、术语提取旨在提取相关术语例如关键字或关键短语、关系提取旨在提取实体之间的关系以及开放信息提取以促进关系元组的领域独立发现。

文本生成

文本生成方法的目标是生成人类可以理解且与人类创作的文本无法区分的文本。因此输入通常由文本组成例如在释义中以不同的表面形式呈现文本输入同时保留语义问题生成旨在根据给定的段落生成流畅且相关的问题和目标答案或对话响应生成旨在生成与提示相关的自然外观文本。然而在许多情况下文本是作为其他模式输入的结果生成的例如在数据到文本生成的情况下基于结构化数据例如表格或图表生成文本 、图像或视频的字幕或将语音波形转录为文本的语音识别。

NLP的特点和发展

alt

考虑到 NLP 方面的文献我们从研究数量作为研究兴趣的指标开始分析。 50年观察期内的出版物分布如上图所示。虽然第一批出版物出现于 1952 年但每年出版物的数量增长缓慢直到 2000 年。相应地2000 年至 2017 年间出版物数量大约翻了两番而在随后的五年中又翻了一番。因此我们观察到 NLP 研究的数量呈近指数增长表明研究界的关注日益增加。

alt

检查上图揭示了 NLP 文献中最受欢迎的研究领域及其随着时间的推移的最新发展。虽然 NLP 的大多数研究都与机器翻译或语言模型有关但这两个研究领域的发展却有所不同。机器翻译是一个经过深入研究的领域已经建立了很长时间并且在过去 20 年中经历了适度的增长。语言模型也被研究了很长时间。然而自 2018 年以来该主题的出版物数量才出现显着增长。在其他热门研究领域也可以观察到类似的差异。表征学习和文本分类虽然得到了广泛的研究但其发展却部分停滞。相比之下对话系统和对话代理尤其是低资源 NLP研究数量继续呈现高增长率。根据其余研究领域的平均研究数量的发展我们观察到整体略有正增长。然而大多数研究领域的研究明显少于最受欢迎的研究领域。

NLP 的最新趋势

alt

上图展示了NLP研究领域的增长份额矩阵。我们用它来通过分析 2018 年至 2022 年间 NLP 各个研究领域相关论文的增长率和总数来考察当前的研究趋势和未来可能的研究方向。矩阵的右上部分由以下研究领域组成总体上表现出高增长率和大量论文。鉴于本部分的研究领域越来越受欢迎我们将它们归类为热门明星。右下部分包含非常受欢迎但增长率较低的研究领域。通常这些是 NLP 所必需的研究领域但已经相对成熟。因此我们将它们归类为基础研究领域。矩阵的左上部分包含表现出高增长率但总体上论文很少的研究领域。由于这些研究领域的进展相当有前景但总体论文数量较少难以预测其进一步发展因此我们将其归类为上升问号。矩阵左下角的研究领域由于论文总数低且增长率低而被归类为利基研究领域。

从图中可以看出目前最受关注的是语言模型。根据该领域的最新发展这一趋势可能会在不久的将来持续并加速。文本分类、机器翻译和表示学习位列最热门的研究领域之列但仅显示出边际增长。从长远来看它们可能会被增长更快的领域取代成为最受欢迎的研究领域。

一般来说与句法文本处理相关的研究领域总体上表现出可忽略不计的增长和较低的受欢迎程度。相反与负责任和值得信赖的NLP相关的研究领域例如绿色和可持续的NLP、低资源NLP和道德NLP总体上往往表现出高增长率和高受欢迎程度。这种趋势也可以在 NLP 中的结构化数据、NLP 中的视觉数据以及 NLP 中的语音和音频中观察到所有这些都与多模态有关。此外涉及对话系统、对话代理和问答的自然语言界面在研究界变得越来越重要。我们的结论是除了语言模型之外负责任且值得信赖的 NLP、多模态和自然语言界面也可能成为不久的将来 NLP 研究领域的特征。

在推理领域特别是在知识图推理和数字推理以及与文本生成相关的各个研究领域中可以观察到进一步显着的发展。尽管这些研究领域目前还相对较小但它们显然吸引了研究界越来越多的兴趣并表现出明显的积极增长趋势。

总结

为了总结最近的发展并概述 NLP 的前景我们定义了研究领域的分类并分析了最近的研究进展。

我们的研究结果表明已经研究了大量的研究领域包括多模态、负责任和值得信赖的 NLP 以及自然语言界面等趋势领域。我们希望本文能够对当前 NLP 领域提供有用的概述并可以作为更深入探索该领域的起点。

Reference

[1]

Source: https://towardsdatascience.com/a-taxonomy-of-natural-language-processing-dfc790cb4c01

本文由 mdnice 多平台发布

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6