词法分析就是利用计算机对自然语言的形态(morphology) 进行分析,判断词的结构和类别等。”简单而言,就是分词并对每个词进行分类,包括:分词、词性标注、实体识别三个任务

自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集

自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_02

自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_03

自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集_04


问答

知识图谱,类似一张表, 里面放了 姚明(人) 、妻子(属性)对应的是谁

这张表来源于网页挖掘,也是词法分析,进行对应识别

自然语言处理 Paddle NLP - 词法分析技术及其应用_词法分析_05


对话

词法分析得到标签,根据动作进行具体操作

自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_06


自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集_07

自然语言处理 Paddle NLP - 词法分析技术及其应用_词法分析_08


自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_09


自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_10


自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_11

对每个字打标签:B 是一个词的开始,I 是一个词的持续,通过一个公式转换成序列标注

自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集_12


自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_13


自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_14


自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_15


自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集_16

OOV(out of vocabulary) 问题:新词,没有见过的词

将预训练模型插进来进行替换,解决OOV问题

自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_17

预测有4个词,只有3个和标签标注的一样,它的准确就是 3/4

只有一个错了应该是8/9 实际比它要小,所以说以词为力度去计算是一个更严格的标准。

自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集_18


基于上面的评估方法得到的一个准确率和效果,MSR数据集(分词数据集)BERNIE-CRF效果最好。

最长匹配,准确率还可以,还是有很多地方在使用,高效简单

自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集_19

自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集_20


自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_21

自然语言处理 Paddle NLP - 词法分析技术及其应用_词法分析_22


自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_23


自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_24


自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_25


自然语言处理 Paddle NLP - 词法分析技术及其应用_词性标注_26


自然语言处理 Paddle NLP - 词法分析技术及其应用_数据集_27



阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6