机器同传技术及应用

  1. 从机器翻译到机器同传
  2. 同传关键问题与解决方案
  3. 中英语音翻译数据集——BSTC
  4. 同传研究和落地问题探讨

从机器翻译到机器同传

信息传递效率高:3-4秒延迟
任务难度大:15-20分钟需要休息

  • 源语言:监听、记忆、理解
  • 目标语言:组织、修正、表达


同传关键问题与解决方案

  • 难点一、语音识别错误带来噪声
  • 难点二、平衡翻译效果和时延的Policy

同传模型举例——以信息单元为粒度的同传模型

自然语言处理 Paddle NLP - 机器同传技术及应用-理论_语音识别


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_数据集_02


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_语音识别_03


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_语音识别_04


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_语音识别_05


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_语音识别_06


同传关键问题与解决方案

语音识别错误带来噪声 => 更鲁棒的ASR

高翻译准确和低延时之间矛盾 => Policy

自然语言处理 Paddle NLP - 机器同传技术及应用-理论_数据集_07


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_数据集_08


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_数据集_09


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_语音识别_10


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_解决方案_11


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_数据集_12


平衡翻译质量与延时——Policy

https://github.com/PaddlePaddle/PaddleNLP/blob/develop/examples/simultaneous_translation/stacl/

自然语言处理 Paddle NLP - 机器同传技术及应用-理论_语音识别_13


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_解决方案_14


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_语音识别_15


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_解决方案_16


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_语音识别_17

中英语音翻译数据集——BSTC

自然语言处理 Paddle NLP - 机器同传技术及应用-理论_数据集_18


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_数据集_19


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_解决方案_20


自然语言处理 Paddle NLP - 机器同传技术及应用-理论_数据集_21

同传研究和落地问题探讨

自然语言处理 Paddle NLP - 机器同传技术及应用-理论_数据集_22



阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6