语音识别中的神经元永远不嫌多

一名女子对着她的智能手机说话
2022 年 4 月 15 日,星期五
阅读时间:2分钟
数据
深度学习
研究

分享按钮
语音识别领域几十年来一直是人们热议的话题,如今已拥有从自动字幕到呼叫机器人等众多应用。随着端到端神经方法的探索,语音识别的革命仍在继续。

“实现完全神经处理,涵盖声音信号领域以及文字和文本转录领域。”

在 Orange,语音识别是过去 20 年来许多研究项目的重点。该领域的项目以内部解 WhatsApp 号码数据 决方案为中心,其中包括最初设计为视听流分析和自动索引及提取内容的平台的项目。

实现完全的神经处理,涵盖声音信号领域以及文字和文本的转录领域。

神经处理方面的突破

正如决策和知识技术研究主管 Henri Sanson 和语音识别研究工程师 Benoit Besset 所解释的那样,“项目历来分为两个技术领域。一个涉及内容转录,另一个则专注于交互式语音服务器。如今,单一技术可以通过一个通用软件基础满足各种各样的需求。2010 年代中期,神经处理的出现是一项重大的技术突破。深度学 不掌握主题的对话者 习方法和系统的使用和发展伴随着重大的质的飞跃,标志着一个新技术领域的起点。”

迈向完全神经解决方案

这项突破带来的语音识别系统更倾向于混合架构。虽然神经网络用于处理声学信号并将振动转换为音素,但更传统的 新加坡电话列表 软件层占据了主导地位,使用图表将声音与单词进行匹配。从 2019 年开始,一种基于端到端神经方法的替代技术策略应运而生。语音识别人工智能研究员 Valentin Vielzeuf 表示:“我们的目标是实现完全神经处理,涵盖声学信号领域以及单词和文本转录领域。”例如,这种单块架构可以简化模型的训练并优化更新。完全神经方法有效地简化了训练,并消除了训练混合模型所需的某些“手动”步骤(音频和文本之间的对齐、词汇表的定义、记录不流畅之处)。取消这些步骤可以更轻松地处理大量数据,从而能够朝着更好的模型泛化方向发展,尤其是在处理某些口音和噪音时。”

无处不在的技术
然而,为了克服任何技术障碍或问题,​​向新一代系统的过渡将需要一些时间。使用完全神经方法的途径需要仔细考虑某些问题,例如对神经网络内部发生的事情相对失去控制,例如,神经网络可能会发明自己的单词。

除此之外,语音识别在科技和数字领域的应用仍在不断增长。语音识别通过在交互式语音系统中的实施而得到普及,从 Orange 等运营商的角度来看,语音识别还可用于分析客户与呼叫中心的对话或识别现场工程师报告的语音输入。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部