在上篇文章时,我们简单的提到深度学习技术的兴起为语音技术的发展带来了新的活力,本期我们来了解一下智能语音交互技术中深度学习技术具体带来了什么?在我们生活中起到了什么作用?
深度学习(Deep Learning),百度百科中写道是特指基于深层神经网络模型和方法的机器学习。深度学习最重要的技术特点是具有自动提取特征的能力,所提取的特征也称为深度特征或深度特征表示,相比于人工设计的特征,深度特征的表示能力更强、更稳健。
一般来说,智能深度学习技术给智能语音交互中的语音识别和语音合成带来了双重提升。
从语音识别方面,通俗来讲,它能够模拟人类大脑的神经元结构,让计算机能够像人类一样从生活中海量的社会和自然环境数据中自动学习声语音的特征、模式和语义信息。无论发出指令的是哪个国家的人,或说着什么类型的方言,说话的语速快慢、语调高低,还是嘈杂环境中的背景语音,它都能自动挖掘语音信号中隐藏的深层次特征,有效区分相似的语音片段,大大降低错误识别率。在安静环境下,先进的语音识别准确率已经能够与人类相媲美,甚至在某些特定场景中表现更胜一筹。
同时,自然语言理解技术在语义理解的提升方面发挥了重要作用。例如,对于 “我想订一张明天去上海的机票”,理解用户是要进行机票预订,目的地是上海,出发时间是明天。之后再进一步执行用户指令。
如今,这项技术已真正走进了人们的日常生活,高精度的语音识别,带来了广阔的市场应用空间。例如,前文中提到的我国智能语音市场巨头科大讯飞发布的语音识别大模型就能支持中文、英语、日语、韩语、俄语、法语等37个语种自动判别,说话过程中可以无缝切换语种,对于已明确语种的场景,如果指定语种识别,准确度将进一步提升。已经应用在日常的会议记录转写、利用语音指令控制智能设施的智能家居和智能驾驶、线上和线下的教育培训和智能客户等服务中。
除了上述在语音识别方面的飞跃,深度学习在语音合成方面也成果非凡,更多精彩内容,敬请期待下期文章。
来源:密度科技微信服务号