网站首页 > 人工智能AI > 人工智能技术 百度研究出深度学习语音识别系统DeepSpeech,嘈杂环境下 - 模式识别 正文

百度研究出深度学习语音识别系统DeepSpeech,嘈杂环境下 - 模式识别

admin 2020/03/03 人工智能技术 98℃

人工智能

不久前,[db:标签][db:标签]首席科学家吴恩达在一次采访中谈到了百度近期人工智能项目的进展,强调百度近期的重点是解决语音识别问题。现在他们在这方面取得了突破。

这项成就的名称是深度语音,这是一个使用深度学习技术的语音识别系统。它的独特之处在于,在餐厅等嘈杂的环境中,它可以达到近81%的识别准确率。

81%的准确率听起来不高。然而,在同样的环境下,其他的商业语音识别API,包括冰,谷歌和威特。人工智能的最高识别率只有65%。相比之下,这甚至是一场非常出色的表演。根据吴恩达的说,这样的结果仍然低估了深度语音和其他语音识别系统在准确性上的差异,因为深度语音也排除了返回空白字符串的其他语音识别系统的结果。此外,深度语音比顶级学术语音识别模型(基于流行的数据集Hub5 00建模)高9个百分点。

百度首席科学家吴恩达表示,虽然这只是一项研究,但该公司正在考虑将其整合到智能手机和可穿戴设备(如百度眼)的语音识别软件中。此外,百度还在开发一款类似亚马逊回声的家用电器产品,并集成了一个语音助手。它的名字是酷盒子。此外,百度正在开发的智能自行车当然可以使用深度语音技术。

深度速度是基于一种递归神经网络(RNN),经常用于语音识别和文本分析

但深度语音的成功主要归功于10万小时的语音数据训练集。这是由百度人工智能实验室团队在嘈杂的环境中用新颖的方法建立的。过程大致如下。首先,百度收集了7000个小时的语音对话数据,然后将这些语音文件与包含背景噪声的文件相结合,最后形成了一个约10万小时的训练集。这些背景噪音包括餐馆、电视、自助餐厅、汽车、火车等场景。相比之下,Hub5 00的总数据集只有2300小时。

当然,大多数系统不知道如何处理如此庞大的数据。吴恩达表示,深度语音的成功很大程度上取决于百度庞大的基于GPU的深度学习基础设施。图形处理器通常是部分数学计算的首选。许多深度学习系统使用GPU来避免通信瓶颈(尽管微软Adam采取了不同的路线),但是像百度这样的大规模设施很少。

百度的另一大改进是对这个庞大的数据集采用端到端的深度学习模型,而不是标准的、计算昂贵的声学模型。传统上,语音识别通常分为多个步骤,其中一个称为语音适应。然而,百度并没有做到这一步,而是为深度语音的算法提供了大量的数据,然后让它学习所有需要学习的东西。这种方法不仅提高了准确性,而且显著减少了代码库的大小。

这项研究是由吴恩达领导的百度人工智能实验室的几位研究人员努力的结果。这篇论文发表在康奈尔大学图书馆的arXiv.org网站上,如果你感兴趣,可以在这里下载。

在不久的将来,智能生命肯定会完全进入我们的生活。有兴趣进入未来前沿产业的朋友可以收集智能生命,及时获取前沿信息和人工智能、大数据云计算物联网的基础知识。让我们携手引领人工智能的未来!

网站地图