不久前,[db:标签][db:标签]度首席科学家吴恩达在一次采访中谈到了百度近期人工智能项目的进展,强调百度近期的重点是解决语音识别问题。现在他们在这方面取得了突破。
这项成就的名称是深度语音,这是一个使用深度学习技术的语音识别系统。它的独特之处在于,在餐厅等嘈杂的环境中,它可以达到近81%的识别准确率。
81%的准确率听起来不高。然而,在同样的环境下,其他的商业语音识别API,包括冰,谷歌和威特。人工智能的最高识别率只有65%。相比之下,这甚至是一场非常出色的表演。根据吴恩达的说法,这样的结果仍然低估了深度语音和其他语音识别系统在准确性上的差异,因为深度语音也排除了返回空白字符串的其他语音识别系统的结果。此外,深度语音比顶级学术语音识别模型(基于流行的数据集Hub5 00建模)高9个百分点。
百度首席科学家吴恩达表示,虽然这只是一项研究,但该公司正在考虑将其整合到智能手机和可穿戴设备(如百度眼)的语音识别软件中。此外,百度还在开发一款类似亚马逊回声的家用电器产品,并集成了一个语音助手。它的名字是酷盒子。此外,百度正在开发的智能自行车当然可以使用深度语音技术。
深度速度是基于一种递归神经网络(RNN),经常用于语音识别和文本分析。
但深度语音的成功主要归功于10万小时的语音数据训练集。这是由百度人工智能实验室团队在嘈杂的环境中用新颖的方法建立的。过程大致如下。首先,百度收集了7000个小时的语音对话数据,然后将这些语音文件与包含背景噪声的文件相结合,最后形成了一个约10万小时的训练集。这些背景噪音包括餐馆、电视、自助餐厅、汽车、火车等场景。相比之下,Hub5 00的总数据集只有2300小时。
当然,大多数系统不知道如何处理如此庞大的数据。吴恩达表示,深度语音的成功很大程度上取决于百度庞大的基于GPU的深度学习基础设施。图形处理器通常是部分数学计算的首选。许多深度学习系统使用GPU来避免通信瓶颈(尽管微软的Adam采取了不同的路线),但是像百度这样的大规模设施很少。
百度的另一大改进是对这个庞大的数据集采用端到端的深度学习模型,而不是标准的、计算昂贵的声学模型。传统上,语音识别通常分为多个步骤,其中一个称为语音适应。然而,百度并没有做到这一步,而是为深度语音的算法提供了大量的数据,然后让它学习所有需要学习的东西。这种方法不仅提高了准确性,而且显著减少了代码库的大小。
这项研究是由吴恩达领导的百度人工智能实验室的几位研究人员努力的结果。这篇论文发表在康奈尔大学图书馆的arXiv.org网站上,如果你感兴趣,可以在这里下载。
在不久的将来,智能生命肯定会完全进入我们的生活。有兴趣进入未来前沿产业的朋友可以收集智能生命,及时获取前沿信息和人工智能、大数据、云计算和物联网的基础知识。让我们携手引领人工智能的未来!
猜你喜欢
- 2022-06-14 在习近平新时代中国特色社会主义思想指引下开启人工智能新纪元(上)
- 2022-06-14 21世纪三大尖端领域:人工智能 纳米技术 基因工程
- 2022-06-14 IEEE Fellow黄建伟:「网络经济、群体智能」跨界融合,智慧城市的新风暴
- 2022-06-14 西媒惊叹:中国建大坝用上人工智能+3D打印“黑科技”
- 2022-06-14 人工智能伦理与治理标准加速落地
- 2022-06-14 程序员会被人工智能给替代吗?
- 2022-06-14 闪电快讯丨Meta免费公开AI模型,1750亿参数和GPT
- 2022-06-14 Meta 宣布 CAIRaoke 项目:在对话式人工智能方面突破 造未来语音助手
- 2022-06-14 恐怖!数字机器人40秒写了40篇高考作文,人工智能应用来了
- 2022-06-14 “AI四小龙”云从登陆科创板,AI公司如何破局?
- 最近发表
- 随机tag