网站首页 > 人工智能AI > 人工智能技术 消灭键盘:谷歌语音新设备两年内面世 - 模式识别 正文

消灭键盘:谷歌语音新设备两年内面世 - 模式识别

admin 2020/03/03 人工智能技术 23℃

人工智能

技术突破

与数字语音助理聊天的乐趣可能就像试图与一个固执的孩子讲道理一样。如果你曾经对着你的Xbox大喊大叫或者诅咒Siri,你可能会对语音识别感到失望。

Schalkvik正在谷歌进行一项雄心勃勃的研究项目,开发一种能够整合公司海量数据的语音系统。他说,目前正在实验室测试的一个项目可以让电脑理解并从本质上“思考”人们进入谷歌设备的声音。

最近在语音和机器学习领域的创新应该会大大提高语音识别能力,缓解人们的不满。Siri开发团队中的一些人表示,工程师们正在积极开发语音识别技术,使其足够智能,以实现设备和用户之间的真正对话。“语音识别技术在理解所有地区的口语方面取得了巨大进步,”开发Siri基础技术的公司SRI国际(后被苹果收购)副总裁威廉·马克(William Mark)说。“这种互动对话现在已经成为一种尖端技术。”

蒂姆·塔特尔一直在等待语音识别技术的飞跃。1997年,他获得了麻省理工学院的博士学位,并在该学院的人工智能实验室工作。在过去的10年里,他在几个硅谷公司工作,并最终在2010年成立了自己的公司期望实验室。塔特尔的公司去年开始系统开发,向移动应用程序添加复杂的语音命令。该应用允许用户进入商店,询问手机扫帚在哪个通道上。

"一年前,我们做了一个基准测试,得出的结论是很难实现这个功能。但是现在,一切都变了。我们公司在语音识别方面的投资增加了一倍,这主要归功于我们看到的技术进步,”图特勒说。“你会发现,与人相比,语音识别系统的精确度相当或更高,这种系统已经商业化了。”首先,让我们快速回顾一下历史教训:两年半前,来自谷歌和多伦多大学的研究人员发表了一篇关于使用“深层神经网络”在计算机中模拟语音的有影响力的论文。几个月后,微软IBM联合发表了另一篇论文。谷歌工程师杰夫·迪恩称这两篇论文是“20年来语音研究领域最大的进步”

谷歌的实验室项目基于神经网络研究。六个月前,谷歌团队放弃了一种叫做前馈神经网络的旧方法,转而使用递归神经网络。这种转换使系统能够存储更多信息,处理更长、更复杂的序列。谷歌的创新是简化底层代码,允许软件在同一个系统中存储更多的想法和概念,使得提出复杂的问题和得到合理的答案变得容易。“复杂的系统建设将损害其长期发展,”斯卡尔维克说。

谷歌系统现在使用上下文、物理位置和其他已知的说话者信息来预测谈话的地点和真正的意思,就像大脑在说话一样。谷歌的新网络技术应该更有效率,这样它可以处理更多的数据,并回答比以前更复杂的请求。

为了解释未来的语音识别技术将如何工作,沙尔克维克以距离谷歌加州山景城总部几英里的一家高端越南餐馆为例。这家餐馆叫做Xanh餐馆。Sharkovic说,对于一个典型的语音识别系统来说,识别餐馆名称的发音是一个挑战,因为Xanh的发音是“zahn”,很难识别。“如果我能用地图说‘这是一家餐馆,它位于加州’,那么可供参考的餐馆数量将会立即减少很多,”他说。"利用这些语义知识,我们可以大大提高语音识别的质量."

这听起来很简单,但是对于计算机来说,要听到一个单词,从一个句子中识别上下文,然后根据它的地理位置分析信息是非常困难和耗时的。今天,谷歌语音搜索能够正确识别餐馆,也许是因为它的开发者是餐馆的常客。沙尔维克说,谷歌将来将能够处理许多其他问题,这些问题也有模糊的声音。

Schalkvik说,在谷歌内部,语音识别已经取得了“前所未有的数量”的技术进步。尽管谷歌的主要进步还需要一两年时间才能在手机上体现出来,但该项目已经催生了可用于谷歌其他业务的技术。“你已经开发了一些技术来准备登月,同时,你也开发了另外100种有用的技术,”沙尔维克说。

沙尔维克说,三年前,谷歌的语音识别技术只能识别3/4的单词。今天,图特勒说,由于创新步伐的加快,谷歌的手机语音识别应用可以准确地猜出12/13个单词。“未来,我们将生活在一个设备上没有键盘的世界,”图特勒说。

在不久的将来,智能生命肯定会完全进入我们的生活。有兴趣进入未来前沿产业的朋友可以收集智能生命,及时获取前沿信息和人工智能、大数据云计算和物联网的基础知识。让我们携手引领人工智能的未来!

网站地图