网站首页 > 人工智能AI > 人工智能技术 人工智能不能发展的今天,语音识别发展到哪个阶段了? 正文

人工智能不能发展的今天,语音识别发展到哪个阶段了?

admin 2019/10/21 人工智能技术 111℃

人工智能

当今人工智能快速发展,语音识别已成为许多设备的标准,并且语音识别已开始吸引越来越多的人关注,国外的Microsoft,GoOGle,Facebook,国内科大讯飞,Spirit和其他制造商正在开发用于语音识别的新算法。今天,小编将为您简要介绍语音识别技术,并讨论其发展过程以及未来可能的发展方向。

在电影《钢铁侠》中,助手Jarvis的出色表现使每个人对智能语音助手充满了期望。语音识别技术是让机器人理解您在说什么。就像“机器的听觉系统”一样,它允许机器通过识别和理解将语音信号转换为相应的文本或命令。

语音识别系统实质上是一种模式识别系统,包括特征提取,模式匹配和参考模式库的三个基本单元。其基本结构如下图所示:培训通常是离线进行的。大量的未知语音通过麦克风转换为电信号,然后添加到识别系统的输入端。首先,进行预处理,然后根据人类语音的特征建立语音模型,并对输入的语音信号进行分析和提取。所需的功能用于建立语音识别所需的模板。识别过程通常是在线完成的,并自动识别用户的实时语音。 识别过程通常可以分为两个模块:“前端”和“后端”:“前端”模块的主要功能是执行端点检测(消除不必要的静音和非语音),降噪,功能提取等; “结束”模块的功能是使用经过训练的“声学模型”和“语言模型”对用户语音的特征向量执行统计模式识别(也称为“解码”),并获得其中包含的文本信息。

事实上,语音识别的发展历程已超过60年,可分为多个阶段。从1950年代到1970年代的20年代初期,科学家们处于绕道发展的阶段。全世界的科学家认为,计算机必须首先理解自然语言,即使用计算机来模拟人的大脑。这20年的研究成果。几乎为零。

直到1970年,统计语言学的出现使语音识别得到复兴,并取得了当今非凡的成就。推动这一技术变革的关键是德里克·贾里尼克(Derek Jarinick)。 IBM使用统计方法将语音识别率提高到了当时的90%,语音识别的范围从几百个单词增加到数万个单词,因此语音识别有可能从实验室转移到实际应用。

首先,我们知道声音实际上是波浪。常见的mp3格式已压缩,必须转换为未压缩的纯波形文件。下图是一个波形示例。

要分析声音,您需要对声音进行构图。即,声音被切成一小段,每个段称为一帧,而25 ms是一帧,如上图所示。

语音识别的工作可以分为三个步骤:第一步是将帧识别为状态;第二步是将帧识别为状态。第二步是将状态合并为音素。第三步是将音素组合成单词。

如下图所示:

如上图所示,每个小竖线代表一帧,几帧语音对应一个状态(例如S1029),每三个代表状态组合成一个音素。 (例如ay),几个音素组合成一个单词。换句话说,只要您知道每个语音对应的状态,就会得出语音识别的结果。这种“对应”过程需要统计语言学。例如,每个音素对应哪个状态?有一个简单的方法:查看哪个状态对应于哪个状态的概率最高,然后查看帧所属的状态;这是观察概率。此外,它包括:转移的概率(每个状态转移到其自身或转移到下一个状态的概率)和语言的概率(根据语言统计定律获得的概率)。

其中,从声学模型获得预观测概率和过渡概率,从语言模型获得最终概率。语言模型使用大量的文本进行训练,并且可以使用语言本身的统计定律来帮助提高识别准确性。这样,基本上完成了语音识别过程,这是语音识别技术的原理。

在1980年代以后,语音识别研究的重点逐渐转移到大词汇量和非特定的连续语音识别上。在1990年代之后,直到大数据和深度神经网络时代来临,语音识别系统框架才出现重大突破。

任何技术都有能量存储阶段和爆炸阶段。语音识别技术的兴起源自互联网上的大数据,涟漪效应和深度神经网络。涟漪效应是指研究层,产品和用户使用情况的组合,形成一个闭环的迭代优化,表达了互联网思维在核心技术优化和突破中的作用。这样,您不仅可以获取数据,还可以学习体验,知道如何使用它,等等,例如,调整使用户体验更好的内容。

在大数据时代到来之后,隐马尔可夫模型具有其局限性。当数据量增加时,它不会像深度神经网络那样增加。在具有相同的涟漪效应的情况下,深度神经网络要优于以前的算法,并且数据越多,深度神经网络的效果就越好。深度神经网络最初是由Geoffrey Hinton和微软的Deng Li研究人员启动的。

尽管当前的语音识别技术已使机器能够理解大多数人的声音,但它与Jarvis的虚构超级助手相距甚远。语音识别技术的发展方向将从识别到感知认知。

例如,研究人员正在努力确保语音识别在更真实的环境中正常工作。这些环境包括背景噪音很大的地方,例如聚集的地方或在高速公路上行驶。他们还将重点讨论如何在多人对话环境中更好地区分不同的讲话者,而不论讲话者的年龄,口音或讲话能力如何。 例如,Google最近发布了一项研究,该研究将一个人的声音与嘈杂的环境区分开来。

从长远来看,研究人员将着重于如何教授计算机,以转录人类嘴中的声音信号,以及如何重返1950年代和1970年代语音识别专家的初衷:计算机了解自然语言,并使用计算机模拟人脑。让机器根据提示回答问题或采取措施。

在不久的将来,智能生活必将进入我们的生活。有兴趣进入未来前沿行业的朋友可以收集智慧生活,并及时获得人工智能,大数据,云计算和物联网。前沿的信息和基础知识,让我们共同努力,引领人工智能的未来!

网站地图