语音识别基本参数
  • 品牌
  • Bothlent
  • 型号
  • TS-USB-6MIC / TS-GX-6MIC系列
  • 封装形式
  • 软件算法+硬件
  • 工作电源电压
  • 5
语音识别企业商机

    语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到2009年深度学习技术的长足发展才使得语音识别的精度提高,虽然还无法进行无限制领域、无限制人群的应用,但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状,并分析一些未来趋势,希望能帮助更多年轻技术人员了解语音行业,并能产生兴趣投身于这个行业。语音识别,通常称为自动语音识别,英文是AutomaticSpeechRecognition,缩写为ASR,主要是将人类语音中的词汇内容转换为计算机可读的输入,一般都是可以理解的文本内容,也有可能是二进制编码或者字符序列。但是,我们一般理解的语音识别其实都是狭义的语音转文字的过程,简称语音转文本识别(SpeechToText,STT)更合适,这样就能与语音合成(TextToSpeech,TTS)对应起来。语音识别是一项融合多学科知识的前沿技术,覆盖了数学与统计学、声学与语言学、计算机与人工智能等基础学科和前沿学科,是人机自然交互技术中的关键环节。但是,语音识别自诞生以来的半个多世纪,一直没有在实际应用过程得到普遍认可,一方面这与语音识别的技术缺陷有关,其识别精度和速度都达不到实际应用的要求。

     语音识别主要是将人类语音中的词汇内容转换为计算机可读的输入。深圳量子语音识别介绍

    MarkGales和SteveYoung在2007年对HMM在语音识别中的应用做了详细阐述。随着统计模型的成功应用,HMM开始了对语音识别数十年的统治,直到现今仍被看作是领域内的主流技术。在DARPA的语音研究计划的资助下,又诞生了一批的语音识别系统,其中包括李开复()在卡耐基梅隆大学攻读博士学位时开发的SPHINX系统。该系统也是基于统计模型的非特定说话人连续语音识别系统,其采用了如下技术:①用HMM对语音状态的转移概率建模;②用高斯混合模型(GaussianMixtureModel,GMM)对语音状态的观察值概率建模。这种把上述二者相结合的方法,称为高斯混合模型-隐马尔可夫模型(GaussianMixtureModel-HiddenMarkovModel,GMM-HMM)[9]。在深度学习热潮出现之前,GMM-HMM一直是语音识别主流的技术。值得注意的是,在20世纪80年代末,随着分布式知识表达和反向传播算法(Backpropagation,BP)的提出,解决了非线性学习问题,于是关于神经网络的研究兴起,人工神经网络(ArtificialNeuralNetwork,ANN)被应用到语音领域并且掀起了一定的热潮。这是具有里程碑意义的事件。它为若干年后深度学习在语音识别中的崛起奠定了一定的基础。但是由于人工神经网络其自身的缺陷还未得到完全解决。河南语音识别文字语言建模也用于许多其他自然语言处理应用,如文档分类或统计机器翻译。

    将匹配度高的识别结果提供给用户。ASR技术已经被应用到各种智能终端,为人们提供了一种崭新的人机交互体验,但多数都是基于在线引擎实现。本文针对离线网络环境,结合特定领域内的应用场景,提出了一套实用性强,成本较低的语音识别解决方案,实现非特定人连续语音识别功能。第二章本文从方案的主要功能模块入手,对涉及到的关键要素进行详细的分析描述,同时对实现过程中的关键事项进行具体分析,并提出应对措施。第三章根据方案设计语音拨号软件,并对语音拨号软件的功能进行科学的测试验证。1低成本的语音识别解决方案(1)主要功能划分在特定领域内的语音识别,主要以命令发布为主,以快捷实现人机交互为目的。比如在电话通信领域,我们常以“呼叫某某某”、“帮我查找某某某电话”为语音输入,这些输入语音语法结构单一,目的明确,场景性较强,本方案决定采用命令模式实现语音识别功能。方案主要包括四个功能模块:语音控制模块、音频采集模块、语音识别离线引擎和应用数据库模块,各模块的主要功能及要求如图1所示。图1低成本语音识别解决方案功能模块语音控制模块作为方案实现的模块,主要用于实现语音识别的控制管理功能。

    导致我国的语音识别研究在整个20世纪80年代都没有取得学术成果,也没有开发出具有优良性能的识别系统。20世纪90年代,我国的语音识别研究持续发展,开始逐渐地紧追国际水平。在"863"计划、国家科技攻关计划、国家自然科学基金的支持下,我国在中文语音识别技术方面取得了一系列研究成果。21世纪初期,包括科大讯飞、中科信利、捷通华声等一批致力于语音应用的公司陆续在我国成立。语音识别企业科大讯飞早在2010年,就推出了业界中文语音输入法,移动互联网的语音应用。2010年以后,百度、腾讯、阿里巴巴等国内各大互联网公司相继组建语音研发团队,推出了各自的语音识别服务和产品。在此之后,国内语音识别的研究水平在之前建立的坚实基础上,取得了突飞猛进的进步。如今,基于云端深度学习算法和大数据的在线语音识别系统的识别率可以达到95%以上。科大讯飞、百度、阿里巴巴都提供了达到商业标准的语音识别服务,如语音输入法、语音搜索等应用,语音云用户达到了亿级规模。人工智能和物联网的迅猛发展,使得人机交互方式发生重大变革,语音交互产品也越来越多。国内消费者接受语音产品也有一个过程,开始的认知大部分是从苹果Siri开始。搜索的本质是问题求解,应用于语音识别、机器翻译等人工智能和模式识别的各个领域。

    它在某些实际场景下的识别率无法达到人们对实际应用的要求和期望,这个阶段语音识别的研究陷入了瓶颈期。第三阶段:深度学习(DNN-HMM,E2E)2006年,变革到来。Hinton在全世界学术期刊Science上发表了论文,di一次提出了"深度置信网络"的概念。深度置信网络与传统训练方式的不同之处在于它有一个被称为"预训练"(pre-training)的过程,其作用是为了让神经网络的权值取到一个近似优解的值,之后使用反向传播算法(BP)或者其他算法进行"微调"(fine-tuning),使整个网络得到训练优化。Hinton给这种多层神经网络的相关学习方法赋予了一个全新的名词——"深度学习"(DeepLearning,DL)。深度学习不*使深层的神经网络训练变得更加容易,缩短了网络的训练时间,而且还大幅度提升了模型的性能。以这篇划时代的论文的发表为转折点,从此,全世界再次掀起了对神经网络的研究热潮,揭开了属于深度学习的时代序幕。在2009年,Hinton和他的学生Mohamed将深层神经网络(DNN)应用于声学建模,他们的尝试在TIMIT音素识别任务上取得了成功。然而TIMIT数据库包含的词汇量较小。在面对连续语音识别任务时还往往达不到人们期望的识别词和句子的正确率。2012年。语音识别是计算语言学的跨学科子领域,利用其开发方法和技术,能够通过计算机识别和翻译口语。深圳量子语音识别介绍

语音识别模块被广泛应用在AI人工智能产品、智能家居遥控、智能玩具等多种领域上。深圳量子语音识别介绍

    DTW)技术基本成熟,特别提出了矢量量化(Vec⁃torQuantization,VQ)和隐马尔可夫模型(HiddenMar⁃kovModel,HMM)理论。20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被应用于大词汇量连续语音识别(LargeVocabularyContinousSpeechRecognition,LVCSR)的声学建模;在语言模型方面,以N元文法的统计语言模型开始应用于语音识别系统。在这一阶段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始应用于LVCSR系统,语音识别技术取得新突破。20世纪90年代以后,伴随着语音识别系统走向实用化,语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展。同时,人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题。此外,语音识别技术开始与其他领域相关技术进行结合,以提高识别的准确率,便于实现语音识别技术的产品化。怎么构建语音识别系统?语音识别系统构建总体包括两个部分:训练和识别。深圳量子语音识别介绍

与语音识别相关的文章
与语音识别相关的产品
与语音识别相关的新闻
与语音识别相关的问题
新闻资讯
产品推荐
信息来源于互联网 本站不为信息真实性负责