杂志信息网-创作、查重、发刊有保障。

语音识别技术的发展史论文怎么写啊

发布时间:2024-06-01 22:21:04

语音识别技术的发展史论文怎么写啊

体各组织器官大多处于休整状态,气血主要灌注于心、肝、脾、肺、肾五脏,使

1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研究成功了第一个计算机语音识别系统。大规模的语音识别 研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路。进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。DARPA(Defense Advanced Research Projects Agency)是在70年代由美国国防部远景研究计划局资助的一项10年计划,其旨在支持语言理解系统的研究开发工作。到了80年代,美国国防部远景研究计划局又资助了一项为期10年的DARPA战略计划,其中包括噪声下的语音识别和会话(口语)识别系统,识别任务设定为“(1000单词)连续语音数据库管理”。到了90年代,这一DARPA计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。日本也在1981年的第五代计算机计划中提出了有关语音识别输入-输出自然语言的宏伟目标,虽然没能实现预期目标,但是有关语音识别技术的研究有了大幅度的加强和进展。1987年起,日本又拟出新的国家项目---高级人机口语接口和自动电话翻译系统。 中国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。进入80年代以后,随着计算机应用技术在中国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点,发展迅速。就在这种形式下,国内许多单位纷纷投入到这项研究工作中去。1986年3月中国高科技发展计划(863计划)启动,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下,中国开始了有组织的语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。从此中国的语音识别技术进入了一个前所未有的发展阶段。 这一时期的语音识别方法基本上是采用传统的模式识别策略。其中以苏联的Velichko和Zagoruyko、日本的迫江和千叶,以及当时在美国的板仓等人的研究工作最具有代表性。· 苏联的研究为模式识别应用于语音识别这一领域奠定了基础;· 日本的研究则展示了如何利用动态规划技术在待识语音模式与标准语音模式之间进行非线性时间匹配的方法;·板仓的研究提出了如何将线性预测分析技术(LPC)加以扩展,使之用于语音信号的特征抽取的方法。 目前在大词汇语音识别方面处于领先地位的IBM语音研究小组,就是在70年代开始了它的大词汇语音识别研究工作的。AT&T的贝尔研究所也开始了一系列有关非特定人语音识别的实验。这一研究历经10年,其成果是确立了如何制作用于非特定人语音识别的标准模板的方法。这一时期所取得的重大进展有:⑴隐式马尔科夫模型(HMM)技术的成熟和不断完善成为语音识别的主流方法。⑵以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候,除了识别声学信息外,更多地利用各种语言知识,诸如构词、句法、语义、对话背景方面等的知识来帮助进一步对语音作出识别和理解。同时在语音识别研究领域,还产生了基于统计概率的语言模型。⑶人工神经网络在语音识别中的应用研究的兴起。在这些研究中,大部分采用基于反向传播算法(BP算法)的多层感知网络。人工神经网络具有区分复杂的分类边界的能力,显然它十分有助于模式划分。特别是在电话语音识别方面,由于其有着广泛的应用前景,成了当前语音识别应用的一个热点。另外,面向个人用途的连续语音听写机技术也日趋完善。这方面,最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系统。这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训练,便可在使用中不断提高识别率。中国的语音识别技术的发展 : ⑴在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研机构和高等院校。另外,还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。⑵现在,国内有不少语音识别系统已研制成功。这些系统的性能各具特色。· 在孤立字大词汇量语音识别方面,最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。· 在连续语音识别方面,91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语——汉语语音翻译演示系统。·在非特定人语音识别方面,有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。

语音识别是一门交叉学科。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

语音识别技术的发展史论文怎么写

NRK10语音识别芯片为广州九芯电子自主研发的一款高性能、低成本的离线语音识别芯片,具有语音识别及播报功能,需要外挂 SPI-Flash,存储词条或者语音播内容。他具有识别率高,工业级性能、简单易用,更新词条方便等优势。广泛应用在智能家居、AI人工智能、玩具等多种领域。

语音识别的发展历史 ——语音识别的研究工作大约开始于50年代,当时AT& T Bell实验室实现了第一个 可识别十个英文数字的语音识别系统——Audry系统。 ——60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动 态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模 型的问题,对语音识别的发展产生了深远影响。 ——70年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态 时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型 (HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识 别系统。 ——80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元 网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT& T Bell 实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为 更多研究者了解和认识。ANN和HMM模型建立的语音识别系统,性南嗟薄 ̄□钼箴患乱炯乱睛钼箴沪钼箴患乱峻□��□膻□剥□甏□�孀哦嗝教迨贝□睦戳伲�惹幸�笥镆羰侗鹣低炒邮笛槭易呦蚴叠□钼箴患乱峻□谩P矶喾⒋锕□胰缑拦□⑷毡尽⒑�□约剥□峦~{、Apple、AT&T、NTT等著名公司都 为语音识别系统的实用化开发研究投以巨资。 ——我国语音识别研究工作一直紧跟国际水平,国家也褐厥樱��汛蟠驶懔坑镆酤□钼箴患乱峻□侗鸬难芯苛腥搿剥□冻~{”计划,由中科院声学所、自动化所及北京大学等单位研究 开发。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、新 加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水 平。因此,国内除了要加强理论研究外,更要加快从实验室演示系统到商品的转化

语音识别技术的发展史论文摘要怎么写

语音识别是一门交叉学科。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

The article described the first integrated voice recognition technology generation and development history, the classification of voice recognition systems, and the difficulties faced by the main use of technology and development direction and The design of voice recognition systems, design the voice of the car body structure and its control drive The process of designing a major application of Sunplus SPCE061A SCM as a car's microcontroller and a brief analysis of the SPCE061A SCM SPCE061A given the further use of voice recognition and control functions of the methods and The driver of the car control part of the design, as well as part of its drive circuit principle of a full feasibility studies and Finally, the demonstration and analysis of the voice to the car system optimization and assembly, so we achieved a very good preparation before the voice traffic and turns, stop traffic, and other functions, the design ideas and methods to other needs of voice control circuit The device also has a reference

语音识别的研究工作大约开始于50年代,当时AT& T Bell实验室实现了第一个可识别十个英文数字的语音识别系统--Audry系统。--60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。--70年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。  --80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT& T Bell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识。ANN和HMM模型建立的语音识别系统,性能相当。  --进入90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。

语音识别技术的发展史论文题目怎么写

摘要:空间在科学认识层面被分为数学空间和物理空间。试图从科学哲学层面探讨空间结构,空间需要几何来描述,谈论几何必然会联系到空间。从几何入手,梳理了非欧几何的创立及证实历程,探讨空间和几何之间的联系,尝试思考空间的结构体系的变化带来的哲学意义。 关键词:空间结构 非欧几何 物理空间 1 空间与几何 科学认识中,空间可以分为数学空间和物理空间。现代数学和物理的发展表明,这二者之间是存在着基本的差别的。首先是研究对象不同,数学空间研究的是形式的符号体系,物理空间则是对象的经验描述。;其次在不同领域,空间的称呼不一样,在物理学上称呼为”场”,或“场概念的扩张”,而在数学上成为“几何”,或“几何对象”。 空间需要用几何来描述,而谈论几何时,必然会联想到空间。那么空间的特性是什么呢?彭加勒所指的是作为几何学的对象的空间,即“几何的空间”。他认为空间主要存在以下五个特性:是连续的;是无穷的:是三维的:是均匀的,即是各点都是恒等的;是各向同性的,即是经过同一点的各线都是恒等的。。 几何的性质是科学哲学上一个极为重要的课题。因为它导致了现代物理学结构的基础——时空系统的分析。几何存在数学几何和物理几何,这是获得知识的两种基本不同的方法的范例。其不同在于,前者是先验的方法,后者是经验的方法。 2 非欧几何的孕育与创立 1 欧氏几何遇到挑战 最初的几何学对象是图形,于是研究它必然要借助于空间的直观性,但是直观性也有不可靠(不符合客观)的时候,因而在明确地规定了定义和公理的基础上,排除直观性,建议合乎逻辑的几何学体系的思想,欧几里得(Euclid,约公元前330-275年)在这种思想基础上,系统地总结和概括了古代几何学的成就,编著完成《几何原本》这一古代几何学的杰作,以这5条公设和5个公理作为基础,通过逻辑推理,论证几何定理,构成几何体系,创立了欧氏几何学。反映了三维平直空间结构,人们将此空间称为欧氏空间。 其中第五公设引人注目,“如有两条直线与第三条直线相交,而且截线同侧的两内角之和小于两直角时,则此两直线经过充分延长后,必在截线所成两内角之和小于两直角的一侧相交。”由第五公设可推出直线外一点只能作一条平行线的欧氏平行公理。卡尔纳普概括为,对于任意的平面,在其上有一条线L以及不在L线上的一点P,在平面上过P点有一条而且只有一条线L’平行于L线(两条线在一平面上,如果它们没有公共点,定义为平行)。 关于此公设争论的焦点不在于其真理性,而在于是否有必要作为一个公理。许多数学家相信它可能是一个定理,能够从其他公理中推导出来。许多学者做过这钟推导的无数尝试,但都没有成功。在今天看来,为什么是错的呢?因为这些尝试通常依赖直觉而难于发现其漏洞,加之当时还不存在一种充分有力地为几何的证明提供严格的逻辑规则。在推导过程中,有时候很明显地存在诉诸想象的情况。这些隐蔽的、直觉的前提原来是伪装形式的平行公理自身。当关系逻辑出现之前,平行公理的各种假想的证明的逻辑漏洞一直不容易被揭露。 2 非欧几何的创立 直至19世纪,才真正运用严格的逻辑证明平行公理独立于其他欧氏公理,而不能从后者导出。 19世纪20年代,罗巴切夫斯基在前人的基础上,运用反证法,圆满地解决了两千多年来关于欧氏第五公设的难题,完成了非欧几何的创立工作,对人类的科学事业作出了重大的贡献。他引用与欧氏第五公设相矛盾的命题(即直线外一点可作两条平行线)作为假设,与欧氏几何其它公设和公理联系起来,展开推理。如果这个假设与欧氏几何其他公设和公理不相容,在推理中就会引出逻辑上的矛盾,这样从反面证明了欧氏第五公设。然而,在实际的推论过程中并未出现这种矛盾,而是合乎逻辑地推出了一个新的几何体系来。由此,罗巴切夫斯基得出了三个结论:(1)用欧氏几何其他公设和公理不能证明欧氏第五公殴,欧氏第五公设是一个独立的公设。(2)与欧氏第五公设相矛盾的公设(即直线外一点可作两条平行线)同欧氏几何其他公设、公理相结合展开一系列推论,获得了许多在逻辑上无矛盾的定理,构成了不同于欧氏几何的新的几何学。(3)这种逻辑上无矛盾的几何学的真理性跟物理学上的定理一样,只能凭实验例如天文观测来检验。 黎曼也对欧氏第五公设进行了深入研究。在罗巴切夫斯基的几何学(专门地称为双曲几何学)中,有无数条平行线。在黎曼几何(被称作椭圆几何学)中,不存在平行线。 3 非欧几何的检验 由于非欧几何既与传统的几何学在表面上直接相矛盾,又与占统治地位的康德唯心主义空间观念相对立,因此,它的创立不能不引起人们的怀疑、讥笑和反对。 1868年,意大利数学家贝尔特拉米在《非欧几何解释的尝试》中,证明了非欧几何可以在欧氏曲面(伪球面)得到片段解释,从而使它的实际意义得到了间接的说明,于是非欧几何的思想开始被人们所接受。 然而,就整个平面或空间上解释罗氏几何的现实意义是由1870年为德国数学家克莱因所解决,他把欧氏平面上的圆的内部看作罗氏平面,把圆周看作罗氏平面上的无穷远线,把圆的弦看作罗氏直线。经过这些约定后,就可以证明,在圆内部的普遍几何的事实就变成了罗巴切夫斯基几何的定理,而且反过来,罗巴切夫斯基几何的每一个定理,就可以解释成圆内部的普通几何的事实。 通过科学实践检验那是在爱因斯坦创立广义相对论以后的事情。广义相对论完满地解释了水星运动轨道近日点的进动现象;认为水星运动轨道近日点进动现象是由于太阳的巨大质量使周围时空弯曲引起的,根据计算和观测的数据完全符合:还预言了星光经过太阳附近发生偏折的现象,不久也被英国的爱丁顿率领的人员在天文观测实践中所证实。 由此可见,广义相对论及其相应的科学实践已经证明,非欧几何(主要是黎曼几何)是反映了弯曲空间形式的科学真理。 3 关于空间哲学上的思考 非欧几何的创立使人们认识到,数学空间与物理空间有着本质的区别。 在欧氏几何到非欧几何的发展过程中。也引起了人们对空间概念的肃清。直观空间,视觉空间,动觉空间与科学意义上的空间是有区别的:而物理空间与数学空间存在本质的区别。数学空间原则上可以不涉及外部世界的现象和物体,以及现象和物体之间的关系。只涉及自己的想象物以及它们之间的关系。在欧几里得空间中,数学图形大部分被认为与出现在物理空间的物体是一致的。但在n(n>3)维空间中的数学图形很难在现实中找到它的直接抽象,然而它能被应用到对物理世界的描述中。当数学空间被用作概念框架来说明现实空间的结构时,抽象空间就转化为物理空间,此种意义上,物理空间包含数学空间和实在。物理空间的维数随所依据的数学空间以及所研究的对象而变。关于宏观物体以及星系的普通物理学中,空间是以欧几里得空间为形式的牛顿物理空间:而在以星河系为尺度的宇宙观世界的物理学中所用的则是以黎曼空间为形式的广义相对论空间。广义相对空间把几何学同物理学统一了起来,用空间结构的几何性质来表述引力场,从而使非欧几何学获得了实际的物理意义。爱因斯坦发现现实的有物质存在的宇宙空间,不是平直的欧几里得空间,而是弯曲的黎曼空间。在广义相对论中,物质的存在不仅产生了引力场,而且还使时空的特性发生了变化,造成了时空弯曲的效应。综上分析可知,物理空间是应用数学空间而获得的。 19世纪的科学创造中,非欧几何的发现,在思想上是极其深刻的意义。它的发现,是自希腊时代以来数学中一次最重大最深刻的革新,开创了几何学和数学的新时代,对其以后的发展起着深远的影响和重大的作用;从根本上迫使数学家改变对数学的性质以及数学和物理世界的关系的理解,迫使人们改变传统的空间观念,在自然科学领域中发起了对唯心论形而上学宇宙观的猛烈攻击,因此是人类认识和思想方法上的一场重大变革。可供参考 文发网可以提供免费的参考文献 还可以发表

语音识别是一门交叉学科。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

语音识别技术的发展史论文怎么写题目

背景里的声音会有干扰 多对电脑说说话,会好点,同样的话多说几偏这个功能的反应速度有待提高

NRK10语音识别芯片为广州九芯电子自主研发的一款高性能、低成本的离线语音识别芯片,具有语音识别及播报功能,需要外挂 SPI-Flash,存储词条或者语音播内容。他具有识别率高,工业级性能、简单易用,更新词条方便等优势。广泛应用在智能家居、AI人工智能、玩具等多种领域。

与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。  语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。  语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 任务分类和应用 根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。  根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。  另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。  语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。 前端前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征 声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。  * 倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。  * Mel倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。  MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型 语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。  HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。  语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。  英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。 语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。  N-Gram:该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。  语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。 搜索  连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。  Viterbi:基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。  由于语音识别对当前时间点之后的情况无法预测,基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性,同一时刻的各条路径对应于同样的观察序列,因而具有可比性,束Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源,产生一个候选列表或词候选网格,在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典,这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解,往往要利用一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析,进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。  N-best搜索产生一个候选列表,在每个节点要保留N条最好的路径,会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选,但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径,保留k条。词候选网格以一种更紧凑的方式给出多候选,对N-best搜索算法作相应改动后可以得到生成候选网格的算法。  前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后,搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中,因而可以使用启发式的A算法进行后向搜索,经济地搜索出N条候选。 系统实现   语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。  听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。  对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。 自适应与强健性   语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。  解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。  说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。  语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。 微软语音识别引擎   微软在office和vista中都应用了自己开发的语音识别引擎,微软语音识别引擎的使用是完全免费的,所以产生了许多基于微软语音识别引擎开发的语音识别应用软件,例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。 语音识别系统的性能指标   语音识别系统的性能指标主要有四项。①词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。③训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。④正确识别率:平均正确识别的百分数,它与前面三个指标有关。  小结  以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决。

相关百科