本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。
学位论文作者签名: 日期:
本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。
作者和导师同意网上交流的时间为作者获得学位后: 半年□一年□ 一年半□ 两年□
学位论文作者签名:导师签名: 签字日期:签字日期:
语音特征参数提取是影响语音识别系统的关键技术之一,近年来结合听觉特性的语 音特征参数提取是语音识别领域的研究热点。而随着物联网技术的广泛推广,设计并实 现面向应用的语音识别系统引起越来越多科研人员的关注。
本文在综述了语音识别技术中语音特征参数提取的研究发展及其在物联网应用的 基础上,实现了一种基于听觉模型的特征参数:耳蜗基底膜倒谱系数(CFCC),并将其应 用于物联网重要分支智能家居系统中,以实现非特定人、语音交互的智能家居系统。本 文的主要工作如下:
首先,研究基于听觉模型的 CFCC,介绍其数学定义、实现方法,并在 MATLAB 环境下进行仿真研究。仿真实验中还提取了 MFCC 和GFCC,和 CFCC 进行对比试验, 实验室安静环境下录制的音频测试文件信噪比高,所有特征参数的识别率都可以达到 90% 以上,对该音频文件添加白噪声,令信噪比为 6dB 时,MFCC 的识别率下降为 67.5%, GFCC 和 CFCC 的稍有下降,分别为 86.8%和 90.4%。当信噪比为0dB 时,MFCC 的识 别率下降到 20%以下,GFCC 和 CFCC 的亦有下降趋势,分别为 45.0%和 65.2%,但 CFCC 的表现要优于 。实验说明 具有更好的抗噪性。
然后,将 CFCC 整合到 Sphinx 语音识别系统中,以替换其默认的特征参数 MFCC, 实现基于 CFCC 的语音识别系统,并将该系统移植到嵌入式开发平台。其中,嵌入式开 发平台以 OMAP3530 为核心处理控制芯片,搭载嵌入式 Linux 操作系统,并添加了 QT 图形界面库、ALSA 音频库、NRF24L01 无线模块及驱动等支持,有效保证语音识别系 统实现。
最后将实现的基于 CFCC 的语音识别系统,应用到物联网分支智能家居系统中。该 系统将用户从传统的利用手和眼的交互方式解放出来,可以在不固定的地点,不中断用 户当前行为的情况下利用语音信号以非接触方式完成对智能家居系统的操作。
Design of speech recognitionsystem based on CFCC and application in the Internet ofThings
Feature extraction is one of the key technology in Automatic Speech Recognition(ASR). In recent years, feature extraction combined with auditorycharacteristics is a hotspot. With the extensive popularization of the Internet of Things (IoT), the design and realization of ASR for IoT is attracting more and moreattention from researchers.
This paper summarizes the research and development of feature extraction and its appli- cation on IoT. And a feature based on auditory model called CochleaFeature Cepstral Coeff- ieients(CFCC) is implemented. The CFCC is applied to the speaker-independent and voice interactive smart home system which isone of the important branch of IoT. The main work are as follow:First, the mathematical definition and realization method of CFCC is introduced in this paper, and the simulation study in MATLAB is implemented. MFCCand GFCC are also extracted to compared with CFCC under different level of Signal to Noise Ratio(SNR). The clean testing condition recorded under a quietenvironment in the laboratory has a high SNR, the accuracy of all features are more than 90%. After adding white noise, the SNR of the testing conditiondrops to 6dB, the performance of MFCC drops to 67.5%, GFCC is 86.8%, and CFCC is 90.4%. If the SNR is 0dB, the MFCC accuracy is less than 20%,GFCC is
45.0%, and CFCC is 65.2%, but it is still higher than the other two. The experiments shows that CFCC has better noise immunity.
Second, design an ASR based on CFCC which is integrating CFCC into the Sphinx to replace its default feature MFCC. Then ported it to embedded platform. The embedded plat- form based on OMAP3530 and installed Linux. What’s more, the QT graphical library, ALSA library, NRF24L01 wireless moduleand its driver are added which can guarantee the imple- mentation of ASR effectively.
Finally, applied the ASR based on CFCC into smart home system. This system liberate users from the traditional way of hands and eyes interaction. Userscould operate the smart home system in non-contact way without fixd place and interrupting their current behavior
摘 要 ...................................................................................................................................... II Abstract............................................................................................................................... III 第1章 绪论........................................................................................................................ 1
6.2 展望............................................................................................................................ 67 参考文献.............................................................................................................................. 69 致 谢..................................................................................................................................... 73 攻读学位期间的研究成果........................................................................................... 75
语音识别的研究工作起步于上个世纪 50 年代。90 年代开始,语音识别技术逐渐从 实验室走向应用。根据其实用化的需要,人耳听觉模型的研究逐渐为学者所重视,出现 了不同类型的基于听觉模型的参数:感知加权线性预测参数(Perceptual Linear Predictive, PLP)、梅尔频率倒谱系数(Mel Frequency Cepstrun Coefficient,MFCC)、Gammatone 滤 波器参数、Gammachirp 滤波器参数[1][2]。同时出现了一批比较成功的语音识别软件:IBM 的 ViaVioce,Microsoft 的 SpeechSDK,Google 的 Google Speech API,Nuance 的 Naturally Speaking 以及开源语音识别系统HTK,Sphinx[3]和 Julius。
进入 21 世纪后随着电子产品的普及,嵌入式语音处理技术迅速发展。语音识别技 术也顺势进入该领域,其表现形式为出现独立的语音识别芯片如 Sensory 公司的 Rsc 系 列语音识别芯片、 公司的 Unispeech 和 Unilite 语音芯片等;或者为语音识别软 件出现嵌入式版本分支,例如 SpeechSDK,Google Speech API,Sphinx 等先后实现对嵌 入式设备的支持。我国语音识别研究工作一直紧跟国际水平,国内的语音识别始于七十 年代,国家也很重视,并把大词汇量语音识别的研究列入“863”计划,由中科院声学 所、自动化所及清华大学等单位研究开发[4]。经过四十余年的发展,汉语语音识别领域 取得了丰硕的成果。在实用方面,也涌现出不少以语音识别技术为核心的公司,例如语 音识别芯片提供商 ICRoute,语音识别引擎提供商科大讯飞。
语音识别技术以其极具诱惑力的发展潜力,吸引了国内外一批又一批学者投入其中, 并且取得了很大的成就,部分技术已经走出实验室进入实用化阶段,很大的鼓舞了研究 人员的热情,然而其发展并非一帆风顺,现在还有许多困难需要解决:
1.噪声环境:由于环境复杂、噪声源较多,使得在实验室环境下可以轻松识别的 系统应用在实际环境中识别率明显下降[5];
2.连续语音:汉语连续语音的连续程度高,协同发音现象严重,表现为孤立词汇 识别率很高,而在连续语音条件下识别率下降[6];
“训练”,使语音识别系统可以针对性的对用户语音进行识别,一旦更换系统或用户, 则需要重新“训练”,为用户使用带来诸多不便[7]。
目前大多数语音识别技术是基于统计模式的。从语音产生机理来看,语音识别可以 分为语音层和语言层两部分,基于这种模式的语音识别系统包括四个部分:特征提取, 声学模型训练,语言模型训练和搜索算法[7]。尝试解决当前语音识别技术所面临的的困 难,可以从以下几个方面入手:
(1) 语音特征:声学模型是语音识别最底层的模型,代表着语音学信息,是系统中 的关键部分。声学模型建模时训练单元的区分能力,直接取决于特征提取方法的优劣。 特征提取要求提取的特征不但能够有效的降低数字语音信号的数据量,还要保证包含原 始语音的全部有效信息。另外,特征提取最好还能够具有抗噪性,这样就可以从源头上 保证语音识别系统的鲁棒性[7]。
(2) 说话人适应性:每个人的语音中不但包含语言信息,还包含个人特征信息,目 前的语音识别系统无法将两者有效区分。对于特定人的语音识别系统,它采集特定人的 语音,进行训练、识别,其识别率一般可以达到 以上。然而对于非特定人识别,由 于语音中个人特征的影响,造成训练语音库和测试语音库总会存在差异,训练语音库不
能全面覆盖和反映测试语音库的语音[5]。通常通过下面的方法解决此类问题:其一,深 入研究语音发音机理,从中找出与说话人无关的反映语音—文本对应关系的参数序列, 本质上是寻找一种语音特征参数,可以包含原始语音的全部语音学信息,而剔除说话人 的个性信息[4][8]。其二,增大训练集的规模,使之涵盖尽可能多的发音人的声学特征, 从而减小个性信息的影响,由于这需要很大的语料库而且训练时间太长,影响实用性, 故这种方式不予推荐[7]。
(3) 语法知识的利用。选择合适的语法知识可以明显的纠正音素序列的错误判别, 降低最终语句的错误识别数。实际上,连续语音识别系统或多或少结合了某种语法知识。 语法知识定义越清楚、应用越充分,系统的识别率就会越高。目前典型的用于描述语法 规则结构的方法是使用状态树转移结构的统计模式[6][9]。
的概念。在物联网的发展过程中其内涵几经变化,目前认为物联网指将所有物体通过信 息传感设备如射频识别、全球定位系统、红外感应器等与互联网相结合,形成一个智能 化识别和管理的网络。其目的是让所有的物品都与网络连接在一起,方便识别和管理。 物联网的核心是实现物体(包含人)之间的互连,从而能够实现物体与物体之间的信息交 换和通信。物体信息通过网络传输到信息处理中心后可实现各种信息服务和应用。物联 网被预言为继互联网之后全球信息产业的又一次科技与经济浪潮,受到各国政府、企业 和学术界的重视[10][11]。
物联网的应用领域主要包括物流监控、污染监控、远程医疗、智能交通和智能家居 等。其中,智能家居是以住宅为平台,兼备建筑、网络通信、信息家电、设备自动化, 集系统、结构、服务、管理为一体的高效、舒适、安全、便利、环保的居住环境。智能 家居因其应用前景广阔、潜在市场需求巨大且发展迅猛而受到厂商的广泛关注[12]。
目前,大多数智能家居系统的人机交互是通过键盘、触摸屏和 LCD 来完成[13][14]。 对用户的操作地点、交互方式有很大的限制。本文中,尝试将语音识别系统应用到智能 家居系统中,使用户可以通过语音来完成和智能家居系统的交互,即构建人机语音交互 的智能家居系统。该系统将用户从传统的利用手和眼的交互方式中解放出来,可以在不 固定的地点,不中断用户当前行为的情况下利用语音信号以非接触式完成对系统的操作。
第一:目前基于 MFCC 和 GFCC(Gammatone Frequency Cepstrum Coefficient)的语音 识别系统噪声鲁棒性较差。本文将深入学习基于听觉模型的耳蜗倒谱系数(Cochlea Feature Cepstral Coeffieients,CFCC)的定义及各个环节的意义,在 MATLAB 环境下对该 参数进行仿真研究,分步论述 CFCC 的提取方法及实现过程。然后在不同信噪比条件下, 与 MFCC 和 GFCC 进行对比,观察其抗噪性是否优于他们。
第二:语音识别系统是一个完整的语音到文本的处理过程,不但包含特征提取环节, 还包含预处理、模式匹配等环节,实现语音识别系统每个环节都必不可少。Sphinx 是一 个开源的、完整的语音识别系统,并且拥有完善的工具。本文中,首先学习 Sphinx 的 使用,掌握声学模型和语言模型的训练方法,掌握 Sphinx 语音识别系统的构建方法。 然后深入阅读 Sphinx 源代码,了解其组织架构,找出其中默认参数MFCC 的提取部分, 并修改为提取 CFCC 参数,实现基于 CFCC 的 Sphinx 语音识别系统。
第三:本文以物联网的典型应用——智能家居系统为应用环境,学习 Linux 操作系 统知识,掌握基本的操作方法及程序开发流程,在以OMAP3530 为核心的嵌入式开发 平台上构建嵌入式 Linux 操作系统,并添加 QT 图形界面库、ALSA(Advanced Linux Sound Architecture)音频驱动库、NRF24L01 无线模块及驱动等必要支持。然后将基于 CFCC 的 Sphinx 语音识别系统移植到该开发平台,并以此为核心,构建语音交互的智能家居系统。
本文的结构安排如下: 第一章:介绍语音识别技术的现状,语音识别的关键技术,并概括了本文的主要研
究内容。 第二章:详细介绍典型语音识别系统的各个组成部分,对理解语音识别各个环节如
何工作有很大的指导作用。介绍了目前几种主流的基于人耳听觉模型的特征参数提取方 法以及隐马尔科夫模型应用于语音识别领域的基本原理和方法。另外,还介绍了 Sphinx 的原理及使用方法。
第三章:首先阐述 CFCC 的数学定义,然后详细介绍其在 MATLAB 环境下的提取 方法及仿真实现,并将此特征参数与传统特征参数进行比较,实验表明该参数在噪声环 境下鲁棒性更好。最后,介绍如何将该参数整合到 Sphinx 系统中。
第四章:首先介绍系统硬件平台,然后介绍软件开发平台建立过程。这为后续应用 系统开发做好必要准备。
第五章:主要介绍基于 CFCC 的语音识别系统在物联网的应用实现,包括设备驱动 实现及应用系统实现两部分。最终实现语音交互的智能家居系统。
第六章:总结本论文所做工作,针对系统中不完善的地方提出可能的改善方案,对 后续研究做简明交待。
人类的语音信号是由肺部的收缩,压迫气流由支气管经过声门和声道引起音频振荡 而产生的一种声波。通常认为语音信号的信息主要集中在40-4kHz的范围内[15]。
声波是机械波,数字电路系统对语音进行处理,首先需要将其转换为数字信号,并 确定有效语音数据段,该过程即预处理,一般包括预滤波(抗混叠滤波)、量化、预加重 和端点检测。
(一) 预滤波 根据奈奎斯特采样定律可知,采样频率应为输入带限信号最高频率的二倍以上。考
虑到在噪音环境中宽带随机噪声叠加的结果,使得语音信号可能包含4kHz以上频率成分, 为了防止频谱混叠,必须在采样前进行一次预滤波去掉有效信号之外的高频噪音。预滤 波还有一个目的是避免50Hz的工频干扰,因此预滤波是一个带通滤波器,其下截止频率
(二) 采样及量化 采样是将连续时间的语音信号转换成离散时间信号,采样之后的语音数据是离散时
间的模拟数据,利用计算机进行存储和处理则要经过量化,即AD转换。原信号和量化 后的信号的差值称为量化误差。量化时,采用较大的量化级数来记录采样点的幅度,则 量化误差越小,但相应的就会增加存储容量和处理时的计算量,因此要根据需求选择合 理的量化级数[15]。本文中量化级数为16,即每个采样点为16bit。
文选取μ=0.9375。 (四) 端点检测 语音信号的端点检测是语音处理中常常涉及的问题。实验表明,准确地检测出语音
信号的端点不但可以减少后续处理的计算量,而且一定程度上影响整个系统的性能。目 前常用的端点检测方法是基于短时能量和短时平均过零率的检测方法(也称作双门限比 较法)。
欢迎光临 (http://www.51hei.com/bbs/) | Powered by Discuz! X3.1 |