ApplicationResearchofComputersVol.36No.1Jan.2019
基于深度循环网络的声纹识别方法研究及应用
1,2
余玲飞,刘
*
强
2
(1.浙江工商大学杭州商学院,杭州310018;2.电子科技大学计算机科学与工程学院,成都611731)摘要:声纹识别是当前热门的生物特征识别技术之一,能够通过说话人的语音识别其身份。针对声纹识别技
提出了一种基于卷积神经网络(CNN)和深度循环网络(RNN)的声纹识别方案CDRNN。CDRNN术进行了研究,
结合了CNN和RNN的优势,可用于移动终端声纹识别。CDRNN将说话者的原始语音信息经过一系列的处理
利用CNN长于处理图像的优势从语谱图中提取语音信号的个性特征,这些个性特征再并生成一张二维语谱图,
从而确定说话者的身份。实验结果表明了CDRNN方案能够获得比GMM-输入到deepRNN中完成声纹识别,UBM等其他方案更好的识别准确率。
关键词:声纹识别;深度循环网络;卷积神经网络;语谱图中图分类号:TP391.42文献标志码:A文章编号:1001-3695(2019)01-035-0153-06doi:10.19734/j.issn.1001-3695.2017.07.0661
Researchandapplicationofdeeprecurrentneuralnetworksbased
voiceprintrecognition
2
YuLingfei1,,LiuQiang2
(1.HangzhouCollegeofCommerce,ZhejiangGongshangUniversity,Hangzhou310018,China;2.SchoolofComputerScience&Engineering,UniversityofElectronicScience&TechnologyofChina,Chengdu611731,China)
Abstract:Voiceprintrecognitionisoneofthemostpopularbiometricidentificationtechnologies,whichcanidentifyaspeaker
basedonhisvoice.ThispaperproposedCDRNN,avoiceprintrecognitionscheme.CDRNNcombinedCNNanddeepRNNintoaunifiedmodelandtookadvantagesofbothofthem.ForCNNwasgoodatextractingcharacteristicsfromimages,itcouldgenerateseveralspectrogramsbasedontheoriginalvoicesignalatfirst.Andthen,CNNwouldextractuniquefeaturesfromthesespectrograms.Finally,deepRNNwouldoutputthespeaker’sidentificationbasedontheseuniquefeatures.SimulationresultsshowthatCDRNNperformsbetterthanGMM-UBMandDNN-basedapproach.
Keywords:voiceprintrecognition;deepRNN;convolutionalneuralnetwork(CNN);spectrogram
0引言
LPC)系数、predictivecoefficients,感知线性预测系数(perceptual[4]
linearpredictive,PLP)和梅尔频率倒谱系数(Melfrequency
6]
MFCC)[5,cepstralcoefficients,等参数先后被提出。而对于模
随着移动互联网的蓬勃发展和智能手机的不断普及,便捷
的网络交互已成为人们日常生活中不可或缺的活动。在网络环境下,如何能准确地确认交互方的身份成为日益重要的一个问题。
相比于传统的账号密码方案,基于人们自身具有的生物特[1]
征的身份认证机制有着更为安全可靠的优势。人的生物特指纹、掌纹、视网膜、人脸等,对于每个人而言具有唯征如声纹、
并且还具有稳定、不易被仿造等特点,因此得到了学术界一性,
和产业界越来越多的关注。其中声纹识别技术是根据声音对说话人进行识别,故也称为说话人识别。与指纹、视网膜等生声纹识别能够进行远程认证,使用成本低且易用物特征相比,
性高;并且智能手机的全面普及,使得语音的采集也非常方便,进行认证时用户只需录制一段语音即可完成身份认证。因此,声纹识别技术在金融、网络交易、国防等领域有着广泛的需求和前景
[2]
型匹配,语音识别技术被用于人的声纹识别中,如动态时间规
DTW)[7]、矢量量化(vectorquantiza-整(dynamictimewarping,
tion,VQ)[8]、人工神经网络(artificialneutralnetwork,
10]
ANN)[9,等技术。
GMM)由于具有简高斯混合模型(Gaussianmixturemodel,
[11]
成为声纹识别的关键方法之一。单可靠和性能稳定的优点,Reynolds等人基于GMM,
[12]
UBM模型(Gaus-则提出了GMM-
sianmixturemodel-universalbackgroundmodel),从而将声纹识
别推向实际应用。
近年来,随着深度学习技术的发展并在图像处理、语音识
[13~15][16]
,如Palaz等人分析了卷积别领域取得了较好的效果
CNN)用于语音识别并神经网络(convolutionalneuralnetwork,
取得了较好的效果。受此启发,一些研究也开始将深度学习技术应用于说话人识别
[17~19]
。
。Richardson等人[17]将深度神经网
声纹识别技术的研究已有不少,早期人们对说话人识别的
研究工作聚集在特征参数提取和模型匹配这两方面。从声学模拟听觉特征线特征参数提取方面来看,
[3]
DNN)用于说话人的识别,通过构建一络(deepneutralnetwork,
BNF)的i-vector系统,个基于瓶颈特征(bottleneckfeature,从语level)的特征;文献[18]利用音信号中提取帧级别(frame-
、线性预测(linear
收稿日期:2017-07-01;修回日期:2017-09-11
(LQ16F02001)
基金项目:国家自然科学基金资助项目(61370204);浙江省自然科学基金资助项目
),作者简介:余玲飞(1979-女,浙江台州人,副教授,博士(后),主要研究方向为车载自组织网络、移动大数据(linphie@163.com);刘强
(1990-),男,硕士,主要研究方向为移动大数据.
·154·
计算机应用研究第36卷
GMM和DNN,在具有混响的远程通话环境下,通过方言的语音特征来识别方言;文献[
19]利用语音的多元音素(senone),结合DNN和简化高斯概率线性鉴别分析对一段短语音信号进行建模并识别说话人。由于语音信息是一段连续的具有上下文关联的信号,而循环神经网络(recurrentneuralnetwork,RNN)擅长对序列信号的处理,所以文献[
20,21]引入RNN对说话者进行身份识别。文献[20]利用CTC分类技术对输入的语音序列进行分类,
并输出一段语音的K音素序列分布(pho-nemesequence),通过对音素序列分布识别说话人;文献[
21]则进一步扩大了RNN的应用场景,将长短时记忆单元(longshort-termmemory,LSTM)引入,基于语音信号的上下文关联特
征,
对大规模的语音数据进行训练和识别。此外,也有一些研究工作将CNN与RNN结合来构建神经网络,如文献[22]利用CNN-RNN完成多标签图片分类、文献[23]将其用于基于视频的情绪感知、文献[24]则用于运动视频的事件检测等,但是用来进行声纹识别的工作几乎没有。
尽管已有不少声纹识别的研究工作,但这些工作在环境噪声、信道失配、假冒闯入、短语音等方面仍然面临着很多困难和挑战。特别是对于卷积神经网络和循环神经网络,
它们在建模能力实际上各有所长,
如CNN擅长图像特征提取,而RNN在时序建模上更具优势。因此,本文结合CNN和RNN的优点,
提出了一种基于CNN和deepRNN的声纹识别机制(CDRNN),同时将CNN和RNN应用于声纹识别。CDRNN首先将说话人的原始语音转换为语谱图,
再利用CNN的结构优势从语谱图中自动提取出说话人的个性特征;随后将这些个性特征输入到deepRNN中完成分类,在此基础上实现说话人的声纹识别。
1网络模型
人工神经网络是一个模仿生物神经网络的结构及功能的系统,
由大量人工神经元组成。多个神经元排成一列从而构成神经层,多个神经层则组成人工神经网络。图1是一个简单的
人工神经网络示意图。左侧一列神经元为输入层,
接收外部信号或数据;右侧一列神经元为输出层,
输出系统的处理结果;两者之间为隐藏层,不为外部所观察,完成信息的处理和转换。
1.1深度神经网络(DNN)
深度神经网络则是包含多个隐藏层的神经网络。网络模型的参数越多,表明它具有更强的信息计算和存储能力,可以完成更为复杂的任务。一方面可以通过增加隐藏层的数量,从网络结构的深度方面增加网络参数;另一方面可以通过在每个隐藏层中增加更多的神经元,从增加网络结构的宽度方面获得
更多的网络参数。一般而言,
增加隐藏层的数量更具优势,在增加参数的同时能够使得网络具有更强的特征变换能力。图2是一个深度神经网络,该网络中含有三个隐藏层。1.2
卷积神经网络(CNN)
卷积神经网络是深度学习领域重要的网络模型之一,能在图像处理应用上取得显著的效果。CNN是一种多层的前馈神
经网络,
一般由若干个卷积层(convolutionallayer)和池化层(poolinglayer)交替构成。如图3所示,两个卷积层和两个池化层交替构成了一个简单的卷积神经网络。
a)卷积层。在全连接的DNN中,隐藏层的任何一个神经
元都要与前一层所有神经元关联。但在CNN中,
隐藏层的一个神经元仅仅与上一层中所有神经元构成的二维矩阵中的小
区域进行连接。
b)池化层。卷积层用于从输入信息中提取个性特征,通常会输出维度非常高的特征,后续不便处理。此时使用池化层进行降维,
简化卷积层的输出特征。同时使用池化层,输入图像具有旋转、
平移和伸缩的不变特性。使用最多的是最大池化(maxpooling)技术。最大池化将输入图像划分为多个矩形区
域,分别对每个区域提取最大值。1.3
循环神经网络
与前馈神经网络不同,
RNN则是一种反馈神经网络。RNN的输出结果不但与当前输入信息以及网络权重有关,还与之前信息输入相关。因此,
RNN隐藏层中的神经元相互连接,
同时隐藏层的输入既包括当前输入层的输出,也包括前一时刻隐藏层的输出。图4表示了一个简单的RNN模型。
在t时刻,
xt为输入向量,ht为隐藏状态向量,yt为输出向量,
则图4表示的一个单隐藏层的RNN可定义为ht=f(Wxhxt+Whhht-1)
(1)yt=g(Whyht)
(2)
其中:Wxh是输入层与隐藏层之间的权重矩阵u;Whh是隐藏层之间的权重矩阵W;Why则是隐藏层与输出层之间的权重矩阵v。通常情况下,隐藏层的激活函数有sigmoid、tanh和ReLU,而输出层的激活函数一般是线性的或者是softmax。
理论上,RNN能够构建长时间间隔依赖(long-termdepen-dencies),但由于梯度爆炸等问题,仍然只能学习短周期的依赖关系,
所以LSTM结构被引入到RNN中[24]
。LSTM-RNN利用LSTM神经元取代传统的网络神经元,即使用不同类型的门操
第1期余玲飞,等:基于深度循环网络的声纹识别方法研究及应用·155·
控信息流,通过这些不同类型的门结构,
LSTM神经元可以决定何时记住输入信息、何时忘记该信息、何时输出信息。2CDRNN设计
对于声纹识别应用,通常是说话人给出一段语音数据,通
过对语音数据进行处理,提取出语音数据的特征(即声纹)并对其进行分类匹配,从而确定该语音数据对应的说话人的身份ID。2.1
声纹识别流程
图5显示了一个基于CDRNN的声纹识别系统的流程,包
括三个主要的功能模块,
即语音信号的预处理、语谱图的生成和特征提取及分类模块。其中特征提取及分类模块是整个流
程中的核心模块,使用的神经网络模型结合了CNN和deepRNN的优点,利用其优势互补的能力,实现说话者声纹识别的任务。
1)语音信号的预处理
由于人们发声器官的物理特性的差异,使得产生的语音信
号自身的物理特性不一,而外界环境因素给语音的录制带来了噪声及其他影响,
所以不能直接对原始的语音信号进行处理,必须对其进行预加重、分帧、加窗以及端点检测等信号的预处理操作。对语音数据采样量化后,首先进行预加重处理,其目的是对信号高频部分加重,减小噪声影响,使语音信号频谱平坦化;随后将一段长的语音数据划分为若干个小片段,即为分帧。这些短语音信号能够保持短时平稳状态,可利用平稳过程方法处理。分帧带来了信号的截断效应,为了使截断处的信号能平滑过渡,需要通过加窗操作实现。最后对语音信号进行端点检测,
目的是去除信号中的静音片段,保留有效的语音片段。2)生成语谱图语音信号的频谱实际上是随时间变化的二维图像,即语谱图,其横轴表示时间,纵轴表示信号频率成分。语谱图能够动态显示不同时刻、
不同频率分量的大小,它承载的信息量远大于单时域或单频域承载的信息量。
而经过语音信号的预处理后,原始语音数据被划分为10~30ms长短的短语音帧。如果采用传统的滤波器来提取帧中的特征,
将丢失频域上的信息,因此本文将直接生成语音信号的语谱图,保留信号的频域信息,用于后续处理。
3)特征提取及分类
特征提取是根据语谱图的信息,提取说话人声音的个性特征向量参数;而分类则是实现对该说话人语音的建模。通过一个神经网络可以统一信息的特征提取和分类,本文则利用CNN擅长对图像进行处理、RNN在时序建模上具有优势的特
点,
将CNN和RNN统一为一个网络模型。用CNN从语谱图中提取声纹的特征参数,再通过RNN对特征信息进行时序建模。同时,具有深层结构的RNN还能够将特征参数映射到可分离空间。2.2
语谱图生成
传统的提取语音特征通常是首先对信号进行傅里叶变换,然后使用滤波器提取特征,会导致频域信息的损失,特别是高频区域的语音信息损失更为严重。为避免频域信息的损失,CDRNN将直接生成语音信息的语谱图,将该二维图像输入到神经网络进行处理,从中提取出语音信号的个性特征向量。
语谱图的生成过程如图6所示。首先得到采样量化后的语音信息,随后对语音信号进行傅里叶变换,再计算语音的能
量谱密度,通过取对数和灰度图映射,将获得语音信号对应的语谱图。
由于输入至神经网络的语谱图大小固定,但不同说话者语
音长度不同,所以要确保不同说话者能生成相同大小的语谱图,需要将说话者的语音信号划分为相等时长的片段,从而生
成相同尺寸的语谱图。例如两个说话者A和B,
A的语音信号总长度是10min,
B产生15min的语音信号。假设采样频率为16kHz,语音片段时长为1s,语谱图帧长设为512,则A和B将分别产生600和900个语音片段,并分别对应600张语谱图和900张语谱图。通过处理,每个说话者都会产生各自的语谱
图,将原对语音的识别转换成对二维语谱图的识别。2.3
网络模型设计
完成语谱图的生成后,语谱图将输入到神经网络中进行特征提取和分类,本文分别通过CNN和deepRNN实现语音信号的个性特征提取及分类。2.3.1CNN设计
如前所述,CNN特别擅长于处理图像,而语谱图实际上就
是一张二维灰度图像,
图像的各种属性反映了说话者语音信号的各种特征信息。因此将语谱图作为输入,由CNN自动从输
入的二维灰度语谱图中提取出语音片段的个性特征。CNN包含多个卷积层和池化层,其中卷积层能够提取语音片段的不同特征;池化层则可以对输入的二维灰度图进行平移、缩放或其他变形操作后,仍然产生相同池化后特征,从而减少频谱变化导致的影响。
CDRNN机制中,CNN结构部分实际是由n个卷积池化单元构成,如图7所示,其中n需要根据实际情况设定。
而一个卷积池化单元实际上是一个卷积层-ReLU层-max-pool层-batchnormalization层的结构,如图8所示。其中ReLU是激活函数,而maxpool为池化函数。为了使得网络能够快速
收敛,还通过batchnormalization算法加速网络的训练速度。
需要强调的是,对于卷积池化单元,其中的池化层在进行·156·
计算机应用研究第36卷
池化操作时,仅在频率(对应于语谱图高度)上进行池化,而没有在时间(对应于语谱图的宽度)上进行池化。这主要是在时间上池化很可能导致语谱图中时序信息丢失,因此只在频率上对信号进行池化;此外,卷积池化单元和特征映射的数量、特征映射数量、
卷积核大小和步长乃至池化区域大小同样需要根据具体问题和数据集通过实验进行设置。
2.3.2DeepRNN设计
当CNN对语谱图的二维灰度图像处理后,其输出作为deepRNN的输入完成进一步的时序建模。DeepRNN实际上是由若干RNN的隐藏层进行叠加而构成的,
前一隐藏层的输出作为下一隐藏层的输入。相比于普通隐藏层中神经元相互,
deepRNN隐藏层中包含的神经元之间则具有连接。1)DeepRNN输入层设计一张二维灰度图像(语谱图)输入至CNN后,将由n个卷
积池化单元进行处理,
处理后的输出实际上是C张大小为F×T的小语谱图,其中C表示特征映射的数量,
F和T则分别是输出的小语谱图的高度和宽度。可以用一个序列来表示CNN的输出,即S=[S1,S2,…,Si,ST],1≤i≤T,而序列中的元素Si
则是一个大小为C×F的向量。也就是说CNN将输出T个大小为C×F的向量,
这些向量作为RNN的输入,它们之间有一个对应关系,即CNN输出序列Si作为RNN在i时刻的输入,也就是说,RNN在i时刻的输入是一个C×F维的向量,它的步长则等于T。图9显示了CNN的输出序列与RNN的输入之间的对应关系。
2)RNN隐藏层设计
DeepRNN是由多个RNN堆叠起来的,其中每一层的输出序列作为下一层的输入序列,其结构如图10所示。
与传统的神经网络相比,
deepRNN的特点是在每一层都会有时间上的反馈循环。对于实际问题,
deepRNN中的隐藏层通常使用改进的RNN如LSTM-RNN或GRU-RNN,它们解决了基本RNN中缺乏长期依赖关系的问题,这可以使神经网络
能够记住更长一段时间跨度的输入数据。对于deepRNN,设计隐藏层的结构时要考虑两个参数,
即隐藏层层数的多少和隐藏层中神经元的节点数量。这两个参数同样需要依据实际需求进行设定。一般而言,在相同参数个数的倾向下,设置更多的层数比增加每层更多的节点数能够获得更好的效果。
3)DeepRNN输出层
DeepRNN的输出层比较简单,就是使用一个softmax分类器进行分类,通过softmax分类使得输出层的节点数对应于说话人的人数。
2.3.3网络模型训练
CDRNN模型的训练采用了监督学习的方法,首先要对所有的数据打上标签,然后把数据和所对应的标签作为训练集。假设待训练的语音信号为K个(由K个说话人产生),第i个
语音信号生成的语谱图序列为S1i=(Si,
Sm
i,…,Si),m为该语音信号生成的语谱图数量,
则第j张语谱图Sj
i对应着一个二维矩阵,给其一个标签值为i-1,这意味着同一说话人的所有语
谱图具有相同的标签,而此标签则可标志该说话人的ID,
Sji和它的标签i-1则构成一个训练样本(Sj
i,
i-1)。训练样本进行训练前,还需对样本数据进行标准化或归一化处理,即将数据按一定比例缩放,将数据映射在一个小区间内,从而去除数据的单位,将数据转换为无量纲数值。同时,数据标准化后还能够提高模型的收敛速度和准确度。本文
采用机器学习中常用的min-max标准化机制对二维灰度图像的每个像素进行标准化,数据标准化后,像素点取值区间为
0,1]。
经过给样本数据打标签和数据标准化后,则可开始对样本数据进行训练。对多个样本语音信号训练的过程实际上是一个多分类的任务。CDRNN选择的代价函数是交叉熵函数,同时利用了BP及BPTT算法计算梯度,从而完成样本数据的训练。
2.3.4网络模型识别
网络模型对语音数据集进行训练,训练完成了即可用于声纹的识别。进行识别时,首先说话人产生一段测试语音信号,该信号经过预处理后生成了N张语谱图,这些语谱图同样要进行数据标准化,然后再依次将数据标准化后的语谱图输入到CDRNN模型中,模型最终会给出每一张语谱图所对应的说话
者的身份ID。显然,N张语谱图会输入N个说话者的ID,而测
试语音对应的声纹所属的说话人ID则被认为是这N个ID中出现次数最多的那个ID。
3
仿真实验
3.1
实验设置
实验平台采用了Google的开源深度学习框架Tensor-Flow[25]
,在TensorFlow平台上对样本数据进行训练,训练好的
模型可以移植到移动手机上,移动手机则可对说话者进行语音采样,并通过训练好的模型进行声纹的识别。对样本数据进行训练的数据为DellC4130服务器,配置了四块英伟达TeslaGPU,显存大小为24GB。3.1.1语音数据集
实验所使用的语音数据是从真实环境中进行采集的。通过智能手机对40个不同的学生各自录制了10~20min的语音数据。由于环境因素的影响,采集的语音信号中不可避免地
[第1期余玲飞,等:基于深度循环网络的声纹识别方法研究及应用
·157·
包含了背景噪声数据。每个学生的语音数据被划分为1s时
长的语音片段,这些语音片段的前80%的数据作为训练数据集用于网络模型训练,而后20%的数据则作为测试数据集对训练后的网络模型进行实测验证。此外,定义识别率作为性能评价指标,即识别正确的语音片段的数量与测试数据集中语音片段的总数量的比值。3.1.2语谱图参数
对每个语音片段生成语谱图时,帧长设为512,那么生成语谱图后将得到256个像素点,这对应语谱图高度。实际上实
验时仅取了前面的128个像素点,
因为语音信号频率一般在300~3000Hz,在区间外的信号是噪声信号,可以忽略。而另
一参数帧宜设置为160,
由于采样频率是16kHz,则1s时长的语音片段将产生16k个采样点,可以得到100帧,意味着语谱图宽度为100个像素点。因此最终生成的语谱图大小为128×100,即高度是128个像素点,宽度为100个像素点。3.1.3CNN结构参数
CNN的参数如卷积池化单元数量、步长、卷积核大小和特征映射数量等需依据实际数据集的调参来确定。经实际调参,CNN结构的参数设置如下:
a)卷积池化单元的数量n=4,第一个池化单元的特征映
射数量设为32,
而后三个池化单元中特征映射的数量则设置为。
b)卷积层中,卷积核大小为5×5,步长设为1×1,并同时在频率和时间方向上进行卷积操作。
c)池化层中,池化区域的大小设为1×1,步长仍为1×1,仅在频率方向上进行池化。3.1.4DeepRNN结构参数
DeepRNN的两个重要参数即为RNN的层数以及每层的
节点数。RNN层数越多,
识别说话人ID的能力就越强,但层数多意味着训练开销大,
并较易产生过拟合现象。通过对这两个参数的不同组合获得不同的RNN结构,并测试不同网络结
构下的识别率,
选择识别率最高的网络结构对应的RNN层数和每层节点数作为deepRNN参数。
如图11所示,RNN的层数分别为1、3、5和7,每层的节点数则为128、256和512,这样一共可获得12种组合,对应12个
网络模型。由图11可见,
随着RNN层数的增加,系统的识别率基本呈上升趋势。类似地,
当RNN层数不超过5时,每层的节点数越多,
识别率也就越高。但是RNN层数为7,每层节点数为512时,其识别率反而低于每层节点数为256时的识别
率。这说明并非层数和每层节点数越多,
识别结果就越好。其原因在于随着层数和每层节点数的增加,
参数数量呈几何级数上升,而训练集大小有限,就容易导致过拟合现象。基于实验
结果,将RNN层数设置为7,而每层节点数设置为256。3.2
实验结果
首先比较了基于CDRNN、
GMM-UBM[12]
、DNN[19]
和GMM-DNN[18]
的四种机制在本语音数据集上的识别准确率,结果如图12所示。显然,随着说话者人数的增加,四种机制的识别准
确率均有所下降,
而GMM-UBM的识别率下降非常快,这是由于GMM-UBM中关键参数混合度的取值对结果有较大影响。而CDRNN的识别率则下降较慢,且比GMM-UBM的识别率高约为18%,特别是在说话人数量较多的时候。此外,
CDRNN也比DNN和GMM-DNN高约6%,说明后端使用RNN后,能够
获得比使用DNN更好的结果。
本质上,
CDRNN使用的是CNN+RNN这样的前后端网络模型,前端是CNN,后端是RNN。将CNN+RNN的模型和仅
使用RNN建模以及前端采用DNN、
后端使用RNN的深度网络模型进行了性能比较,
结果如图13所示。图13表示了上述三个模型在RNN层数为1、3、5,每层节
点数为256个时的识别准确率。可以看出,
随着RNN层数的增加,
三种网络模型的识别准确率都得到了一定程度的提高,而只使用RNN模型的识别准确率最低。在后端使用相同的RNN的前提下,前端采用CNN获得的识别率要比前端采用DNN的识别率更高一些。
本文将网络模型的前端固定为CNN,后端则分别为DNN
和RNN,其层数分别为1、3、5,每层的节点数分别为128、
256和512,得到的结果如图14所示。
由图14可见,识别率同样随着层数和每层节点数的增加而
增加。无论两个模型的后端网络的层数、
每层的节点数如何变化,当参数相同时,
CNN+RNN模型获得的识别率要比CNN+DNN高约4%,体现了CNN+RNN结构的优势。
4结束语
本文利用CNN处理图像能力强以及RNN易于对时序数
据进行建模的特点,
提出了CDRNN机制,结合了CNN和RNN的优势,将其应用于声纹识别。通过真实语音数据集,利用CDRNN进行训练和测试,对声纹识别的准确率高于其他方案。参考文献:
1]JainA,RossA,PrabhakarS.Anintroductiontobiometricrecogni-tion[J].IEEETransonCircuits&SystemsforVideoTechnolo-gy,2004,14(1):4-20.
2]FuruiS.Recentadvancesinspeakerrecognition[J].PatternReco-gnitionLetters,1997,18(9):859-872.
3]林琳,陈虹,陈建.基于鲁棒听觉特征的说话人识别[J].电子
学报,
2013,41(3):619-625.(LinLin,ChengHong,ChenJian.Speakerrecognitionbasedonrobustauditoryfeature[J].ActaElec-tronicaSinica,2013,41(3):619-625.)
4]HermanskyH.Perceptuallinearpredictive(PLP)analysisofspeech
[J].JournaloftheAcousticalSocietyofAmerica,1990,87(4):1738-1752.
[[[[·158·
计算机应用研究第36卷
[5]VerginR,O’ShaughnessyD,FarhatA.GeneralizedMelfrequency
cepstralcoefficientsforlarge-vocabularyspeaker-independentconti-nuousspeechrecognition[J].IEEETransonSpeech&AudioPro-1999,7(5):525-532.cessing,
[6]曹洁,余丽珍.基于MFCC和运动强度聚类初始化的多说话人识
别[J].计算机应用研究,2012,29(9):3295-3298.(CaoJie,YuLizhen.Multi-speakerrecognitionbasedonMFCCandmotionin-tensityclusteringinitialization[J].ApplicationResearchofCom-puters,2012,29(9):3295-3298.)
7]DuttaT.Dynamictimewarpingbasedapproachtotext-dependent[
speakeridentificationusingspectrograms[C]//ProcofCongressonImageandSignalProcessing.WashingtonDC:IEEEComputerSocie-ty,2008:354-360.
[8]GershoA,GrayRM.Vectorquantizationandsignalcompression
[M].Norwell,MA:KluwerAcademicPublishers,1991.
[9]GardnerMW,DorlingSR.Artificialneuralnetworks:areviewofap-plicationsintheatmosphericsciences[J].AtmosphericEnviron-1998,32(14-15):2627-2636.ment,
[10]JainA,MaoJianchang,MohiuddinKM.Artificialneuralnetworks:
atutorial[J].Computing,1996,29(3):31-44.
[11]ReynoldsDA,RoseRC.Robusttext-independentspeakeridentifi-cationusingGaussianmixturespeakermodels[J].IEEETransonSpeech&AudioProcessing,1995,3(1):72-83.
[12]ReynoldsDA,QuatieriTF,DunnRB.Speakerverificationusing
adaptedGaussianmixturemodels[J].DigitalSignalProcessing,2000,10(1-3):19-41.
[13]SchmidhuberJ.Deeplearninginneuralnetworks:anoverview[J].
NeuralNetworks,2014,61(1):85-117.
[14]Abdel-HamidO,MohamedA,JiangHui,etal.Applyingconvolu-tionalneuralnetworksconceptstohybridNN-HMMmodelforspeechrecognition[C]//ProcofIEEEInternationalConferenceonAcous-tics,SpeechandSignalProcessing.Piscataway,NJ:IEEEPress,2012:4277-4280.
[15]SimonyanK,ZissermanA.Verydeepconvolutionalnetworksfor
large-scaleimagerecognition[EB/OL].(2015-04-10).https://ar-xiv.org/abs/1409.1556.
(上接第131页)[14]侯荣涛,路郁,王琴,等.OPTICS算法在雷电临近预报中的应用
[J].计算机应用,2014,34(1):297-301.(HouRongtao,Lu
Yu,WangQin,etal.ApplicationofOPTICStolightningnowcasting[J].JournalofComputerApplications,2014,34(1):297-301.)
15]毛伊敏,彭喆,陈志刚,等.基于不确定决策树分类算法在滑坡[
危险性预测的应用[J].计算机应用研究,2014,31(12):36-PengZhe,ChenZhigang,etal.Landslidehazard3650.(MaoYimin,
assessmentbasedonuncertaindecisiontreeclassificationmethod[J].ApplicationResearchofComputers,2014,31(12):36-3650.)
[16]刘卫明,高晓东,毛伊敏,等.不确定遗传神经网络在滑坡危险
性预测中的研究与应用[J].计算机工程,2017,43(2):308-316.(LiuWeiming,GaoXiaodong,MaoYimin,etal.Researchandapplicationofuncertaingeneticneuralnetworkinlandslidehazardprediction[J].ComputerEngineering,2017,43(2):308-316.)[17]于少伟,史忠科.基于正态分布区间数的逆向云新算法[J].系统工程理论与实践,2011,31(10):2021-2026.(YuShaowei,
ShiZhongke.Newalgorithmofbackwardcloudbasedonnormalin-tervalnumber[J].SystemsEngineering-Theory&Practice,2011,31(10):2021-2026.)
[18]AlzaalanME,AldahdoohRT,AshourW.EOPTICS:enhancement
orderingpointstoidentifytheclusteringstructure[J].International
[16]PalazD,Magimai-DossM,CollobertR.AnalysisofCNN-based
speechrecognitionsystemusingrawspeechasinput[C]//ProcofAnnualConferenceofInternationalSpeechCommunicationAssocia-tion.Piscataway,NJ:IEEEPress,2015:11-15.
[17]RichardsonF,ReynoldsD,DehakN.Deepneuralnetworkapproa-chestospeakerandlanguagerecognition[J].IEEESignalProces-singLetters,2015,22(10):1671-1675.
[18]PhapatanaburiK,WangLongbiao,SakagamiR,etal.Distant-talking
accentrecognitionbycombiningGMMandDNN[J].MultimediaTools&Applications,2016,75(9):5109-5124.
[19]KanagasundaramA,DeanD,SridharanS,etal.DNNbasedspeaker
recognitiononshortutterances[EB/OL].(2016-10-11).https://arxiv.org/abs/1610.03190.
[20]GravesA,MohamedAR,HintonG.Speechrecognitionwithdeep
recurrentneuralnetworks[C]//ProcofIEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.Piscataway,NJ:IEEEPress,2013:65-69.
[21]SakH,SeniorA,BeaufaysF.Longshort-termmemorybasedrecur-rentneuralnetworkarchitecturesforlargevocabularyspeechrecogni-tion[EB/OL].(2014-02-05).https://arxiv.org/abs/1402.1128.[22]WangJiang,YangYi,MaoJunhua,etal.CNN-RNN:aunified
frameworkformulti-labelimageclassification[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2016:2285-2294.
[23]FanYin,LuXiangju,LiDian,etal.Video-basedemotionrecogni-tionusingCNN-RNNandC3Dhybridnetworks[C]//Procofthe18thACMInternationalConferenceonMultimodalInteraction.NewYork:ACMPress,2016:445-450.
[24]JiangHaohao,LuYao,XueJing.Automaticsoccervideoeventde-tectionbasedonadeepneuralnetworkcombinedCNNandRNN[C]//Procofthe28thIEEEInternationalConferenceonToolswithArtificialIntelligence.Piscataway,NJ:IEEEPress,2016:490-494.[25]TensorFlow[EB/OL].https://tensorflow.google.cn/.
[26]HochreiterS,SchmidhuberJ.Longshort-termmemory[J].Neural
Computation,1997,9(8):1735-1780.
2012,40(17):975-980.JournalofComputerApplications,
[19]BrecheisenS,KriegelHP,KrogerP,etal.Density-baseddataana-lysisandsimilaritysearch[M]//MultimediaDataMiningandKnow-ledgeDiscovery.London:Springer,2007:94-115.[20]YeonYK,HanJG,RyuKH.Landslidesusceptibilitymappingin
Injae,Korea,usingadecisiontree[J].EngineeringGeology,2010,116(3-4):274-283.[21]GuzzettiF,CarraraA,CardinaliM,etal.Landslidehazardevalua-tion:areviewofcurrenttechniquesandtheirapplicationinamulti-scalestudy,CentralItaly[J].Geomorphology,1999,31(1-4):
181-216.[22]许文宁,王鹏新,韩萍,等.Kappa系数在干旱预测模型精度评
——以关中平原的干旱预测为例[J].自然灾害学价中的应用—
2011,20(6):81-86.(XuWenning,WangPengxin,HanPing,报,
etal.ApplicationofKappacoefficienttoaccuracyassessmentsofdroughtforecastingmodel:acasestudyofGuanzhongPlain[J].Jour-nalofNaturalDisasters,2011,20(6):81-86.)[23]高华喜,殷坤龙.降雨与滑坡灾害相关性分析及预警预报阈值之
2007,28(5):1056-1060.(GaoHuaxi,Yin探讨[J].岩土力学,
Kunlong.Discussonthecorrelationsbetweenlandslidesandrainfallandthresholdforlandslideearly-warningandprediction[J].Rock
andSoilMechanics,2007,28(5):1056-1060.)[24]SabokbarHF,RoodposhtiMS,TazikE.Landslidesusceptibility
mappingusinggeographically-weightedprincipalcomponentanalysis
[J].Geomorphology,2014,226(12):15-24.
因篇幅问题不能全部显示,请点此查看更多更全内容