發(fā)布時(shí)間:2017-11-22所屬分類:科技論文瀏覽:1次
摘 要: 語音端點(diǎn)檢測(cè)結(jié)果好壞對(duì)后續(xù)的語音處理非常有幫助,為了解決語音端點(diǎn)在低信噪比情況下檢測(cè)率不高的問題,該文提出了基于深度置信網(wǎng)絡(luò)去噪的語音增強(qiáng)方法和傳統(tǒng)的端點(diǎn)檢測(cè)方法相結(jié)合的方法。該方法由大量的語音數(shù)據(jù)訓(xùn)練深度置信網(wǎng)絡(luò)模型,使其能夠很好地映射
語音端點(diǎn)檢測(cè)結(jié)果好壞對(duì)后續(xù)的語音處理非常有幫助,為了解決語音端點(diǎn)在低信噪比情況下檢測(cè)率不高的問題,該文提出了基于深度置信網(wǎng)絡(luò)去噪的語音增強(qiáng)方法和傳統(tǒng)的端點(diǎn)檢測(cè)方法相結(jié)合的方法。該方法由大量的語音數(shù)據(jù)訓(xùn)練深度置信網(wǎng)絡(luò)模型,使其能夠很好地映射帶噪與無噪語音之間的關(guān)系,進(jìn)而使其成為一個(gè)良好的降噪濾波器,再對(duì)比帶噪與去噪后語音對(duì)端點(diǎn)檢測(cè)準(zhǔn)確率的作用,以及不同信噪比的端點(diǎn)檢測(cè)的正確率。從該實(shí)驗(yàn)結(jié)果可以得到,該方法在平穩(wěn)噪聲和非平穩(wěn)噪聲的低信噪情況下都可以提高語音端點(diǎn)檢測(cè)的準(zhǔn)確率。
關(guān)鍵詞: 語音端點(diǎn)檢測(cè),深層置信網(wǎng)絡(luò),語音處理
語音端點(diǎn)檢測(cè)(Voice Activity Detection,VAD)作為語音處理中十分重要的一環(huán),其檢測(cè)效果的好壞直接決定著后續(xù)語音處理的結(jié)果的好壞,它是一種區(qū)分語音中的語音段和非語音段的技術(shù)。在語音處理等領(lǐng)域,語音端點(diǎn)檢測(cè)技術(shù)是最常用也是最重要的前端技術(shù)之一,它的檢測(cè)效果的好壞可以在很大程度上減少后續(xù)信號(hào)處理的運(yùn)算量以及提高后續(xù)處理的精度及其通信系統(tǒng)的質(zhì)量。本文著重研究了噪聲環(huán)境下的端點(diǎn)檢測(cè)的研究方法,通過將深度學(xué)習(xí)應(yīng)用于語音增強(qiáng)的方法來提高噪聲環(huán)境下的端點(diǎn)檢測(cè)正確率。
語音和噪聲往往有著復(fù)雜的關(guān)系,加性噪聲和乘性噪聲是通常所考慮的。然而在現(xiàn)實(shí)生活中,加性噪聲往往對(duì)語音的質(zhì)量影響比較大,假如用[y(t)]表示t時(shí)刻帶噪語音信號(hào),[n(t)]表示t時(shí)刻噪聲信號(hào),[x(t)]表示t時(shí)刻的無噪語音信號(hào),那么加性噪聲模型可以表示如下:
傳統(tǒng)的去噪方法有能量過零率、倒譜距離以及譜熵法等,但對(duì)于非平穩(wěn)噪聲,這些傳統(tǒng)的去噪方法對(duì)這些噪聲抑制效果很差,特別是非平穩(wěn)噪聲在低信噪比情況下的語音信號(hào),一般的傳統(tǒng)的方法無法正確區(qū)分無用和有用信息,經(jīng)常會(huì)出現(xiàn)誤判,從而造成有用語音信息的丟失。最近幾年的時(shí)間,由于深度學(xué)習(xí)的廣泛應(yīng)用,在機(jī)器學(xué)習(xí)領(lǐng)域有很好的應(yīng)用,尤其是一種無監(jiān)督的高效的逐層貪婪學(xué)習(xí)算法[1]在2006年被Hinton等人提出之后,構(gòu)造了深度置信網(wǎng)絡(luò)(Deep Belief Network),為以后的深度神經(jīng)網(wǎng)絡(luò)奠定了基礎(chǔ),而深度神經(jīng)網(wǎng)絡(luò)能很好地挖掘數(shù)據(jù)的非線性特征。因此該文將深度學(xué)習(xí)中的深度置信網(wǎng)絡(luò)應(yīng)用于語音增強(qiáng),并提出了一種基于語音增強(qiáng)的端點(diǎn)檢測(cè)方法。實(shí)驗(yàn)結(jié)果表明,無論是平穩(wěn)噪聲還是非平穩(wěn)噪聲下,該方法在不同噪聲環(huán)境及不同信噪比情況下,其檢測(cè)正確率都要高于傳統(tǒng)的倒譜距離端點(diǎn)檢測(cè)算法。
1 基于深度信念網(wǎng)絡(luò)的語音去噪
深度置信網(wǎng)絡(luò)由數(shù)個(gè)受限玻爾茲曼機(jī)[2](Restricted Boltzmann Machine,RMB)疊加構(gòu)成。RBM是一種特殊的玻爾茲曼機(jī),只有在顯層(Visible Layer)和隱層(Hidden Layer)之間有權(quán)重連接,顯層和顯層間以及隱層和隱層間都沒有連接。DBN的訓(xùn)練可以分成兩個(gè)階段進(jìn)行,分別為預(yù)訓(xùn)練和參數(shù)優(yōu)化。
1.1 預(yù)訓(xùn)練階段
采用逐層貪心算法,將整個(gè)DBN看成一個(gè)個(gè)RMB進(jìn)行訓(xùn)練,前一個(gè)隱層的輸出可以作為下一個(gè)顯層的輸入。由于初始化RBM模型時(shí)用帶噪語音去訓(xùn)練,第一個(gè)顯層的輸入為實(shí)數(shù),因此第一個(gè)顯層和隱層為高斯?伯努利RBM,其余RBM為伯努利?伯努利RBM。如果顯層節(jié)點(diǎn)用向量[v]表示,隱層節(jié)點(diǎn)用向量h表示,連接用矩陣W表示;對(duì)于已經(jīng)設(shè)定的一組狀態(tài)[v,h],高斯?伯努利RBM顯層服從高斯分布,隱層服從伯努利分布,即[v]∈R,h∈{0,1},由能量模型(Energy?Based Model,EBM)理論[3] 可得其能量函數(shù)定義。
1.2 參數(shù)優(yōu)化階段
運(yùn)用后向傳播算法[5](Back Propagation,BP)基于最小均方誤差準(zhǔn)則來更新整個(gè)DBN的網(wǎng)絡(luò)參數(shù),使得無噪語音的對(duì)數(shù)功率譜特征和帶噪語音的對(duì)數(shù)功率譜特征之間誤差最小。采用隨機(jī)梯度下降算法來加快DBN的學(xué)習(xí)收斂速度,其平均平方誤差為:
通過不斷地更新調(diào)整,DBN能夠很好地?cái)M合帶噪和無噪語音數(shù)據(jù)之間的非線性映射。
2 基于倒譜距離的端點(diǎn)檢測(cè)方法
2.1 倒譜距離測(cè)量法
譜密度函數(shù)[S(ω)]和[S′(ω)]的倒譜系數(shù)分別是式(21)中的[cn]和[c′n]。對(duì)于檢測(cè)是否是語音幀還是噪聲幀,必須需要一個(gè)判決參數(shù),而均方距離就可以作為判別參數(shù),因?yàn)閮蓚(gè)語音信號(hào)譜的差別通常可以用對(duì)數(shù)譜的均方距離表示。
2.2 倒譜距離測(cè)量法的檢測(cè)流程
(1) 首先在語音數(shù)據(jù)集中取一抽樣語音信號(hào),并取其前幾幀信號(hào)為背景噪聲。那么背景噪聲倒譜系數(shù)的估計(jì)值則能夠用這些已經(jīng)設(shè)定好的前幾幀信號(hào)的倒譜系數(shù)的平均值來表示,定義其為向量C。
(2) 計(jì)算每幀信號(hào)的倒譜系數(shù)與噪聲倒譜系數(shù)估計(jì)值的倒譜距離,可以對(duì)式(21)進(jìn)行化簡(jiǎn)處理,近似可表示為:
(3) 通過式(22)能夠計(jì)算得到各信號(hào)幀倒譜距離的倒譜距離軌跡,然后通過門限判決的方法來確定抽樣語音的語音幀和噪聲幀。
(4) 由于噪聲的種類是多種多樣并且不斷變化,因此要得到較準(zhǔn)確的檢測(cè),向量C必須與其變化相適應(yīng),本文所采用的自適應(yīng)處理過程能夠解決這個(gè)問題,即將前一信號(hào)幀的倒譜向量作為向量C,并按照
3 實(shí)驗(yàn)過程與結(jié)果分析
為了檢驗(yàn)該文方法的效果,本實(shí)驗(yàn)仿真平臺(tái)采用Matlab軟件,實(shí)驗(yàn)采用的是微軟的MSRA語音庫,利用深度信念網(wǎng)絡(luò)對(duì)語音進(jìn)行去噪[6]。訓(xùn)練數(shù)據(jù)加入-5 dB,0 dB,5 dB,10 dB,15 dB的噪聲。噪聲源選取Noisex 92 中的Babble,Leopard兩種噪聲,其中Babble噪聲是非平穩(wěn)噪聲,Leopard為平穩(wěn)噪聲,DBN采用的是只有一個(gè)隱層的三層神經(jīng)網(wǎng)絡(luò)進(jìn)行降噪,將不同信噪比的MFCC特征作為網(wǎng)絡(luò)的輸入,把干凈的MFCC特征作為目標(biāo)值進(jìn)行訓(xùn)練。之后將去噪后的語音信號(hào)的MFCC特征進(jìn)行提取系數(shù)等信息并用于倒譜距離的語音端點(diǎn)檢測(cè),在對(duì)比不同信噪比的MFCC直接用于倒譜距離的端點(diǎn)檢測(cè)結(jié)果。
本文所提的基于語音增強(qiáng)算法的端點(diǎn)檢測(cè)在不平穩(wěn)噪聲Babble 和平穩(wěn)噪聲Leopard下都有比傳統(tǒng)的檢測(cè)算法更高的準(zhǔn)確率,同時(shí)在不同信噪比下,也有更高的檢測(cè)準(zhǔn)確率。本文算法在平穩(wěn)噪聲和不平穩(wěn)噪聲的檢測(cè)中,檢測(cè)準(zhǔn)確率更加接近,而傳統(tǒng)的檢測(cè)算法,在非平穩(wěn)噪聲下,檢測(cè)準(zhǔn)確率直線下降,在強(qiáng)噪聲環(huán)境下,檢測(cè)正確率更是與本文算法相差較大,達(dá)到16%左右。通過5種信噪比及不同的噪聲環(huán)境下的端點(diǎn)檢測(cè)實(shí)驗(yàn),可以得出,在不平穩(wěn)噪聲情況下,傳統(tǒng)的檢測(cè)算法在信噪比降低的情況下,檢測(cè)正確率下降較快,而本文算法,檢測(cè)正確率下降的幅度遠(yuǎn)遠(yuǎn)小于傳統(tǒng)的檢測(cè)算法。
4 結(jié) 語
本文主要是對(duì)噪聲條件下的語音端點(diǎn)檢測(cè)進(jìn)行研究,以往傳統(tǒng)的語音端點(diǎn)檢測(cè)算法在高信噪比下的檢測(cè)正確率都比較高,而在低信噪比下的效果則不明顯,尤其是對(duì)不同的噪聲情況都沒有一個(gè)統(tǒng)一的解決方法。本文采用的基于深度置信網(wǎng)絡(luò)的語音增強(qiáng)方法,由于其能夠很好地映射帶噪與無噪語音之間的非線性關(guān)系,因此通過對(duì)噪聲特性的訓(xùn)練,能夠?qū)δ撤N特定的噪聲情況有較好的去噪效果,因而可以降低平穩(wěn)噪聲和非平穩(wěn)噪聲在語音端點(diǎn)檢測(cè)中的影響。然而本文的不足之處是只考慮了一種非平穩(wěn)噪聲Babble和一種平穩(wěn)噪聲Leopard的影響,沒有考慮其他噪聲,但在現(xiàn)實(shí)生活中,噪聲的種類是非常多的,而且是隨機(jī)的。
注:本文通訊作者為黃浩。
參考文獻(xiàn)
[1] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets [J]. Neural computation, 2006, 18(7):1527?1554.
[2] SALAKHUTDINOV R. Learning deep generative models [D]. Toronto: University of Toronto, 2009.
[3] LECUN Y, CHOPRA S, HADSELL R, et al. A tutorial on energy?based learning [C]// Predicting structured data.
Cambridge: MIT press, 2006:191?246.
[4] HINTON G. Training products of experts by minimizing contrastive divergence [J]. Neural computation, 2002,14(8): 1771?1800.
[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324. [6] 徐勇.基于深層神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2015.
[7] KENNY P, OUELLET P, DEHAK N, et al. A study of interspeaker variability in speaker verification [J]. IEEE transactions on audio speech and language processing, 2008, 16(5): 980?988.
[8] MARKOVI? I, DOMITROVI? H, PETROVI? I. Comparison of statistical model?based voice activity detectors for mobile robot speech applications [J]. IFAC proceedings volumes, 2012, 45(22): 39?44.
[9] HUANG S H, CHANG J H. Optimally weighted maximum a posteriori probabilities based on minimum classification error for dual?microphone voice activity detection [J]. Applied acoustics, 2016,113: 221?229.
[10] MING M, WANG K, JI H. Novel DTD and VAD assisted voice detection algorithm for VoIP systems [J]. Journal of China Universities of Posts and Telecommunications, 2016, 23(4): 9?16.
[11] KANG S I, CHANG J H. Voice activity detection based on discriminative weight training incorporating a spectral flatness measure [J]. Circuits systems and signal processing, 2010, 29(2): 183?194.
[12] PARK Y S, LEE S M. Speech enhancement through voice activity detection using speech absence probability based on Teager energy [J]. Journal of Central South University, 2013, 20(2): 424?432.
[13] YOU D, HAN J, ZHENG G, et al. Sparse representation with optimized learned dictionary for robust voice activity detection [J]. Circuits systems, and signal processing, 2014, 33(7): 2267?2291.
[14] 張慧,馬建芬.基于語音端點(diǎn)檢測(cè)和子空間方法的語音增強(qiáng)算法[J].計(jì)算機(jī)應(yīng)用,2009(z1):340?341.
[15] 胡光銳,韋曉東.基于倒譜特征的帶噪語音端點(diǎn)檢測(cè)[J].電子學(xué)報(bào),2000(10):95?97.
[16] 陳振鋒,吳蔚瀾,劉加,等.基于Mel倒譜特征順序統(tǒng)計(jì)濾波的語音端點(diǎn)檢測(cè)算法[J].中國科學(xué)院大學(xué)學(xué)報(bào),2014(4):524?529.
[17] 田旺蘭,李加升.改進(jìn)運(yùn)用深度置信網(wǎng)絡(luò)的語音端點(diǎn)檢測(cè)方法[J].計(jì)算機(jī)工程與應(yīng)用,2014(20):207?210.
[18] 王家良.基于深度置信網(wǎng)絡(luò)的說話人識(shí)別研究與實(shí)現(xiàn)[D].南京:南京郵電大學(xué),2015.
相關(guān)閱讀:計(jì)算機(jī)工程論文發(fā)表小技巧