時(shí)間:2022-11-03 15:43:12
開(kāi)篇:寫(xiě)作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇語(yǔ)音識(shí)別系統(tǒng),希望這些內(nèi)容能成為您創(chuàng)作過(guò)程中的良師益友,陪伴您不斷探索和進(jìn)步。

[摘要]各個(gè)部門(mén)和領(lǐng)域?qū)?a href="http://www.jiaotongshigulvshi.cn/haowen/23481.html" target="_blank">語(yǔ)音識(shí)別系統(tǒng)的需求不同,使得語(yǔ)音識(shí)別系統(tǒng)的特性和指標(biāo)表現(xiàn)出的差異性非常大,所以語(yǔ)音識(shí)別系統(tǒng)要依據(jù)特定的指標(biāo)和需求進(jìn)行相關(guān)的設(shè)計(jì)。本文就語(yǔ)音識(shí)別系統(tǒng)相關(guān)的技術(shù)進(jìn)行了分析,供大家借鑒與參考。
[關(guān)鍵詞]語(yǔ)音識(shí)別系統(tǒng);差異性;指標(biāo)需求
一、引言
語(yǔ)音作為語(yǔ)言的聲學(xué)體現(xiàn),也是人類(lèi)進(jìn)行信息交流最自然、和諧的手段。與機(jī)械設(shè)各進(jìn)行語(yǔ)音的溝通,讓機(jī)器可以明白人類(lèi)在說(shuō)什么,并理解這是人類(lèi)長(zhǎng)期的夢(mèng)想。語(yǔ)音識(shí)別技術(shù),也被稱(chēng)為自動(dòng)語(yǔ)音識(shí)別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類(lèi)的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。語(yǔ)音識(shí)別技術(shù)的應(yīng)用包括語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、語(yǔ)音文檔檢索、簡(jiǎn)單的聽(tīng)寫(xiě)數(shù)據(jù)錄入等。語(yǔ)音識(shí)別技術(shù)與其他自然語(yǔ)言處理技術(shù)如機(jī)器翻譯及語(yǔ)音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。
二、語(yǔ)音信號(hào)分析與特征提取
1.基于發(fā)音模型的語(yǔ)音特征。(1)發(fā)音系統(tǒng)及其模型表征。其發(fā)聲過(guò)程就是由肺部進(jìn)行收縮,并進(jìn)行壓縮氣流由支氣管通過(guò)聲道和聲門(mén)引起的音頻振蕩所發(fā)生的。氣流通過(guò)聲門(mén)時(shí)使得聲帶的張力剛好使聲帶發(fā)生比較低的頻率的振蕩,從而形成準(zhǔn)周期性的空氣脈沖,空氣脈沖激勵(lì)聲道便會(huì)產(chǎn)生一些濁音;聲道的某處面積比較小,氣流沖過(guò)時(shí)便會(huì)產(chǎn)生湍流,會(huì)得到一種相似噪聲的激勵(lì),對(duì)應(yīng)的則是摩擦音;聲道完全閉合并建立起相應(yīng)的氣壓,突然進(jìn)行釋放就是爆破音。(2)語(yǔ)音信號(hào)線性預(yù)測(cè)倒譜系數(shù)。被廣泛應(yīng)用的特征參數(shù)提取技術(shù)的就是線性預(yù)測(cè)分析技術(shù),很多成功的應(yīng)用系統(tǒng)都是選用基于線性預(yù)測(cè)技術(shù)進(jìn)而提取的LPC倒譜系數(shù)作為應(yīng)用系統(tǒng)的特征。LPC倒譜就是復(fù)倒譜。復(fù)倒譜就是信號(hào)通過(guò)z進(jìn)行變換以后再取其對(duì)數(shù),求反z變換所得到的譜。線性預(yù)測(cè)分析方法其實(shí)就是一種譜的估計(jì)方法,所以其聲道模型系統(tǒng)函數(shù)H(z)反映的就是聲道頻率激勵(lì)和信號(hào)的譜包絡(luò),對(duì)IHg(z)作反z變換就可以得出其復(fù)倒譜系數(shù)。改復(fù)倒譜系數(shù)是依據(jù)線性預(yù)測(cè)模型直接獲得的,而又被稱(chēng)為L(zhǎng)PC倒譜系數(shù)(LPCC)。
2.基于聽(tīng)覺(jué)模型的語(yǔ)音特征。(1)聽(tīng)覺(jué)系統(tǒng)模型。一是人類(lèi)的聽(tīng)覺(jué)系統(tǒng)對(duì)于聲音頻率高低和聲波實(shí)際的頻率高低不是線性的關(guān)系,它對(duì)不同聲音頻率信號(hào)的敏感度是不一樣的,也可看成是對(duì)數(shù)關(guān)系。二是關(guān)于掩蔽效應(yīng)指的就是聲音A感知的閉值因?yàn)榱硗獾纳碛暗某霈F(xiàn)出現(xiàn)增大的現(xiàn)象。其生理依據(jù)主要是頻率群,對(duì)頻率群進(jìn)行劃分會(huì)出現(xiàn)許多的很小的部分,每一個(gè)部分都會(huì)對(duì)應(yīng)一個(gè)頻率群,掩蔽效應(yīng)就發(fā)生在這些部分過(guò)程中。所以在進(jìn)行相應(yīng)的聲學(xué)測(cè)量時(shí),頻率刻度一般取非線性刻度。語(yǔ)音識(shí)別方面,主要的非線性頻率刻度有Mel刻度、對(duì)數(shù)刻度和Kon~nig刻度。其中Mel刻度被廣泛的應(yīng)用,其是最合理的頻率刻度。(2)語(yǔ)音信號(hào)Mcl頻率倒譜系數(shù)。Mel頻率倒譜系數(shù)利用人們耳朵的聽(tīng)覺(jué)特性,在頻域?qū)㈩l率軸變換為Mcl頻率刻度,再變換到倒譜域得到倒譜系數(shù)。MFCC參數(shù)的計(jì)算過(guò)程:
一是對(duì)語(yǔ)音信號(hào)進(jìn)行相應(yīng)的預(yù)加重,從而確定了每一幀的語(yǔ)音采樣的長(zhǎng)度,語(yǔ)音信號(hào)通過(guò)離散FFT變換得到其頻譜。二是求頻譜幅度的平方,得到能量譜,并選用一組三角濾波器在頻譜域?qū)δ芰窟M(jìn)行帶通濾波。帶通濾波器中心頻率一般是按照Mcl頻率刻度排列的(間隔為150Mel,帶寬為300Mel),其每個(gè)三角形濾波器的兩個(gè)底點(diǎn)頻率和相鄰的兩個(gè)濾波器的中心頻率相等,頻率響應(yīng)之和為l。濾波器的個(gè)數(shù)一般和臨界帶數(shù)比較相近,設(shè)濾波器數(shù)是M,濾波后得到的輸出為:X(k),k=1,2,…,M。
3.語(yǔ)音的端點(diǎn)檢測(cè)。語(yǔ)音的端點(diǎn)檢測(cè)就是對(duì)語(yǔ)音的起點(diǎn)和終點(diǎn)的確認(rèn),由于漢語(yǔ)語(yǔ)音的聲母是清聲母,有著送氣和不送氣的塞音,和環(huán)境噪聲接近比較進(jìn)行分辨。語(yǔ)音信號(hào)有短時(shí)穩(wěn)定性的特性,可選用平穩(wěn)過(guò)程的分析方法進(jìn)行相應(yīng)的處理,對(duì)語(yǔ)音端點(diǎn)檢測(cè)進(jìn)行分幀的處理,再依次對(duì)每一幀是否正確進(jìn)行處理。每一幀的幀長(zhǎng)如果比較大,計(jì)算量比較小的,可進(jìn)行端點(diǎn)檢測(cè)就比較快,但其誤差會(huì)相應(yīng)的增加。
語(yǔ)音識(shí)別技術(shù)發(fā)展到今天,對(duì)特定人語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度就更高。調(diào)查統(tǒng)計(jì)表明多達(dá)85%以上的人對(duì)語(yǔ)音識(shí)別的信息查詢服務(wù)系統(tǒng)的性能表示滿意。可以預(yù)測(cè)在近五到十年內(nèi),語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用將更加廣泛。各種各樣的語(yǔ)音識(shí)別系統(tǒng)產(chǎn)品將出現(xiàn)在市場(chǎng)上。人們也將調(diào)整自己的說(shuō)話方式以適應(yīng)各種各樣的識(shí)別系統(tǒng)。在短期內(nèi)還不可能造出具有和人相比擬的語(yǔ)音識(shí)別系統(tǒng),要建成這樣一個(gè)系統(tǒng)仍是人類(lèi)面臨的一個(gè)大的挑戰(zhàn)。
關(guān)鍵詞:SAPI;C#;.NET;語(yǔ)音識(shí)別
1 引言
語(yǔ)音識(shí)別是信息處理領(lǐng)域的一個(gè)重要方向,語(yǔ)音識(shí)別通常又可以分為兩種工作方式:一種是連續(xù)語(yǔ)音聽(tīng)寫(xiě),這種方式需要語(yǔ)音識(shí)別引擎對(duì)語(yǔ)音聽(tīng)寫(xiě)過(guò)程中上下文以及相同相似發(fā)音的詞語(yǔ)進(jìn)行分析、做出判斷,實(shí)現(xiàn)難度較大。另一種是命令與控制方式(command and control),在此種方式下,語(yǔ)音識(shí)別引擎可以通過(guò)對(duì)簡(jiǎn)短的命令語(yǔ)音進(jìn)行識(shí)別,以便執(zhí)行相應(yīng)操作。
語(yǔ)音識(shí)別技術(shù)基礎(chǔ)是非常復(fù)雜的。正是如此,它獲得了世界上著名的公司與研究機(jī)構(gòu)的青睞,語(yǔ)音識(shí)別技術(shù)正經(jīng)歷著日新月異的改變,其中一些產(chǎn)品已經(jīng)取得較好的效果,用戶可以在上述產(chǎn)品基礎(chǔ)之上進(jìn)行二次開(kāi)發(fā)。
2開(kāi)發(fā)圖片語(yǔ)音識(shí)別系統(tǒng)的條件
語(yǔ)音識(shí)別技術(shù)的發(fā)展涉及人機(jī)交互,自然語(yǔ)言處理,人工智能。這使開(kāi)發(fā)人員難以從底層進(jìn)行應(yīng)用開(kāi)發(fā),欣慰的是一些公司與研究機(jī)構(gòu)已經(jīng)推出他們的研究成果,并且提供了供開(kāi)發(fā)人員使用的開(kāi)發(fā)平臺(tái)與接口。其中影響比較大的有微軟的SAPI、劍橋大學(xué)的HTK,IBM的via voice開(kāi)發(fā)平臺(tái)。本文采用微軟的Speech SDK5.1開(kāi)發(fā)包,它不僅是一個(gè)免費(fèi)的開(kāi)發(fā)包,同時(shí)提供對(duì)中文的支持。
2.1微軟SAPI簡(jiǎn)介
微軟的 Speech SDK是基于 C O M 的視窗操作系統(tǒng)開(kāi)發(fā)工具包。這個(gè) SDK中含有語(yǔ)音應(yīng)用程序接口( SAPI )、微軟連續(xù)語(yǔ)音識(shí)別引擎(MCSR)以及串聯(lián)語(yǔ)音合成(又稱(chēng)文本到語(yǔ)音)引擎(TTS)等等。SAPI 中還包括對(duì)于低層控制和高度適應(yīng)性的直接語(yǔ)音管理、訓(xùn)練向?qū)А⑹录?語(yǔ)法、 編譯、資源、語(yǔ)音識(shí)別管理以及文本到語(yǔ)音管理,其結(jié)構(gòu)如圖 l 所示。
圖1 SAPI結(jié)構(gòu)
SAPI API在應(yīng)用程序和語(yǔ)音引擎之間提供一個(gè)高級(jí)別的接口。SAPI實(shí)現(xiàn)了所有必需的對(duì)各種語(yǔ)音引擎的實(shí)時(shí)的控制和管理等低級(jí)別的細(xì)節(jié)。
SAPI引擎的兩個(gè)基本類(lèi)型是文本語(yǔ)音轉(zhuǎn)換系統(tǒng)(TTS)和語(yǔ)音識(shí)別系統(tǒng)。TTS系統(tǒng)使用合成語(yǔ)音合成文本字符串和文件到聲音音頻流。語(yǔ)音識(shí)別技術(shù)轉(zhuǎn)換人類(lèi)的聲音語(yǔ)音流到可讀的文本字符串或者文件。
2.2 在.net應(yīng)用程序中使用SAPI的準(zhǔn)備
安裝SAPI 5.1語(yǔ)音開(kāi)發(fā)包。
由于SAPI基于Windows平臺(tái),通過(guò)COM接口供.net平臺(tái)調(diào)用,所以具體調(diào)用方法為:新建工程,在此工程的解決方案中單擊右鍵,在添加/引用中選擇 Microsoft Speech Object Library,并在程序中添加對(duì)SAPI命名空間的引用:using SpeechLib。
3 系統(tǒng)模型設(shè)計(jì)及實(shí)現(xiàn)
3.1 創(chuàng)立系統(tǒng)界面
圖2 系統(tǒng)界面一覽
3.2 使用SAPI語(yǔ)音識(shí)別核心類(lèi)
ISpRecognizer類(lèi)是支持語(yǔ)音識(shí)別的核心類(lèi),主要用于訪問(wèn)MCSR實(shí)現(xiàn)語(yǔ)音識(shí)別。在進(jìn)行語(yǔ)音識(shí)別時(shí),微軟Speech SDK 5.1 支持兩種模式的語(yǔ)音識(shí)別引擎:共享(Share)和獨(dú)享(InProc)。在本系統(tǒng)中,我們使用共享型語(yǔ)音識(shí)別引擎,CLSID_SpSharedRecognizer。
SpSharedRecoContext類(lèi)是語(yǔ)音識(shí)別上下文接口,它可以發(fā)送與接收消息通知,通過(guò)CreateGrammar方法創(chuàng)建語(yǔ)法規(guī)則。通過(guò)對(duì)它的兩個(gè)事件:_ISpeechRecoContextEvents_RecognitionEventHandler(ssrc_Recognition) ,_ISpeechRecoContextEvents_HypothesisEventHandler(Hypo_Event)的重寫(xiě),我們可以很輕松的得到當(dāng)前語(yǔ)音識(shí)別結(jié)果。第一個(gè)事件對(duì)應(yīng)的就是識(shí)別結(jié)果顯示:1、第二個(gè)事件對(duì)應(yīng)的就是識(shí)別結(jié)果顯示;2、ISpeechRecoGrammar類(lèi)是語(yǔ)法規(guī)則接口,定義語(yǔ)音識(shí)別引擎需要是別的語(yǔ)音類(lèi)容。起語(yǔ)法規(guī)則可以分為聽(tīng)寫(xiě)型與命令控制型。聽(tīng)寫(xiě)型可以識(shí)別大詞匯量語(yǔ)音,但是別效率與識(shí)別準(zhǔn)確率較低。命令控制型有針對(duì)性的對(duì)特定語(yǔ)音進(jìn)行識(shí)別,在效率與準(zhǔn)確率上都非常高。
當(dāng)然一個(gè)ISpRecognizer不管是共享還是獨(dú)享,都可以有多個(gè)RecoContext與其關(guān)聯(lián),而一個(gè)RecoContext也可以與多個(gè)ISpeechReco Grammar關(guān)聯(lián),每個(gè)ISpeechRecoGramma r識(shí)別各自規(guī)定的內(nèi)容。
圖3 語(yǔ)音識(shí)別類(lèi)對(duì)應(yīng)關(guān)系
3.3 編寫(xiě)系統(tǒng)核心代碼
通過(guò)讀入外部Grammar配置語(yǔ)音識(shí)別引擎,外部Grammar文件以xml文件格式存儲(chǔ)。具體形式如下:
ManegePic.xml
玫瑰
大象
獅子
老虎
仙人掌
珠穆朗瑪峰
布達(dá)拉宮
貂蟬
十字軍
世界杯
阿里巴巴
乒乓球
五星紅旗
……
采用命令控制型Grammar是為了使語(yǔ)音識(shí)別結(jié)果準(zhǔn)確有效,定義外部Grammar是為了保持以后系統(tǒng)的可擴(kuò)展性。對(duì)于新輸入的圖片,只要將圖片名字加入到 圖片名字
中即可。
開(kāi)始語(yǔ)音輸入事件:
private void btnStart_Click(object sender, EventArgs e)
{
ssrc = new SpSharedRecoContext();
srg = ssrc.CreateGrammar(1);
srg.CmdLoadFromFile(""ManegePic.xml"", SpeechLoadOption.SLODynamic);
//讀入規(guī)則
ssrc.Recognition += new _Ispeec hRecoC ontextEvents_RecognitionventHandler(ssrc_Recognition);
//添加識(shí)別最終事件
ssrc.Hypothesis += new _IspeechRecoCon textEvents_HypothesisEventHandler(Hypo_Event);
//添加識(shí)別懷疑事件
srg.CmdSetRuleState(srg.Rules.Item(0).Name, SpeechRuleState.SGDSActive);
//激活規(guī)則
}
其中識(shí)別最終事件是系統(tǒng)在完整處理輸入音頻之后得到的最后識(shí)別結(jié)果,懷疑事件則是因?yàn)橄到y(tǒng)在處理過(guò)程中的最相似識(shí)別結(jié)果。這兩個(gè)事件在一些環(huán)境之下得到的識(shí)別結(jié)果不同。
識(shí)別懷疑事件:
private void Hypo_Event(int StreamNumber, object StreamPosition, ISpeechRecoResult Result)
{
textBox2.Text = Result.PhraseInfo.GetText(0, -1, true);
}
將系統(tǒng)在處理過(guò)程中的最相似結(jié)果顯示在textBox控件之中。
識(shí)別最終事件:
void ssrc_Recognition(int StreamNumber, object StreamPosition, SpeechRecognitionT ype RecognitionType, ISpeechRecoResult Result)
{
textBox1.Text = Result.PhraseInfo.GetT ext(0, -1, true);
// 將系統(tǒng)最終結(jié)果顯示在textBox控件之中。
try
{
Picturebox1.image = Result.PhraseInf o.GetText(0, -1, true).tostring()+”.jpg”;
//顯示識(shí)別結(jié)果的圖片
}
Catch (Exception e)
{}
}
由于篇幅有限,這里僅僅給出了構(gòu)建語(yǔ)音識(shí)別引擎與圖片顯示部分的代碼。完 整的系統(tǒng)可以在Windows XP + vs2008環(huán)境中調(diào)試通過(guò),實(shí)現(xiàn)基于.net和SAPI的圖片語(yǔ)音識(shí)別系統(tǒng)。
4 結(jié)語(yǔ)
通過(guò)制作圖片語(yǔ)音識(shí)別系統(tǒng),對(duì)利用SAPI進(jìn)行語(yǔ)音識(shí)別有了初步的研究和實(shí)踐,該系統(tǒng)具有一定的擴(kuò)展性,也可以作為子系統(tǒng)嵌入到其他系統(tǒng)之中。該系統(tǒng)的功能可以擴(kuò)展到語(yǔ)音控制文件操作,比如打開(kāi)/關(guān)閉文件,添加文件,可以制作一個(gè)不需要鍵盤(pán)鼠標(biāo)只利用語(yǔ)音就可進(jìn)行操作的軟件系統(tǒng)。
參考文獻(xiàn):
[1] Microsoft Speech 5.1 SDK Help .Microsoft Corporation
以下是來(lái)自現(xiàn)場(chǎng)的報(bào)道。
市場(chǎng)變化提出新需求
搬遷至新物流中心
神田業(yè)務(wù)支持公司成立于1974年,當(dāng)時(shí)與長(zhǎng)崎屋合資,主要負(fù)責(zé)服裝配送。該公司在日本最早引進(jìn)了大型托盤(pán)輸送機(jī),曾一時(shí)成為業(yè)界熱議的話題。2002年,3家分公司合并后統(tǒng)一命名為神田業(yè)務(wù)支持公司。
公司現(xiàn)任總經(jīng)理吉林正和先生當(dāng)時(shí)已經(jīng)進(jìn)入公司,他回顧公司的發(fā)展歷程時(shí)說(shuō):“30多年來(lái),公司經(jīng)營(yíng)的物流業(yè)務(wù)幾乎都集中在服裝領(lǐng)域,因此積累了豐富的服裝物流經(jīng)驗(yàn)。近些年,公司的物流設(shè)施及分揀設(shè)備等已開(kāi)始老化,為此建設(shè)了新的物流中心。同時(shí),為適應(yīng)客戶新的需求,我們準(zhǔn)備配送服裝以外的貨物,因此決定引進(jìn)語(yǔ)音識(shí)別系統(tǒng)。”
目前,習(xí)志野物流中心處理的貨物以服裝為主,同時(shí)也負(fù)責(zé)配送鞋類(lèi)以及其他日用品,據(jù)說(shuō)已接到約20家客戶的業(yè)務(wù)委托。物流中心根據(jù)客戶訂單的要求進(jìn)行分揀、貼標(biāo)簽等操作,然后向全國(guó)配送。
服裝類(lèi)商品主要來(lái)自中國(guó)大陸及臺(tái)灣、越南等地,平均每天發(fā)送10萬(wàn)件左右,需要投入包括物流中心職員和小時(shí)工在內(nèi)的50~60人從事物流作業(yè),并根據(jù)業(yè)務(wù)量進(jìn)行靈活調(diào)整。
適應(yīng)市場(chǎng)變化
在公司的舊址茜浜,倉(cāng)庫(kù)內(nèi)的主要設(shè)備除了大型托盤(pán)輸送機(jī)外,還有自動(dòng)分揀機(jī)。如果要繼續(xù)使用這些設(shè)備,物流中心一層需要擁有2310平方米的面積,并且老化的設(shè)備也需要大筆資金進(jìn)行維修,如此看來(lái)實(shí)屬浪費(fèi)。可以說(shuō),繼續(xù)使用大型設(shè)備的外部條件發(fā)生了變化。
自動(dòng)分揀機(jī)每小時(shí)的處理能力達(dá)2000件,這是人工作業(yè)望塵莫及的。如果不使用分揀機(jī),根本不可能達(dá)到2000件/小時(shí)的處理能力,那么其他設(shè)備也都會(huì)閑置下來(lái),其結(jié)果將是物流中心無(wú)法應(yīng)對(duì)市場(chǎng)的變化。
神田公司經(jīng)營(yíng)策劃室的松尾健太郎科長(zhǎng)談到:“考慮公司業(yè)務(wù)范圍的變化,我們的方針是保證低成本的同時(shí),新系統(tǒng)要能夠應(yīng)對(duì)市場(chǎng)的變化。”
這個(gè)新系統(tǒng)就是“語(yǔ)音識(shí)別系統(tǒng)”。
選擇語(yǔ)音識(shí)別系統(tǒng)
耳、眼、手、口總動(dòng)員
吉林總經(jīng)理談到:“在建設(shè)新物流中心時(shí),神田面臨的最大問(wèn)題是建設(shè)資金,因此我們要控制初期投資。如果使用自動(dòng)分揀機(jī),至少需要2~3億日元的資金,但我們的總預(yù)算只有1億日元。而且還要求必須保證訂單的交付時(shí)間。最終,我們選擇了語(yǔ)音識(shí)別系統(tǒng)。”
除軟件外,新物流中心引進(jìn)的設(shè)備只有掛在腰間的便攜式終端和耳機(jī),共25套。包括基礎(chǔ)系統(tǒng)改造在內(nèi),總投資共6000萬(wàn)日元。
實(shí)際上,神田公司從幾年前就已開(kāi)始研究語(yǔ)音識(shí)別系統(tǒng),只不過(guò)一直沒(méi)有對(duì)外公開(kāi)。
新物流中心處理的貨物仍以服裝為主。通常,以箱(盒)為包裝的物品是很容易處理的,數(shù)量統(tǒng)計(jì)也不易出錯(cuò)。但服裝往往裝在塑料袋中,既薄又輕,進(jìn)行揀選操作時(shí),如果工作人員一只手拿著無(wú)線終端,另一只手拿著塑料袋,不容易讀取條碼標(biāo)簽,又容易數(shù)錯(cuò)數(shù)量。此外,服裝的一大特點(diǎn)是顏色、規(guī)格多,SKU多,因此,如果使用手持終端進(jìn)行操作將非常費(fèi)力。
現(xiàn)在使用語(yǔ)音識(shí)別系統(tǒng),終端掛在腰間,解放了雙手,操作人員可以用雙手完成揀選作業(yè)。操作人員通過(guò)耳機(jī)得到系統(tǒng)指令的同時(shí),可以立即回應(yīng),而不需要“看明細(xì)”、“按開(kāi)關(guān)”的動(dòng)作,能夠集中精力進(jìn)行揀選。
松尾科長(zhǎng)說(shuō):“過(guò)去,物流現(xiàn)場(chǎng)的操作在很大程度上依賴于‘眼睛’,所有終端和明細(xì)單都必須用眼睛來(lái)判斷,如果看錯(cuò)了。就會(huì)直接導(dǎo)致發(fā)錯(cuò)貨。現(xiàn)在有了語(yǔ)音識(shí)別系統(tǒng),其最大的魅力就是通過(guò)‘聽(tīng)’接受指令,用‘眼’和‘手’來(lái)確認(rèn),用‘說(shuō)’來(lái)回應(yīng),讓兩手同時(shí)工作。這就是感覺(jué)器官的總動(dòng)員。由此帶來(lái)工作準(zhǔn)確率和效率的大幅提高。”
這也是神田公司選擇語(yǔ)音識(shí)別系統(tǒng)的初衷。
語(yǔ)音揀選解決方案在世界的發(fā)展
回顧歷史,在上世紀(jì)90年代,日本有幾家公司曾引進(jìn)過(guò)語(yǔ)音識(shí)別系統(tǒng),但由于當(dāng)時(shí)的識(shí)別能力有限,結(jié)果半途而廢。之后,經(jīng)過(guò)改良的語(yǔ)音識(shí)別系統(tǒng)再度登場(chǎng),尤其是在歐美物流界頗受歡迎,其中VOCOLLECT公司開(kāi)始嶄露頭角。
特別值得一提的是,世界零售巨頭沃爾瑪把語(yǔ)音識(shí)別系統(tǒng)作為標(biāo)準(zhǔn)化配置的系統(tǒng),在其世界各地的物流中心都在使用。早在3年前,日本國(guó)內(nèi)的沃爾瑪旗下的西友?三鄉(xiāng)物流中心業(yè)也已引進(jìn)了VOCOLLECT的產(chǎn)品。
此后,眾多經(jīng)銷(xiāo)商的市場(chǎng)拓展行動(dòng)終于開(kāi)啟了語(yǔ)音揀選的世界市場(chǎng)之門(mén)。VOCOLLECT公司于2006年成立了VOCOLLECT日本分公司,同時(shí)在東歐、南美也逐漸打開(kāi)市場(chǎng),目前年銷(xiāo)售額近100億日元,占世界同行業(yè)銷(xiāo)售的80%。
承擔(dān)神田公司語(yǔ)音系統(tǒng)建設(shè)項(xiàng)目的日本優(yōu)利公司售后服務(wù)事業(yè)部矢島孝安部長(zhǎng)說(shuō):“人們往往認(rèn)為只憑借聲音并不十分可靠,但VOCOLLECT的產(chǎn)品解決了這一難題。其識(shí)別系統(tǒng)和硬件設(shè)備組成了堪稱(chēng)完美的系統(tǒng)。”
VOCOLLECT產(chǎn)品的特性
VOCOLLECT日本分公司總經(jīng)理塞薩爾?西森介紹說(shuō),市場(chǎng)上的其他產(chǎn)品大多是把幾家公司的終端和軟件組合在一起,而VOCOLLECT則根據(jù)物流現(xiàn)場(chǎng)的實(shí)際需要,從硬件到軟件都是自主研發(fā)的,具有非常實(shí)用的語(yǔ)音識(shí)別功能,能夠用日語(yǔ)應(yīng)答就是其一大特色。
如何確保語(yǔ)音識(shí)別的精度是使用中的關(guān)鍵問(wèn)題。塞薩爾?西森總經(jīng)理認(rèn)為,要提高語(yǔ)音識(shí)別的精度是有前提的。語(yǔ)音識(shí)別的基本條件是“指定說(shuō)話人”和“不指定說(shuō)話人”,在日本,其他公司都選擇了“不指定說(shuō)話人”,唯獨(dú)VOCOLLECT公司選擇了“指定說(shuō)話人”。塞薩爾?西森總經(jīng)理指出,在被噪音環(huán)繞的物流和生產(chǎn)現(xiàn)場(chǎng),“不指定說(shuō)話人”的方式存在很多問(wèn)題。
“不指定說(shuō)話人”即任何人的聲音都可能被確認(rèn)。因?yàn)樗雎粤嗣總€(gè)人聲音的差異,那么其識(shí)別能力自然低下,特別是在噪音大的場(chǎng)所,附近幾個(gè)人同時(shí)作業(yè),如果別人的聲音一旦被確認(rèn)。必將出現(xiàn)差錯(cuò)。
VOCOLLECT公司的“指定說(shuō)
話人”的方式,是根據(jù)每個(gè)人所發(fā)出的聲音的頻率而設(shè)定的,具有聲音識(shí)別功能。這在很大程度上提高了識(shí)別精確度。在實(shí)際操作中,只要改變用戶名、輸入ID號(hào),就能夠直接調(diào)出所需的信息,因此在登錄系統(tǒng)后,其他工作人員也可以使用。
當(dāng)然。每個(gè)工作人員初次登錄時(shí),都需要經(jīng)過(guò)多次練習(xí),登錄加練習(xí)的時(shí)間大約在20-30分鐘。因?yàn)樵O(shè)有語(yǔ)音矯正功能,經(jīng)過(guò)幾次練習(xí),工作人員就可以熟練掌握。
此外,終端設(shè)備的堅(jiān)固性也非常突出,即使跌落地面,或被踩、被壓,都能保持完好無(wú)損。這給工作人員帶來(lái)安全感,可以全神貫注地投入揀選工作。
構(gòu)建并起用系統(tǒng)僅耗時(shí)3個(gè)月
神田公司選擇日本優(yōu)利推薦的VOCOLLECT公司的語(yǔ)音識(shí)別系統(tǒng)之前,已對(duì)該系統(tǒng)的結(jié)構(gòu)和實(shí)用性做了全面、細(xì)致的調(diào)查和論證。
吉林總經(jīng)理說(shuō):“因?yàn)槲覀兪鞘状问褂谜Z(yǔ)音識(shí)別系統(tǒng),因此必須進(jìn)行全面的考察。在考察3家日用品批發(fā)商使用該系統(tǒng)的效果時(shí),我們發(fā)現(xiàn)該系統(tǒng)不僅能用于分揀,還能用于盤(pán)點(diǎn)。這也是我們選擇它的一個(gè)重要原因。事實(shí)證明這個(gè)系統(tǒng)是完美的。”
接下來(lái)的系統(tǒng)設(shè)計(jì),神田公司僅給優(yōu)利公司和VOCOLLECT公司3個(gè)月時(shí)間。在此期間,神田為了讓員工盡快進(jìn)入狀態(tài),在現(xiàn)場(chǎng)進(jìn)行實(shí)地演示。2008年8月15~16日,公司在搬遷的同時(shí)安裝新系統(tǒng),18日就開(kāi)始正常發(fā)貨了。
下面介紹語(yǔ)音識(shí)別系統(tǒng)的實(shí)際應(yīng)用。
貨物初次分揀
1、2、總體分類(lèi)
語(yǔ)音識(shí)別系統(tǒng)主要應(yīng)用于服裝的發(fā)貨流程。
圖1、圖2是位于物流中心二層的存儲(chǔ)區(qū)。每天上午,操作人員根據(jù)發(fā)貨指示,首先進(jìn)行總體分類(lèi),即把當(dāng)天需要發(fā)的貨按款式分別集中在臺(tái)車(chē)上的紙箱中。這里的揀選作業(yè)是對(duì)照產(chǎn)品明細(xì)進(jìn)行的。
3 二次分揀
在相鄰的揀選區(qū),貨物按照店鋪別進(jìn)行分揀。在圖3中,左邊是使用手持終端進(jìn)行掃描,右邊是使用語(yǔ)音識(shí)別系統(tǒng)進(jìn)行揀選。
4、5手持終端+輸送機(jī)
總體分類(lèi)完成后,把紙箱放到輸送機(jī)上,按發(fā)貨店鋪的不同,用手持終端逐一進(jìn)行掃描。
因?yàn)槊考浳锖彤a(chǎn)品明細(xì)都要進(jìn)行掃描,因此排除了款式錯(cuò)誤的可能。但因?yàn)槭菃问肿鳂I(yè),尤其對(duì)于較薄的服裝,產(chǎn)品數(shù)量容易弄錯(cuò)。偶爾也會(huì)發(fā)生無(wú)法讀取條碼標(biāo)簽的情況,或者標(biāo)簽被翻轉(zhuǎn)放置,此時(shí)操作起來(lái)相當(dāng)費(fèi)力。
6、7、臺(tái)車(chē)+手持終端
圖6是臺(tái)車(chē)分揀區(qū)。臺(tái)車(chē)底層放置了4個(gè)空周轉(zhuǎn)箱用于調(diào)節(jié)高度,上層的4個(gè)周轉(zhuǎn)箱分別代表4個(gè)店鋪,操作人員同時(shí)處理4家店鋪的貨物,操作非常快捷。當(dāng)然。通道,必須留有足夠的寬度,以保證臺(tái)車(chē)通過(guò)。
使用語(yǔ)音識(shí)別系統(tǒng)進(jìn)行揀選
8~11 語(yǔ)音識(shí)別揀選
前面提到的輸送機(jī)傳送來(lái)的周轉(zhuǎn)箱到達(dá)此處,按照發(fā)貨店鋪的不同依次進(jìn)行揀選。此時(shí)操作人員通過(guò)耳機(jī)接收指示,用麥克進(jìn)行回應(yīng),在“是”、“下面”的應(yīng)聲中進(jìn)行分揀作業(yè)。不僅雙手可同時(shí)操作,并且不需要看手持終端顯示的數(shù)據(jù),只需用眼睛確認(rèn)發(fā)貨明細(xì)上的代碼即可。
操作人員聽(tīng)到的是什么樣的指示呢?是商店代碼、貨物代碼以及揀選的數(shù)量等,速度很快,聽(tīng)到指示后必須立刻做出回應(yīng)。按照操作人員的話說(shuō):“聲音的節(jié)奏逐漸變快,我們已經(jīng)習(xí)慣了這樣的速度。”由于每個(gè)人的聽(tīng)力和反應(yīng)速度存在差別,物流中心根據(jù)這一差別安排操作人員的崗位。
操作人員做出回應(yīng)后。下面的指示隨即就到。在這種快節(jié)奏中,幾乎沒(méi)有等待指示或閑下來(lái)的時(shí)間。
塞薩爾?西森總經(jīng)理說(shuō):“如果是使用手持終端,必然存在等待指令的時(shí)間。使用語(yǔ)音識(shí)別系統(tǒng)后,節(jié)省了操作時(shí)間。一旦有空閑的時(shí)間,操作人員反而會(huì)不習(xí)慣。”
VOCOLLECT的設(shè)計(jì)中包含了勞動(dòng)心理學(xué)原理,因?yàn)椴僮魅藛T的腰間攜帶了便攜終端,每個(gè)人可以調(diào)節(jié)適合自己的速度。
系統(tǒng)投入使用后,操作人員的熟練程度不斷提高,人均處理能力由原來(lái)每小時(shí)200~300件提高到500~700件。
此外,夏裝和冬裝有所不同,操作效率也存在差別,但結(jié)果卻比預(yù)期提高了50%。
12、13、不同商店的發(fā)貨明細(xì)及標(biāo)簽
根據(jù)語(yǔ)音指令做好的發(fā)貨明細(xì)上,標(biāo)有貨物代碼和商店代碼,暫時(shí)貼在貨箱的外面(圖12),待貨箱裝滿后,再把發(fā)貨明細(xì)放入箱中,然后把箱子放到輸送機(jī)上。
14、檢驗(yàn)
通過(guò)語(yǔ)音識(shí)別系統(tǒng)揀選的貨物。因?yàn)闆](méi)有讀取條形碼,因此在包裝前需要檢查一遍。數(shù)量少時(shí)只要確認(rèn)條形碼即可,數(shù)量多時(shí)全部都要進(jìn)行檢驗(yàn)。
15、無(wú)線傳輸
通過(guò)2.4GHz的無(wú)線電波頻率,無(wú)線終端與服務(wù)器聯(lián)網(wǎng)后,進(jìn)行數(shù)據(jù)交換。
16、充電
在辦公室一角的架子上,放置了25臺(tái)充電器,以便為終端進(jìn)行充電。每次的充電過(guò)程需要8小時(shí)。
17、語(yǔ)音系統(tǒng)的管理
在同一辦公室內(nèi)設(shè)置了語(yǔ)音系統(tǒng)的管理器。畫(huà)面上顯示的是神田公司的WMS與合作公司VOCOLLECT的管理過(guò)程。
貼標(biāo)簽、包裝、發(fā)貨
18、19、貼價(jià)格標(biāo)簽、過(guò)檢針
貼價(jià)格標(biāo)簽、過(guò)檢針的操作也在物流中心二層完成。
20、21、搬運(yùn)發(fā)貨箱
貨箱打包完畢后碼盤(pán),托盤(pán)貨物用叉車(chē)搬到垂直輸送機(jī),送往一層出貨區(qū)。
22、23、裝車(chē)
在出貨口,貨物裝上卡車(chē),送到各店鋪。
目前,像這樣成功應(yīng)用語(yǔ)音識(shí)別系統(tǒng)的案例在日本還不多見(jiàn)。吉林總經(jīng)理對(duì)于初次引進(jìn)語(yǔ)音識(shí)別系統(tǒng)是這樣評(píng)價(jià)的:對(duì)于習(xí)慣了以往傳統(tǒng)分揀方法的操作人員來(lái)講,他們完全沒(méi)有不適應(yīng)的感覺(jué),反而更喜歡現(xiàn)在極富節(jié)奏感的作業(yè)。
“要通過(guò)改善工作流程,使所有人員都適應(yīng)語(yǔ)音識(shí)別系統(tǒng),不斷提高工作效率。我們不要求最好,只追求更好”。吉林總經(jīng)理說(shuō)。
關(guān)鍵詞: 語(yǔ)音識(shí)別; 識(shí)別原理; 聲學(xué)建模方法; 多維模式識(shí)別系統(tǒng)
中圖分類(lèi)號(hào): TN912.3?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2013)13?0043?03
Summary of speech recognition technology and its application
YU Lin?lin
(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)
Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.
Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system
0 引 言
語(yǔ)言是人類(lèi)相互交流最常用、最有效、最重要和最方便的通信形式,語(yǔ)音是語(yǔ)言的聲學(xué)表現(xiàn),與機(jī)器進(jìn)行語(yǔ)音交流是人類(lèi)一直以來(lái)的夢(mèng)想。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,語(yǔ)音識(shí)別技術(shù)也取得突破性的成就,人與機(jī)器用自然語(yǔ)言進(jìn)行對(duì)話的夢(mèng)想逐步接近實(shí)現(xiàn)。語(yǔ)音識(shí)別技術(shù)的應(yīng)用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領(lǐng)域也發(fā)揮著極其重要的作用。它是信息社會(huì)朝著智能化和自動(dòng)化發(fā)展的關(guān)鍵技術(shù),使人們對(duì)信息的處理和獲取更加便捷,從而提高人們的工作效率。
1 語(yǔ)音識(shí)別技術(shù)的發(fā)展
語(yǔ)音識(shí)別技術(shù)起始于20世紀(jì)50年代。這一時(shí)期,語(yǔ)音識(shí)別的研究主要集中在對(duì)元音、輔音、數(shù)字以及孤立詞的識(shí)別。
20世紀(jì)60年代,語(yǔ)音識(shí)別研究取得實(shí)質(zhì)性進(jìn)展。線性預(yù)測(cè)分析和動(dòng)態(tài)規(guī)劃的提出較好地解決了語(yǔ)音信號(hào)模型的產(chǎn)生和語(yǔ)音信號(hào)不等長(zhǎng)兩個(gè)問(wèn)題,并通過(guò)語(yǔ)音信號(hào)的線性預(yù)測(cè)編碼,有效地解決了語(yǔ)音信號(hào)的特征提取。
20世紀(jì)70年代,語(yǔ)音識(shí)別技術(shù)取得突破性進(jìn)展。基于動(dòng)態(tài)規(guī)劃的動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)技術(shù)基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論[1]。
20世紀(jì)80年代,語(yǔ)音識(shí)別任務(wù)開(kāi)始從孤立詞、連接詞的識(shí)別轉(zhuǎn)向大詞匯量、非特定人、連續(xù)語(yǔ)音的識(shí)別,識(shí)別算法也從傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的方法轉(zhuǎn)向基于統(tǒng)計(jì)模型的方法。在聲學(xué)模型方面,由于HMM能夠很好的描述語(yǔ)音時(shí)變性和平穩(wěn)性,開(kāi)始被廣泛應(yīng)用于大詞匯量連續(xù)語(yǔ)音識(shí)別(Large Vocabulary Continous Speech Recognition, LVCSR)的聲學(xué)建模[2?3];在語(yǔ)言模型方面,以N元文法為代表的統(tǒng)計(jì)語(yǔ)言模型開(kāi)始廣泛應(yīng)用于語(yǔ)音識(shí)別系統(tǒng)[4]。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經(jīng)網(wǎng)絡(luò)的語(yǔ)音建模方法開(kāi)始廣泛應(yīng)用于LVCSR系統(tǒng),語(yǔ)音識(shí)別技術(shù)取得新突破。
20世紀(jì)90年代以后,伴隨著語(yǔ)音識(shí)別系統(tǒng)走向?qū)嵱没Z(yǔ)音識(shí)別在細(xì)化模型的設(shè)計(jì)、參數(shù)提取和優(yōu)化、系統(tǒng)的自適應(yīng)方面取得較大進(jìn)展[5]。同時(shí),人們更多地關(guān)注話者自適應(yīng)、聽(tīng)覺(jué)模型、快速搜索識(shí)別算法以及進(jìn)一步的語(yǔ)言模型的研究等課題[6]。此外,語(yǔ)音識(shí)別技術(shù)開(kāi)始與其他領(lǐng)域相關(guān)技術(shù)進(jìn)行結(jié)合,以提高識(shí)別的準(zhǔn)確率,便于實(shí)現(xiàn)語(yǔ)音識(shí)別技術(shù)的產(chǎn)品化。
2 語(yǔ)音識(shí)別基礎(chǔ)
2.1 語(yǔ)音識(shí)別概念
語(yǔ)音識(shí)別是將人類(lèi)的聲音信號(hào)轉(zhuǎn)化為文字或者指令的過(guò)程[7]。語(yǔ)音識(shí)別以語(yǔ)音為研究對(duì)象,它是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支。語(yǔ)音識(shí)別的研究涉及微機(jī)技術(shù)、人工智能、數(shù)字信號(hào)處理、模式識(shí)別、聲學(xué)、語(yǔ)言學(xué)和認(rèn)知科學(xué)等許多學(xué)科領(lǐng)域,是一個(gè)多學(xué)科綜合性研究領(lǐng)域[8]。
根據(jù)在不同限制條件下的研究任務(wù),產(chǎn)生了不同的研究領(lǐng)域。這些領(lǐng)域包括:根據(jù)對(duì)說(shuō)話人說(shuō)話方式的要求,可分為孤立字(詞)、連接詞和連續(xù)語(yǔ)音識(shí)別系統(tǒng);根據(jù)對(duì)說(shuō)話人的依賴程度,可分為特定人和非特定人語(yǔ)音識(shí)別系統(tǒng);根據(jù)詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無(wú)限詞匯量語(yǔ)音識(shí)別系統(tǒng)。
2.2 語(yǔ)音識(shí)別基本原理
從語(yǔ)音識(shí)別模型的角度講,主流的語(yǔ)音識(shí)別系統(tǒng)理論是建立在統(tǒng)計(jì)模式識(shí)別基礎(chǔ)之上的。語(yǔ)音識(shí)別的目標(biāo)是利用語(yǔ)音學(xué)與語(yǔ)言學(xué)信息,把輸入的語(yǔ)音特征向量序列[X=x1,x2,…,xT]轉(zhuǎn)化成詞序列[W=w1,w2,…,wN]并輸出。基于最大后驗(yàn)概率的語(yǔ)音識(shí)別模型如下式所示:
[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]
上式表明,要尋找的最可能的詞序列[W],應(yīng)該使[P(X|W)]與[P(W)]的乘積達(dá)到最大。其中,[P(X|W)]是特征矢量序列[X]在給定[W]條件下的條件概率,由聲學(xué)模型決定。[P(W)]是[W]獨(dú)立于語(yǔ)音特征矢量的先驗(yàn)概率,由語(yǔ)言模型決定。由于將概率取對(duì)數(shù)不影響[W]的選取,第四個(gè)等式成立。[logP(X|W)]與[logP(W)]分別表示聲學(xué)得分與語(yǔ)言得分,且分別通過(guò)聲學(xué)模型與語(yǔ)言模型計(jì)算得到。[λ]是平衡聲學(xué)模型與語(yǔ)言模型的權(quán)重。從語(yǔ)音識(shí)別系統(tǒng)構(gòu)成的角度講,一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)包括特征提取、聲學(xué)模型、語(yǔ)言模型、搜索算法等模塊。語(yǔ)音識(shí)別系統(tǒng)本質(zhì)上是一種多維模式識(shí)別系統(tǒng),對(duì)于不同的語(yǔ)音識(shí)別系統(tǒng),人們所采用的具體識(shí)別方法及技術(shù)不同,但其基本原理都是相同的,即將采集到的語(yǔ)音信號(hào)送到特征提取模塊處理,將所得到的語(yǔ)音特征參數(shù)送入模型庫(kù)模塊,由聲音模式匹配模塊根據(jù)模型庫(kù)對(duì)該段語(yǔ)音進(jìn)行識(shí)別,最后得出識(shí)別結(jié)果[9]。
語(yǔ)音識(shí)別系統(tǒng)基本原理框圖如圖1所示,其中:預(yù)處理模塊濾除原始語(yǔ)音信號(hào)中的次要信息及背景噪音等,包括抗混疊濾波、預(yù)加重、模/數(shù)轉(zhuǎn)換、自動(dòng)增益控制等處理過(guò)程,將語(yǔ)音信號(hào)數(shù)字化;特征提取模塊對(duì)語(yǔ)音的聲學(xué)參數(shù)進(jìn)行分析后提取出語(yǔ)音特征參數(shù),形成特征矢量序列。語(yǔ)音識(shí)別系統(tǒng)常用的特征參數(shù)有短時(shí)平均幅度、短時(shí)平均能量、線性預(yù)測(cè)編碼系數(shù)、短時(shí)頻譜等。特征提取和選擇是構(gòu)建系統(tǒng)的關(guān)鍵,對(duì)識(shí)別效果極為重要。
圖1 語(yǔ)音識(shí)別基本原理框圖
由于語(yǔ)音信號(hào)本質(zhì)上屬于非平穩(wěn)信號(hào),目前對(duì)語(yǔ)音信號(hào)的分析是建立在短時(shí)平穩(wěn)性假設(shè)之上的。在對(duì)語(yǔ)音信號(hào)作短時(shí)平穩(wěn)假設(shè)后,通過(guò)對(duì)語(yǔ)音信號(hào)進(jìn)行加窗,實(shí)現(xiàn)短時(shí)語(yǔ)音片段上的特征提取。這些短時(shí)片段被稱(chēng)為幀,以幀為單位的特征序列構(gòu)成語(yǔ)音識(shí)別系統(tǒng)的輸入。由于梅爾倒譜系數(shù)及感知線性預(yù)測(cè)系數(shù)能夠從人耳聽(tīng)覺(jué)特性的角度準(zhǔn)確刻畫(huà)語(yǔ)音信號(hào),已經(jīng)成為目前主流的語(yǔ)音特征。為補(bǔ)償幀間獨(dú)立性假設(shè),人們?cè)谑褂妹窢柕棺V系數(shù)及感知線性預(yù)測(cè)系數(shù)時(shí),通常加上它們的一階、二階差分,以引入信號(hào)特征的動(dòng)態(tài)特征。
聲學(xué)模型是語(yǔ)音識(shí)別系統(tǒng)中最為重要的部分之一。聲學(xué)建模涉及建模單元選取、模型狀態(tài)聚類(lèi)、模型參數(shù)估計(jì)等很多方面。在目前的LVCSR系統(tǒng)中,普遍采用上下文相關(guān)的模型作為基本建模單元,以刻畫(huà)連續(xù)語(yǔ)音的協(xié)同發(fā)音現(xiàn)象。在考慮了語(yǔ)境的影響后,聲學(xué)模型的數(shù)量急劇增加,LVCSR系統(tǒng)通常采用狀態(tài)聚類(lèi)的方法壓縮聲學(xué)參數(shù)的數(shù)量,以簡(jiǎn)化模型的訓(xùn)練。在訓(xùn)練過(guò)程中,系統(tǒng)對(duì)若干次訓(xùn)練語(yǔ)音進(jìn)行預(yù)處理,并通過(guò)特征提取得到特征矢量序列,然后由特征建模模塊建立訓(xùn)練語(yǔ)音的參考模式庫(kù)。
搜索是在指定的空間當(dāng)中,按照一定的優(yōu)化準(zhǔn)則,尋找最優(yōu)詞序列的過(guò)程。搜索的本質(zhì)是問(wèn)題求解,廣泛應(yīng)用于語(yǔ)音識(shí)別、機(jī)器翻譯等人工智能和模式識(shí)別的各個(gè)領(lǐng)域。它通過(guò)利用已掌握的知識(shí)(聲學(xué)知識(shí)、語(yǔ)音學(xué)知識(shí)、詞典知識(shí)、語(yǔ)言模型知識(shí)等),在狀態(tài)(從高層至底層依次為詞、聲學(xué)模型、HMM狀態(tài))空間中找到最優(yōu)的狀態(tài)序列。最終的詞序列是對(duì)輸入的語(yǔ)音信號(hào)在一定準(zhǔn)則下的一個(gè)最優(yōu)描述。在識(shí)別階段,將輸入語(yǔ)音的特征矢量參數(shù)同訓(xùn)練得到的參考模板庫(kù)中的模式進(jìn)行相似性度量比較,將相似度最高的模式所屬的類(lèi)別作為識(shí)別中間候選結(jié)果輸出。為了提高識(shí)別的正確率,在后處理模塊中對(duì)上述得到的候選識(shí)別結(jié)果繼續(xù)處理,包括通過(guò)Lattice重打分融合更高元的語(yǔ)言模型、通過(guò)置信度度量得到識(shí)別結(jié)果的可靠程度等。最終通過(guò)增加約束,得到更可靠的識(shí)別結(jié)果。
2.3 聲學(xué)建模方法
常用的聲學(xué)建模方法包含以下三種:基于模式匹配的動(dòng)態(tài)時(shí)間規(guī)整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經(jīng)網(wǎng)絡(luò)識(shí)別法(ANN)等。
DTW 是較早的一種模式匹配的方法。它基于動(dòng)態(tài)規(guī)劃的思想,解決孤立詞語(yǔ)音識(shí)別中的語(yǔ)音信號(hào)特征參數(shù)序列比較時(shí)長(zhǎng)度不一的模板匹配問(wèn)題。在實(shí)際應(yīng)用中,DTW通過(guò)計(jì)算已預(yù)處理和分幀的語(yǔ)音信號(hào)與參考模板之間的相似度,再按照某種距離測(cè)度計(jì)算出模板間的相似度并選擇最佳路徑。
HMM是對(duì)語(yǔ)音信號(hào)的時(shí)間序列結(jié)構(gòu)所建立的統(tǒng)計(jì)模型,是在馬爾可夫鏈的基礎(chǔ)上發(fā)展起來(lái)的,它是一種基于參數(shù)模型的統(tǒng)計(jì)識(shí)別方法。HMM可模仿人的言語(yǔ)過(guò)程,可視作一個(gè)雙重隨機(jī)過(guò)程:一個(gè)是用具有有限狀態(tài)數(shù)的馬爾可夫鏈來(lái)模擬語(yǔ)音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過(guò)程,另一個(gè)是與馬爾可夫鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過(guò)程[10]。
ANN以數(shù)學(xué)模型模擬神經(jīng)元活動(dòng),將人工神經(jīng)網(wǎng)絡(luò)中大量神經(jīng)元并行分布運(yùn)算的原理、高效的學(xué)習(xí)算法以及對(duì)人的認(rèn)知系統(tǒng)的模仿能力充分運(yùn)用到語(yǔ)音識(shí)別領(lǐng)域,并結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型的識(shí)別算法,克服了ANN在描述語(yǔ)音信號(hào)時(shí)間動(dòng)態(tài)特性方面的缺點(diǎn),進(jìn)一步提高了語(yǔ)音識(shí)別的魯棒性和準(zhǔn)確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計(jì)音素或狀態(tài)的后驗(yàn)概率。2011年,微軟以深度神經(jīng)網(wǎng)絡(luò)替代多層感知機(jī)形成的混合模型系統(tǒng)大大提高了語(yǔ)音識(shí)別的準(zhǔn)確率。
3 語(yǔ)音識(shí)別的應(yīng)用
語(yǔ)音識(shí)別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場(chǎng)前景。在語(yǔ)音輸入控制系統(tǒng)中,它使得人們可以甩掉鍵盤(pán),通過(guò)識(shí)別語(yǔ)音中的要求、請(qǐng)求、命令或詢問(wèn)來(lái)作出正確的響應(yīng),這樣既可以克服人工鍵盤(pán)輸入速度慢,極易出差錯(cuò)的缺點(diǎn),又有利于縮短系統(tǒng)的反應(yīng)時(shí)間,使人機(jī)交流變得簡(jiǎn)便易行,比如用于聲控語(yǔ)音撥號(hào)系統(tǒng)、聲控智能玩具、智能家電等領(lǐng)域。在智能對(duì)話查詢系統(tǒng)中,人們通過(guò)語(yǔ)音命令,可以方便地從遠(yuǎn)端的數(shù)據(jù)庫(kù)系統(tǒng)中查詢與提取有關(guān)信息,享受自然、友好的數(shù)據(jù)庫(kù)檢索服務(wù),例如信息網(wǎng)絡(luò)查詢、醫(yī)療服務(wù)、銀行服務(wù)等。語(yǔ)音識(shí)別技術(shù)還可以應(yīng)用于自動(dòng)口語(yǔ)翻譯,即通過(guò)將口語(yǔ)識(shí)別技術(shù)、機(jī)器翻譯技術(shù)、語(yǔ)音合成技術(shù)等相結(jié)合,可將一種語(yǔ)言的語(yǔ)音輸入翻譯為另一種語(yǔ)言的語(yǔ)音輸出,實(shí)現(xiàn)跨語(yǔ)言交流[11]。
語(yǔ)音識(shí)別技術(shù)在軍事斗爭(zhēng)領(lǐng)域里也有著極為重要的應(yīng)用價(jià)值和極其廣闊的應(yīng)用空間。一些語(yǔ)音識(shí)別技術(shù)就是著眼于軍事活動(dòng)而研發(fā),并在軍事領(lǐng)域首先應(yīng)用、首獲成效的,軍事應(yīng)用對(duì)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度、響應(yīng)時(shí)間、惡劣環(huán)境下的頑健性都提出了更高的要求。目前,語(yǔ)音識(shí)別技術(shù)已在軍事指揮和控制自動(dòng)化方面得以應(yīng)用。比如,將語(yǔ)音識(shí)別技術(shù)應(yīng)用于航空飛行控制,可快速提高作戰(zhàn)效率和減輕飛行員的工作負(fù)擔(dān),飛行員利用語(yǔ)音輸入來(lái)代替?zhèn)鹘y(tǒng)的手動(dòng)操作和控制各種開(kāi)關(guān)和設(shè)備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時(shí)間和精力集中于對(duì)攻擊目標(biāo)的判斷和完成其他操作上來(lái),以便更快獲得信息來(lái)發(fā)揮戰(zhàn)術(shù)優(yōu)勢(shì)。
4 結(jié) 語(yǔ)
語(yǔ)音識(shí)別的研究工作對(duì)于信息化社會(huì)的發(fā)展,人們生活水平的提高等方面有著深遠(yuǎn)的意義。隨著計(jì)算機(jī)信息技術(shù)的不斷發(fā)展,語(yǔ)音識(shí)別技術(shù)將取得更多重大突破,語(yǔ)音識(shí)別系統(tǒng)的研究將會(huì)更加深入,有著更加廣闊的發(fā)展空間。
參考文獻(xiàn)
[1] 馬志欣,王宏,李鑫.語(yǔ)音識(shí)別技術(shù)綜述[J].昌吉學(xué)院學(xué)報(bào),2006(3):93?97.
[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.
[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.
[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.
[5] 倪崇嘉,劉文舉,徐波.漢語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)研究進(jìn)展[J].中文信息學(xué)報(bào),2009,23(1):112?123.
[6] 顧亞強(qiáng).非特定人語(yǔ)音識(shí)別關(guān)鍵技術(shù)研究[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2009.
[7] 中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局.GB/T21023?2007 中文語(yǔ)音識(shí)別系統(tǒng)通用技術(shù)規(guī)范[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2007.
[8] 王文慧.基于ARM的嵌入式語(yǔ)音識(shí)別系統(tǒng)研究[D].天津:天津大學(xué),2008.
[9] 何湘智.語(yǔ)音識(shí)別的研究與發(fā)展[J].計(jì)算機(jī)與現(xiàn)代化,2002(3):3?6.
關(guān)鍵詞:Agent;語(yǔ)音識(shí)別;人工智能;作戰(zhàn)文書(shū)
中圖分類(lèi)號(hào):TP37文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)13-3541-02
1 引言
語(yǔ)音識(shí)別起源于20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng),它第一次實(shí)現(xiàn)了10個(gè)英文數(shù)字的語(yǔ)音識(shí)別,這是語(yǔ)音識(shí)別研究工作的開(kāi)端。作為一門(mén)交叉學(xué)科,它正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),被認(rèn)為是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。語(yǔ)音識(shí)別技術(shù)與語(yǔ)音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤(pán),取而代之的是以語(yǔ)音輸入這樣便于使用的、自然的、人性化的輸入方式。
2 相關(guān)技術(shù)簡(jiǎn)介
2.1 語(yǔ)音識(shí)別技術(shù)
所謂語(yǔ)音識(shí)別技術(shù)就是讓計(jì)算機(jī)(或機(jī)器)通過(guò)識(shí)別和理解過(guò)程把人類(lèi)的語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),屬于多維模式識(shí)別和智能計(jì)算機(jī)接口的范疇。語(yǔ)音識(shí)別技術(shù)的終極目標(biāo)就是研制出一臺(tái)能聽(tīng)懂任何人、任何內(nèi)容的講話的機(jī)器。語(yǔ)音識(shí)別按發(fā)音方式分為孤立詞、連接詞和連續(xù)語(yǔ)音的語(yǔ)音識(shí)別系統(tǒng);按詞匯量大小分為小詞表、中詞表和大詞表以及無(wú)限詞匯量語(yǔ)音識(shí)別;按說(shuō)話人適應(yīng)范圍分為特定人、限定人和非特定人語(yǔ)音識(shí)別。
2.2 多Agent技術(shù)
Agent的研究起源于人工智能領(lǐng)域,Agent具有自治性、社會(huì)性、反應(yīng)性和能動(dòng)性。智能Agent對(duì)自己的狀態(tài)和行為有完全的控制能力,它能夠在沒(méi)有人或者在其他Agent的直接干預(yù)下,對(duì)復(fù)雜的刺激進(jìn)行響應(yīng)并產(chǎn)生內(nèi)部狀態(tài)的控制和適應(yīng)性的行為,外界通過(guò)Agent的接口對(duì)Agent實(shí)現(xiàn)功能調(diào)用和通信,而無(wú)需知道Agent內(nèi)部的具體工作過(guò)程。多Agent系統(tǒng)(MAS)由多個(gè)自主或半自主的智能體組成,每個(gè)Agent或者履行自己的職責(zé),或者與其他Agent通信獲取信息互相協(xié)作完成整個(gè)問(wèn)題的求解。語(yǔ)音識(shí)別技術(shù)本就是人工智能的一個(gè)應(yīng)用方面,而將人工智能的前沿理論―多Agent技術(shù)引入語(yǔ)音識(shí)別技術(shù)中是一項(xiàng)有意義的工作。
3 在語(yǔ)音識(shí)別中引入多Agent技術(shù)
3.1 多Agent語(yǔ)音識(shí)別原理
傳統(tǒng)的語(yǔ)音識(shí)別存在自適應(yīng)問(wèn)題,對(duì)環(huán)境條件的依賴性強(qiáng);噪聲問(wèn)題,講話人產(chǎn)生情緒或心里上的變化,導(dǎo)致發(fā)音失真、發(fā)音速度和音調(diào)改變,產(chǎn)生Lombard/Loud效應(yīng);其它如識(shí)別速度問(wèn)題、拒識(shí)問(wèn)題以及關(guān)鍵詞檢測(cè)問(wèn)題。而多Agent技術(shù)中自治智能和分布協(xié)同的特性能夠在一定程度上解決這些問(wèn)題。多Agent語(yǔ)音識(shí)別其基本原理就是將輸入的語(yǔ)音,經(jīng)過(guò)處理后,將其和語(yǔ)音模型庫(kù)進(jìn)行比較,從而得到識(shí)別結(jié)果,具體原理見(jiàn)圖1。
該圖中語(yǔ)音輸入Agent就是待識(shí)別語(yǔ)音的原始輸入,語(yǔ)音采集Agent指話筒、電話等設(shè)備的語(yǔ)音輸入;數(shù)字化預(yù)處理Agent的功能包括語(yǔ)音信號(hào)采樣、反混疊帶通濾波、去除個(gè)體發(fā)音差異和設(shè)備、環(huán)境引起的噪聲影響等;特征提取Agent用于提取語(yǔ)音中反映本質(zhì)特征的聲學(xué)參數(shù),常用的特征有短時(shí)平均能量或幅度、短時(shí)平均跨零率、線性預(yù)測(cè)系數(shù)、基音頻率、倒譜和共振峰等。在訓(xùn)練階段,將特征參數(shù)進(jìn)行一定的處理后,為每個(gè)詞條建立一個(gè)模型,保存為模板庫(kù)。在識(shí)別階段,語(yǔ)音信號(hào)經(jīng)過(guò)相同的通道得到語(yǔ)音特征參數(shù),生成測(cè)試模板,通過(guò)模型匹配Agent和規(guī)則判別Agent將匹配分?jǐn)?shù)最高的參考模板作為識(shí)別結(jié)果。同時(shí)在模式匹配和規(guī)則判別時(shí)還可以在很多專(zhuān)家知識(shí)的幫助下,以便提高識(shí)別的準(zhǔn)確率。
3.2 多Agent語(yǔ)音識(shí)別流程
加入了多Agent技術(shù)的語(yǔ)音識(shí)別系統(tǒng)具體實(shí)現(xiàn)細(xì)節(jié)與傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)有所不同,加入了更多的智能協(xié)作的因素,但所應(yīng)用的識(shí)別過(guò)程大致相似,具體流程見(jiàn)圖2。
首先是系統(tǒng)中的協(xié)調(diào)Agent確定語(yǔ)音識(shí)別單元的選取。語(yǔ)音識(shí)別單元有單詞(句)、音節(jié)和音素三種。然后在特征提取Agent中去除語(yǔ)音中對(duì)識(shí)別無(wú)關(guān)緊要的冗余信息,目前廣泛應(yīng)用的有基于線性預(yù)測(cè)分析技術(shù)提取的倒譜參數(shù)和基于感知線性預(yù)測(cè)分析提取的感知線性預(yù)測(cè)倒譜。接著采用適當(dāng)?shù)恼Z(yǔ)音識(shí)別方法,通過(guò)對(duì)確定的語(yǔ)音特征進(jìn)行模型訓(xùn)練、智能學(xué)習(xí)后得到模板庫(kù),然后用若干個(gè)特征提取Agent將待識(shí)別的輸入語(yǔ)音信號(hào)的各個(gè)量化的特征通過(guò)分工協(xié)作的方式進(jìn)行提取,最后模型匹配Agent將量化的語(yǔ)音特征與模板庫(kù)進(jìn)行模式匹配,通過(guò)友好的人機(jī)界面把識(shí)別結(jié)果輸出。
4 多Agent語(yǔ)音識(shí)別技術(shù)在軍事上的應(yīng)用
最近十年內(nèi)語(yǔ)音識(shí)別技術(shù)軍事化應(yīng)用非常廣泛,目前研究比較多的有語(yǔ)音識(shí)別技術(shù)在智能武器裝備開(kāi)發(fā)領(lǐng)域的應(yīng)用、在軍事作戰(zhàn)文書(shū)自動(dòng)化過(guò)程中的應(yīng)用、在軍事測(cè)試設(shè)備和軍隊(duì)話務(wù)臺(tái)的應(yīng)用。下面重點(diǎn)介紹多Agent語(yǔ)音識(shí)別技術(shù)在軍事作戰(zhàn)文書(shū)自動(dòng)化過(guò)程中的應(yīng)用。
作戰(zhàn)文書(shū)句式變化不大、語(yǔ)法簡(jiǎn)單、使用人群范圍可定、語(yǔ)音識(shí)別模板庫(kù)易于建立且要求不高,其語(yǔ)音識(shí)別易于實(shí)現(xiàn)。總體方案是:盡可能統(tǒng)一各軍兵種作戰(zhàn)文書(shū)類(lèi)型;收集不同類(lèi)型作戰(zhàn)文書(shū)實(shí)例;構(gòu)造作戰(zhàn)文書(shū)詞匯庫(kù);針對(duì)標(biāo)圖地域構(gòu)造地名數(shù)據(jù)庫(kù);建立不同類(lèi)型作戰(zhàn)文書(shū)的句型庫(kù);分析軍隊(duì)標(biāo)號(hào)的涵義建立模板庫(kù);將作戰(zhàn)文書(shū)編譯成標(biāo)圖指令來(lái)完成軍事地圖的標(biāo)繪。其一般過(guò)程為作戰(zhàn)文書(shū)的詞處理、作戰(zhàn)文書(shū)的語(yǔ)法分析、作戰(zhàn)文書(shū)標(biāo)圖指令的形成,最后通過(guò)API接口傳輸給計(jì)算機(jī)完成自動(dòng)標(biāo)繪工作,如圖3所示。
5 結(jié)束語(yǔ)
語(yǔ)音識(shí)別技術(shù)是非常重要的人機(jī)交互技術(shù),有著非常廣泛的應(yīng)用領(lǐng)域和市場(chǎng)前景,為網(wǎng)上會(huì)議、商業(yè)管理、醫(yī)藥衛(wèi)生、教育培訓(xùn)等各個(gè)領(lǐng)域帶來(lái)了極大的便利。隨著人工智能技術(shù)的發(fā)展,把多Agent技術(shù)應(yīng)用到語(yǔ)音識(shí)別系統(tǒng)中,通過(guò)自治智能和分布協(xié)同的特性較好地解決了傳統(tǒng)語(yǔ)音識(shí)別技術(shù)中存在的突出問(wèn)題,這必將成為語(yǔ)音識(shí)別系統(tǒng)發(fā)展的主流。
參考文獻(xiàn):
[1] 胡斌,湯偉,劉曉明.基于自然語(yǔ)言理解的文本標(biāo)圖系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].理工大學(xué)學(xué)報(bào):自然科學(xué)版,2005,6(2):132-136.
[2] 趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003:215-240.
[3] 王作英,肖熙.基于段長(zhǎng)分布的HMM語(yǔ)音識(shí)別模型[J].電子學(xué)報(bào),2004,32(1):46-49.
[4] 曹承志.智能技術(shù)[M].北京:清華大學(xué)出版社,2004.
[5] 杜琳.基于COM技術(shù)的軍事標(biāo)圖組件的設(shè)計(jì)與實(shí)現(xiàn)[D].鄭州:信息工程大學(xué),2006.
[6] 朱民雄,聞新,黃健群,等.計(jì)算機(jī)語(yǔ)音技術(shù)[M].北京:北京航空航天大學(xué)出版社,2002.
[7] 方敏,浦劍濤,李成榮,等.嵌入式語(yǔ)音識(shí)別系統(tǒng)的研究和實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2004(6):73-78.
[8] 劉廣鐘.Agent技術(shù)及其應(yīng)用[M].北京:電子科技大學(xué)出版社,2002.
[關(guān)鍵詞]車(chē)聯(lián)網(wǎng);汽車(chē)語(yǔ)音識(shí)別;自然語(yǔ)音辨識(shí);車(chē)輛人機(jī)交互
中圖分類(lèi)號(hào):TM721 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-914X(2017)10-0297-01
1.引言
車(chē)聯(lián)網(wǎng)技術(shù)就是互聯(lián)網(wǎng)時(shí)代人們對(duì)汽車(chē)產(chǎn)業(yè)生態(tài)新需求下產(chǎn)生的新興技術(shù)。國(guó)內(nèi)車(chē)聯(lián)網(wǎng)正在經(jīng)由“屏幕+操作系統(tǒng)”的1.0版本向聯(lián)網(wǎng)的2.0版本過(guò)渡,未來(lái)的方向主要是“賬號(hào)系統(tǒng)+語(yǔ)音控制+云服務(wù)”的3.0版本。基于賬號(hào)系統(tǒng),可以實(shí)現(xiàn)圍繞“人”在不同汽車(chē)硬件、消費(fèi)電子硬件之間的服務(wù)延續(xù)性,實(shí)現(xiàn)基于“人”的個(gè)性化導(dǎo)航、娛樂(lè)和支付等服務(wù)。實(shí)現(xiàn)人與汽車(chē)之間無(wú)障礙的自然語(yǔ)言交互,減少駕駛?cè)藛T通過(guò)手指觸碰按鈕或者對(duì)中控屏幕的觸控來(lái)實(shí)現(xiàn)車(chē)輛功能的操作,保證汽車(chē)駕駛員能夠?qū)⑷恳曈X(jué)集中在對(duì)車(chē)輛行駛外部環(huán)境的感知,避免因?yàn)椴倏匕粹o、中控觸摸屏帶來(lái)的視覺(jué)注意力的間斷分散而導(dǎo)致意外情況的發(fā)生,保證了駕駛安全。車(chē)聯(lián)網(wǎng)平臺(tái)通過(guò)在車(chē)輛儀表臺(tái)安裝車(chē)載終端設(shè)備,實(shí)現(xiàn)對(duì)車(chē)輛所有工作情況和靜、動(dòng)態(tài)信息的采集、存儲(chǔ)并發(fā)送。車(chē)聯(lián)網(wǎng)系統(tǒng)一般具有實(shí)時(shí)實(shí)景功能,利用移動(dòng)網(wǎng)絡(luò)實(shí)現(xiàn)人車(chē)交互。其中傳感器(包括攝像頭、雷達(dá)、速度等傳感器)所采集的信息是從不同機(jī)理和角度采集,比較片面孤立。當(dāng)遇到復(fù)雜路況及突發(fā)工況時(shí),自然語(yǔ)音辨識(shí)的信息采集交互介入,能夠更加精準(zhǔn)判別車(chē)輛行駛中的真實(shí)工況。同時(shí)采用旋律識(shí)別技術(shù)對(duì)旋律節(jié)奏及特征的識(shí)別,將音樂(lè)做旋律分析和歸類(lèi),基于音樂(lè)旋律和人類(lèi)起居生理特征提供音樂(lè)服務(wù),以駕駛環(huán)境下的汽車(chē)駕駛員為例,可以提供符合人體工程學(xué)的人性化音樂(lè)服務(wù),營(yíng)造舒適的音樂(lè)氛圍,降低汽車(chē)駕駛員的駕駛疲勞。語(yǔ)音識(shí)別技術(shù)對(duì)特定人的聲紋提取,基于聲紋的身份驗(yàn)證及語(yǔ)音指令驗(yàn)證,探索完整的聲紋鑒定商用解決方案。
2.車(chē)聯(lián)網(wǎng)平臺(tái)下語(yǔ)音識(shí)別系統(tǒng)的研發(fā)
車(chē)聯(lián)網(wǎng)平臺(tái)下語(yǔ)音識(shí)別系統(tǒng)的研發(fā)的主要內(nèi)容有:分析漢語(yǔ)自然語(yǔ)音的特點(diǎn),提取自然語(yǔ)音識(shí)別目標(biāo)的關(guān)鍵特征;建立相關(guān)特征識(shí)別算法;采集不同地區(qū)人員的自然語(yǔ)音數(shù)據(jù),并使用特征識(shí)別算法,提取特征,并對(duì)特征數(shù)據(jù)進(jìn)行相應(yīng)分類(lèi),運(yùn)用人工智能算法進(jìn)行訓(xùn)練識(shí)別,確定特征值;對(duì)采集語(yǔ)音數(shù)據(jù)與特征值進(jìn)行比對(duì)分析,矯正特征值;在特征值基礎(chǔ)上進(jìn)行語(yǔ)音譜分析,結(jié)合時(shí)域與頻域特點(diǎn)從總體角度分析。針對(duì)車(chē)內(nèi)不同工況,采集背景噪聲并進(jìn)行分析,得到語(yǔ)音及噪聲頻譜特征;在語(yǔ)音譜識(shí)別基礎(chǔ)上,建立降噪模型;設(shè)計(jì)一套典型的車(chē)內(nèi)操控指令集,對(duì)這些指令進(jìn)行信號(hào)采集與分析;針對(duì)在汽車(chē)內(nèi)采集到的語(yǔ)音指令,設(shè)計(jì)噪聲抑制模塊來(lái)濾除噪聲;基于車(chē)聯(lián)網(wǎng)平臺(tái),建立車(chē)輛自然語(yǔ)音識(shí)別介入判別規(guī)則;開(kāi)發(fā)硬件系統(tǒng)和軟件系統(tǒng);在車(chē)聯(lián)網(wǎng)平臺(tái),進(jìn)行實(shí)車(chē)測(cè)試。由于語(yǔ)音信號(hào)是一個(gè)非平穩(wěn)過(guò)程,因此適用于周期、瞬變或平穩(wěn)隨機(jī)信號(hào)的標(biāo)準(zhǔn)傅立葉變換不能用來(lái)直接表示語(yǔ)音信號(hào),如何建立短時(shí)變換算法對(duì)語(yǔ)音信號(hào)的頻譜進(jìn)行分析,建立相應(yīng)的頻譜“短時(shí)譜”,語(yǔ)音辨識(shí)訓(xùn)練指的是按照一定的準(zhǔn)則,從大量已知的語(yǔ)音樣本中提取出能表示該模式特征的模型⑹,在語(yǔ)音識(shí)別的流程中,即為從大量的相似的語(yǔ)音信號(hào)中提取出它們共同的特征以得到一個(gè)聲學(xué)模型(參考模板)。而模式匹配則指的是根據(jù)一定的準(zhǔn)則,使測(cè)試信號(hào)與已知聲學(xué)模型中的某一模型相匹配。當(dāng)前的匹配算法沒(méi)有考慮汽車(chē)行駛中噪聲影響情況下,針對(duì)汽車(chē)內(nèi)工況辨識(shí)效果不良的問(wèn)題。針對(duì)此問(wèn)題,建立語(yǔ)音譜特征分析方法,降低噪聲對(duì)語(yǔ)音辨識(shí)產(chǎn)生的干擾。建立聲紋識(shí)別技術(shù),并對(duì)特定人的聲紋進(jìn)行提取,基于聲紋的身份驗(yàn)證及語(yǔ)音指令驗(yàn)證,制定完整的聲紋鑒定商用解決方案。
3.車(chē)載語(yǔ)音識(shí)別系統(tǒng)
車(chē)載語(yǔ)音識(shí)別的本質(zhì),就是一種模式識(shí)別理論。動(dòng)態(tài)時(shí)間歸正、隱性馬爾科夫鏈模型等都是如此。總之,一個(gè)完整的車(chē)載語(yǔ)音識(shí)別系統(tǒng)包含以下三個(gè)部分:
1.前端處理和特征提取:通過(guò)對(duì)信號(hào)適當(dāng)?shù)姆糯蠛驮鲆婵刂疲瑢?duì)其濾波和消除干擾,再進(jìn)行數(shù)字化,然后從中提取特征序列,用反映語(yǔ)音特點(diǎn)的一些參數(shù)來(lái)表征信號(hào)特性;
2.識(shí)別算法:對(duì)語(yǔ)音信號(hào)提取了特征參數(shù),以此來(lái)表征信號(hào)的特性,并且生成參考模式庫(kù)。在對(duì)待測(cè)信號(hào)進(jìn)行識(shí)別時(shí)同樣先對(duì)其進(jìn)行特征參數(shù)提取,然后逐一與參考模式庫(kù)中的各模板進(jìn)行匹配求取失真度,據(jù)此判斷最佳的識(shí)別結(jié)果;
3.語(yǔ)義理解:完成識(shí)別判斷后,將識(shí)別結(jié)果以某種指令或者表現(xiàn)形式輸出,讓計(jì)算機(jī)據(jù)此執(zhí)行相應(yīng)的操作,這就是識(shí)別結(jié)果的輸出,即語(yǔ)義理解。
車(chē)聯(lián)網(wǎng)平臺(tái)下語(yǔ)音識(shí)別系統(tǒng)的研發(fā)解決方案:系統(tǒng)研發(fā)旨在解決自然語(yǔ)言在汽車(chē)內(nèi)噪音工況下的語(yǔ)音辨識(shí)。掌握語(yǔ)音辨識(shí)機(jī)理理論及算法;明確各算法優(yōu)缺點(diǎn)及適用對(duì)象,針對(duì)汽車(chē)內(nèi)噪聲存在的特殊環(huán)境下,構(gòu)建自然語(yǔ)音譜辨識(shí)方法;采集不同地區(qū)語(yǔ)音數(shù)據(jù),利用自然語(yǔ)音譜辨識(shí)方法進(jìn)行語(yǔ)音辨識(shí)訓(xùn)練;提取出表征信號(hào)的特性,并且生成語(yǔ)音辨識(shí)參考模式庫(kù);搭建語(yǔ)音辨識(shí)硬件平臺(tái);進(jìn)行硬件平臺(tái)測(cè)試并修正優(yōu)化相應(yīng)算法,具體流程詳見(jiàn)圖1。
參考文獻(xiàn)
[1] 施衛(wèi)東.淺談車(chē)聯(lián)網(wǎng)技術(shù)的應(yīng)用[J].計(jì)算機(jī)光盤(pán)軟件與應(yīng)用,2015,(01):39-40
[2] 潘梁生.列車(chē)車(chē)載語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2016.
[3] 劉筠,盧超.新型車(chē)載語(yǔ)音識(shí)別系統(tǒng)中的一種關(guān)鍵技術(shù)[J].微處理機(jī),2008,(04):177-180
關(guān)鍵詞:語(yǔ)音識(shí)別;神經(jīng)網(wǎng)絡(luò);遺傳算法;遺傳神經(jīng)網(wǎng)絡(luò)
中圖分類(lèi)號(hào):TP183文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)22-774-03
Research of Speech Recognition Based on Genetic Neural Network
ZHAO Feng
(Computer School of Wuhan University,Wuhan 430081,China)
Abstract:This Paper mainly studies the application of the BP neural network in the research of speech recognition. BP neural network can get higher identification precision, but its training speed is very low. a new recognizing algorithm based on BP algorithm by combining with the good effect method in ANN which named genetic algorithm(GA) was proposed and used to improve the BP neural network . Experiment results show that the training speed can be accelerated by the method and the recognition performance is also promoted.
Key words: speech recognition; neural network; genetic algorithm; genetic neural network
1 引言
語(yǔ)音識(shí)別SR(Speech Recognition)是指讓機(jī)器聽(tīng)懂人說(shuō)的話,即在各種情況下,準(zhǔn)確地識(shí)別出語(yǔ)音的內(nèi)容,從而根據(jù)其信息,執(zhí)行人的各種意圖[1]。現(xiàn)代語(yǔ)音識(shí)別技術(shù)以神經(jīng)網(wǎng)絡(luò)為主要發(fā)展趨勢(shì),進(jìn)入20世紀(jì)90年代以來(lái),神經(jīng)網(wǎng)絡(luò)已經(jīng)成為語(yǔ)音識(shí)別的一條重要途徑。由于神經(jīng)網(wǎng)絡(luò)反映了人腦功能的基本特征,故具有自組織性、自適應(yīng)性和連續(xù)學(xué)習(xí)能力等特點(diǎn),特別適合于解決像語(yǔ)音識(shí)別這類(lèi)模擬人的認(rèn)知過(guò)程和智能處理能力,難以用算法來(lái)描述而又有大量樣本可供學(xué)習(xí)的問(wèn)題[2]。
人工神經(jīng)網(wǎng)絡(luò)(ANN)是采用大量的簡(jiǎn)單處理單元廣泛連接起來(lái)構(gòu)成的一種復(fù)雜信息處理網(wǎng)絡(luò)。網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)是應(yīng)用一系列輸入矢量,通過(guò)已確定的算法逐步調(diào)整網(wǎng)絡(luò)的權(quán)值,最終達(dá)到期望的目標(biāo)。BP神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中前向神經(jīng)網(wǎng)絡(luò)的核心部分,BP算法的學(xué)習(xí)過(guò)程由信號(hào)的正向傳播和誤差的反向傳播組成。隨著誤差逆?zhèn)鞑バ拚牟粩噙M(jìn)行,網(wǎng)絡(luò)對(duì)輸入模式響應(yīng)的正確率不斷上升。然而B(niǎo)P算法是一種梯度下降算法,梯度下降存在多極值問(wèn)題,且BP網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練速度慢,容易陷入局部最小或振蕩。因此,參數(shù)的選擇非常重要。為克服標(biāo)準(zhǔn)BP算法存在的各種缺點(diǎn),本文研究用BP算法結(jié)合人工智能領(lǐng)域較為有效的方法――遺傳(GA)算法來(lái)訓(xùn)練網(wǎng)絡(luò)進(jìn)行語(yǔ)音識(shí)別,仿真實(shí)驗(yàn)表明,GABP算法使BP網(wǎng)絡(luò)在收斂速度上有了很大提高,尤其是克服了容易陷入局部最小值的缺點(diǎn),基于GABP的語(yǔ)音識(shí)別系統(tǒng)的最高識(shí)別率和平均識(shí)別率都有了很大的提高。
2 語(yǔ)音識(shí)別的基本原理
大部分基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)識(shí)別功能都要經(jīng)過(guò)從特征參數(shù)提取到應(yīng)用識(shí)別算法進(jìn)行識(shí)別的過(guò)程,該過(guò)程如下圖1所示:
■
圖1 語(yǔ)音識(shí)別系統(tǒng)原理框圖
該文主要面向孤立數(shù)字識(shí)別系統(tǒng)作一些改進(jìn)研究,其基本識(shí)別過(guò)程也符合上圖1描述:輸入的語(yǔ)音信號(hào)首先進(jìn)行預(yù)處理,包括抗混疊濾波、聲音的預(yù)加重、加窗分癥處理與端點(diǎn)檢測(cè)等。預(yù)加重的目的是在于濾出低頻干擾,尤其是50Hz或60Hz的工頻干擾,將對(duì)于語(yǔ)音識(shí)別更為有用的高頻部分的頻譜進(jìn)行提升,以便于語(yǔ)音參數(shù)分析。
預(yù)加重濾波器傳遞函數(shù)為: H(Z)=1-0.9375Z-1(1)
若S(n)為預(yù)加重前語(yǔ)音信號(hào),則經(jīng)過(guò)預(yù)加重濾波器后得到的信號(hào)■(n)為:
■(n)= S(n)-0.9375 S(n-1)(2)
該文主要完成孤立數(shù)字識(shí)別,所要求識(shí)別的字?jǐn)?shù)不多,對(duì)環(huán)境的噪聲的適應(yīng)能力的要求也并不高,因此采用了目前比較流行的雙門(mén)限端點(diǎn)檢測(cè)算法,借助于語(yǔ)音信號(hào)短時(shí)平均能量和短時(shí)過(guò)零率來(lái)判定語(yǔ)音有效范圍的開(kāi)始和結(jié)束。
語(yǔ)音信號(hào)經(jīng)過(guò)預(yù)處理后,接下來(lái)很重要的一環(huán)就是進(jìn)行特征提取,常用的特征包括短時(shí)平均能量和幅度、短時(shí)平均過(guò)零率、線性預(yù)測(cè)系數(shù)(LPC)、短時(shí)傅里葉變換和Mel頻率倒譜系數(shù)(MFCC)。語(yǔ)音特征參數(shù)的時(shí)間序列構(gòu)成了語(yǔ)音的模式,將其與通過(guò)應(yīng)用一系列已知信號(hào)訓(xùn)練提取的參考模式逐一進(jìn)行比較,獲得最佳匹配的參考模式便是識(shí)別結(jié)果。本文中對(duì)于預(yù)處理的每個(gè)有效語(yǔ)音信號(hào)段,都要提取其12個(gè)一階MFCC系數(shù),提取過(guò)程為:用漢明窗將語(yǔ)音切割成長(zhǎng)短一致的語(yǔ)音幀,對(duì)每幀語(yǔ)音進(jìn)行正反傅里葉變換,經(jīng)對(duì)數(shù)和離散余弦變換后取前12個(gè)數(shù)作為MFCC系數(shù)來(lái)描述每一個(gè)幀。最后將每個(gè)語(yǔ)音信號(hào)對(duì)應(yīng)的MFCC系數(shù)序列用K-means聚類(lèi)算法進(jìn)行聚類(lèi),分為4個(gè)聚類(lèi),使得每個(gè)語(yǔ)音信號(hào)都得到相應(yīng)的12個(gè)4維一階MFCC系數(shù),即可作為語(yǔ)音的特征參數(shù)成為神經(jīng)網(wǎng)絡(luò)的輸入信號(hào)。
3 語(yǔ)音識(shí)別中的BP網(wǎng)絡(luò)構(gòu)造
語(yǔ)音識(shí)別中的BP網(wǎng)絡(luò)構(gòu)造主要包括輸入層、隱層、輸出層、初始權(quán)值、學(xué)習(xí)速率與期望誤差的選取幾個(gè)方面的問(wèn)題。
1) 網(wǎng)絡(luò)層數(shù):理論上,在不限制隱層節(jié)點(diǎn)數(shù)的情況下,兩層(只有一個(gè)隱層)的BP網(wǎng)絡(luò)可以實(shí)現(xiàn)任意非線性映射。當(dāng)模式樣本很多時(shí),減小網(wǎng)絡(luò)規(guī)模,增加一個(gè)隱層是必要的,但BP網(wǎng)絡(luò)隱層數(shù)一般不超過(guò)兩層。本文所要求識(shí)別的模式樣本不多,因此一個(gè)隱層已經(jīng)足夠。
2) 輸入層節(jié)點(diǎn)數(shù):在BP網(wǎng)絡(luò)語(yǔ)音識(shí)別系統(tǒng)中,輸入層節(jié)點(diǎn)數(shù)與選取的語(yǔ)音信號(hào)特征參數(shù)的維度和階數(shù)有關(guān)。本文中每個(gè)語(yǔ)音信號(hào)都得到相應(yīng)的12個(gè)4維一階MFCC系數(shù),故輸入層的節(jié)點(diǎn)數(shù)為12×4=48。
3) 輸出層節(jié)點(diǎn)數(shù):輸出層的節(jié)點(diǎn)數(shù)取決于輸出數(shù)據(jù)的類(lèi)型和表示該類(lèi)型所需的數(shù)據(jù)大小。當(dāng)BP網(wǎng)絡(luò)用于語(yǔ)音識(shí)別時(shí),以二進(jìn)制形式來(lái)表示不同的識(shí)別結(jié)果,則輸出層的節(jié)點(diǎn)數(shù)可根據(jù)訓(xùn)練模板的語(yǔ)音數(shù)來(lái)確定。本文設(shè)定輸出節(jié)點(diǎn)數(shù)為10,分別對(duì)應(yīng)于0~9這10個(gè)數(shù)字。
4) 隱層節(jié)點(diǎn)數(shù):通過(guò)采用一個(gè)隱層,增加其神經(jīng)元數(shù)的方法來(lái)達(dá)到網(wǎng)絡(luò)訓(xùn)練精度的提高,這在結(jié)構(gòu)上,要比增加更多的隱層簡(jiǎn)單的多。但究竟選取多少個(gè)隱層節(jié)點(diǎn)才合適?在理論上并沒(méi)有個(gè)明確的規(guī)定。在具體設(shè)計(jì)時(shí),比較實(shí)際的做法是通過(guò)對(duì)不同神經(jīng)元數(shù)進(jìn)行訓(xùn)練對(duì)比,然后適當(dāng)?shù)募由弦稽c(diǎn)余量[4]。一般可利用下面式子決定:
n1=■+a(3)
其中n1為隱層節(jié)數(shù);m為輸入節(jié)點(diǎn)數(shù);n為輸出節(jié)點(diǎn)數(shù);a為取1~10的常數(shù)。本實(shí)驗(yàn)中輸入節(jié)點(diǎn)數(shù)為48,輸出節(jié)點(diǎn)數(shù)為10,a選取為常數(shù)4,因此隱層節(jié)點(diǎn)數(shù)n1=12。
5) 初始權(quán)值:由于系統(tǒng)是非線性的,初始值對(duì)于學(xué)習(xí)是否達(dá)到局部最小、是否能收斂以及訓(xùn)練時(shí)間的長(zhǎng)短關(guān)系很大。一般總是希望經(jīng)過(guò)初始加權(quán)后的每個(gè)神經(jīng)元的輸出值都接近于零。所以,一般取初始值在(-1,1)之間的隨機(jī)數(shù)。
6) 學(xué)習(xí)速率與期望誤差的選取:學(xué)習(xí)速率決定每一次循環(huán)訓(xùn)練中所產(chǎn)生的權(quán)值變化量。小的學(xué)習(xí)速率雖然會(huì)導(dǎo)致收斂速度慢,不過(guò)能保證網(wǎng)絡(luò)的誤差值不跳出誤差表面的低谷而最終趨于最小值。所以,一般情況下,學(xué)習(xí)速率的選取范圍在0.01~0.8之間。期望誤差0.000001。
解決了上述幾個(gè)方面的問(wèn)題后,本文采用三層結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò),如圖2所示:輸入層各節(jié)點(diǎn)將輸入信號(hào)經(jīng)權(quán)重藕合到隱層的每個(gè)節(jié)點(diǎn),隱層各節(jié)點(diǎn)對(duì)來(lái)自前一層的信號(hào)加權(quán),經(jīng)激發(fā)函數(shù)轉(zhuǎn)換后再藕合到輸出層。
4 基于遺傳神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別
本文研究引用遺傳算法對(duì)網(wǎng)絡(luò)的初始連接權(quán)值進(jìn)行優(yōu)化處理,用BP算法完成給定精度的學(xué)習(xí)。
4.1 個(gè)體編碼方案
編碼對(duì)于網(wǎng)絡(luò)進(jìn)化過(guò)程的性能和效率影響很大,因此,編碼技術(shù)是連接權(quán)值進(jìn)化過(guò)程中學(xué)解決的首要問(wèn)題和關(guān)鍵步驟。本文中考慮到BP網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)和結(jié)構(gòu)已經(jīng)固定,可以采用實(shí)數(shù)編碼方案,將網(wǎng)絡(luò)的權(quán)值和各節(jié)點(diǎn)的閥值依此排列得到一個(gè)向量。
假設(shè)一個(gè)具有m個(gè)節(jié)點(diǎn)的n層BP網(wǎng)絡(luò),如果第i個(gè)節(jié)點(diǎn)對(duì)應(yīng)的權(quán)值分別為vi(vi[-1,+1]),則一個(gè)個(gè)體用實(shí)數(shù)向量表示為X=(v1,v2,…vm)。
4.2 適應(yīng)度函數(shù)的選擇
一個(gè)網(wǎng)絡(luò)連接權(quán)值優(yōu)劣的標(biāo)準(zhǔn),是根據(jù)網(wǎng)絡(luò)對(duì)一組輸入得到的實(shí)際輸出與期望輸出之間的誤差大小來(lái)制定的。BP網(wǎng)絡(luò)中誤差平分和小,則表示該網(wǎng)絡(luò)性能比較好。本文中適應(yīng)度函數(shù)為:
f(x)=■(4)
其中,E為神經(jīng)網(wǎng)絡(luò)的輸出誤差,即:
■(5)
其中n為學(xué)習(xí)樣本總數(shù),yk,■k為第k個(gè)個(gè)體的期望輸出和實(shí)際輸出向量。
4.3 進(jìn)化參數(shù)
連接權(quán)的進(jìn)化過(guò)程中所涉及到的主要進(jìn)化參數(shù)有:種群規(guī)模、交叉率、變異率和進(jìn)化代數(shù)等等。交叉是最主要的進(jìn)化操作,交叉率是指各代中交叉產(chǎn)生的后代數(shù)與種群規(guī)模之比。常用的交叉率取值范圍為0.6~1.0。變異率是指種群中變異的基因數(shù)占總基因數(shù)的比例,其值控制了新基因引入的比例。常用變異率的數(shù)量級(jí)范圍為0.1~0.001。 種群規(guī)模是連接權(quán)進(jìn)化過(guò)程首先需要確定的參數(shù),是算法會(huì)否陷入局部解的主要影響因素。綜合考慮BP網(wǎng)絡(luò)的初始連接權(quán)值和交叉率、變異率的選擇,這里選擇種群規(guī)模為50。
5 仿真實(shí)驗(yàn)結(jié)果
仿真實(shí)驗(yàn)為針對(duì)非特定人的孤立數(shù)字詞語(yǔ)音識(shí)別。語(yǔ)音數(shù)據(jù)由二男二女(0到9共10個(gè)數(shù)字的普通話發(fā)音)通過(guò)PC話筒輸入,每個(gè)音每人發(fā)20遍,共計(jì)1000次發(fā)音,其中以每人每個(gè)音的前10次作訓(xùn)練樣本,后10次作測(cè)試樣本,錄音環(huán)境為安靜實(shí)驗(yàn)室,采樣頻率為11.025kHz。
經(jīng)過(guò)反復(fù)實(shí)驗(yàn),不斷改善實(shí)驗(yàn)環(huán)境,基于演化神經(jīng)網(wǎng)絡(luò)的識(shí)別得到了相對(duì)較高的識(shí)別率。對(duì)實(shí)驗(yàn)結(jié)果分析可知,結(jié)合了GA算法的BP網(wǎng)絡(luò)通過(guò)GA全局搜索得到一個(gè)權(quán)值最優(yōu)解,只迭代了151次便使得誤差值為0.000001 ,而普通BP算法要迭代517才能勉強(qiáng)達(dá)到期望誤差,由此可知,結(jié)合了GA算法的BP網(wǎng)絡(luò)避免了局部極小,減低了學(xué)習(xí)速率,提高了收斂速度。
表1 基于遺傳神經(jīng)網(wǎng)絡(luò)與普通BP網(wǎng)絡(luò)語(yǔ)音識(shí)別系統(tǒng)對(duì)比表
■
通過(guò)表1對(duì)比可知,基于演化神經(jīng)網(wǎng)絡(luò)識(shí)別算法的語(yǔ)音識(shí)別系統(tǒng)無(wú)論是在訓(xùn)練時(shí)的收斂速度還是在最后的識(shí)別率上,都要優(yōu)于普通的BP網(wǎng)絡(luò)語(yǔ)音識(shí)別系統(tǒng)。
6 結(jié)論
語(yǔ)音信號(hào)處理和神經(jīng)網(wǎng)絡(luò)均是目前研究的熱點(diǎn),文章主要針對(duì)語(yǔ)音識(shí)別的特點(diǎn),結(jié)合人工智能領(lǐng)域兩種比較有效的方法――BP網(wǎng)絡(luò)和GA算法,構(gòu)建了一種基于遺傳神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別算法。仿真實(shí)驗(yàn)結(jié)果表明,該算法避免了傳統(tǒng)BP算法容易陷入局部極小的缺點(diǎn),減低了訓(xùn)練時(shí)間,有效的提高了系統(tǒng)識(shí)別率。
參考文獻(xiàn):
[1] 趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003.
[2] 蔡蓮紅,黃德智,蔡銳.現(xiàn)代語(yǔ)音技術(shù)基礎(chǔ)于應(yīng)用[M].北京:清華大學(xué)出版社,2003.
[3] 易克初.語(yǔ)音信號(hào)處理[M].北京:國(guó)防工業(yè)出版社,2000.
[4] 孫寧,孫勁光,孫宇.基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別技術(shù)研究[J].計(jì)算機(jī)與數(shù)字工程,2005,34(3):58-61.
[5] 何英.Matlab擴(kuò)展編程[M].北京:清華大學(xué)出版社,2002.
關(guān)鍵詞:語(yǔ)音識(shí)別 端點(diǎn)檢測(cè) 特征參數(shù) DTW算法
中圖分類(lèi)號(hào):TN912 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2011)12-0184-02
1、語(yǔ)音識(shí)別系統(tǒng)概述
語(yǔ)音信號(hào)是一種典型的非平穩(wěn)信號(hào),并且在錄音過(guò)程中不免受到電噪音,呼吸產(chǎn)生的氣流噪音以及錄音環(huán)境下的突發(fā)噪音的影響,所以語(yǔ)音信號(hào)要經(jīng)過(guò)預(yù)濾波、采樣量化、分幀、加窗、預(yù)加重、端點(diǎn)檢測(cè)等預(yù)處理過(guò)程后才可以進(jìn)行下一步的特征征參數(shù)提取等工作。在接下來(lái)的語(yǔ)音訓(xùn)練階段,我們將那些信號(hào)狀態(tài)良好,攜帶噪聲小且特征參數(shù)穩(wěn)定的語(yǔ)音信號(hào)作為指定詞條的模板,進(jìn)而為每個(gè)詞條創(chuàng)建一個(gè)模板并保存為模板庫(kù)。在識(shí)別階段,語(yǔ)音信號(hào)經(jīng)過(guò)相同的通道生成測(cè)試模板,用相同的方法計(jì)算測(cè)試模板的特征參數(shù)后,將其與模板庫(kù)模板的特征參數(shù)進(jìn)行匹配,配分?jǐn)?shù)最高的參考模板作為識(shí)別結(jié)果。
2、語(yǔ)音信號(hào)的錄入
語(yǔ)音信號(hào)的采集方法有很多,鑒于該系統(tǒng)是在MATLAB上實(shí)現(xiàn),且MATLAB本身提供了一定的音頻處理函數(shù),因此我們完全可以采用在MATLAB中先完成錄音函數(shù)的編寫(xiě),然后再結(jié)合windows自帶的錄音設(shè)備進(jìn)行錄音。錄音得到的wav文件即是經(jīng)過(guò)預(yù)濾波采樣和量化的語(yǔ)音。利用soundview讀所錄入的文件時(shí),會(huì)彈出一個(gè)GUI界面,并可以通過(guò)輸出設(shè)備對(duì)所錄語(yǔ)音進(jìn)行回訪,該GUI界面如圖1所示。單擊Play Again按鈕可可回放,單擊Done按鈕可關(guān)閉界面。
3、語(yǔ)音信號(hào)的預(yù)加重
我們知道,對(duì)語(yǔ)音識(shí)別更有用的是語(yǔ)音的高頻部分,而對(duì)于語(yǔ)音信號(hào)的頻譜,通常是頻率越高幅值越低。因此我們必須對(duì)語(yǔ)音的高頻進(jìn)行加重處理。處理方法是將語(yǔ)音信號(hào)通過(guò)一個(gè)一階高通濾波器,即預(yù)加重濾波器,它不僅能濾除低頻提升高頻,還能很好的抑制50Hz到60Hz的工頻干擾。尤其在短點(diǎn)檢測(cè)之前進(jìn)行預(yù)加重還可起到消除直流漂移、抑制隨機(jī)噪聲和提升清音部分能量的效果。預(yù)加重在Matlab中可由語(yǔ)句x=filter([1-0.9375],1,x)實(shí)現(xiàn)。
4、語(yǔ)音信號(hào)的分幀和加窗
經(jīng)過(guò)數(shù)字化的語(yǔ)音信號(hào)實(shí)際上是一個(gè)時(shí)變信號(hào),為了能用傳統(tǒng)的方法對(duì)語(yǔ)音信號(hào)進(jìn)行分析,應(yīng)假設(shè)語(yǔ)音信號(hào)在10ms-30ms內(nèi)是短時(shí)平穩(wěn)的。為了得到短時(shí)的語(yǔ)音信號(hào),要對(duì)語(yǔ)音信號(hào)進(jìn)行加窗操作。窗函數(shù)平滑地在語(yǔ)音信號(hào)上滑動(dòng),將語(yǔ)音信號(hào)進(jìn)行分幀,幀與幀的交疊為幀移,一般為窗長(zhǎng)的一半。
語(yǔ)音信號(hào)的分幀采用enframe函數(shù),其語(yǔ)法為f=enframe(x,len,inc);其中X為輸入的語(yǔ)音信號(hào),len為制定的幀長(zhǎng),inc為指定幀移。函數(shù)將返回一個(gè)n×len的一個(gè)矩陣,每行都是一幀數(shù)據(jù)。在本系統(tǒng)中幀長(zhǎng)取240,幀移取80。在Matlab中要實(shí)現(xiàn)加窗即將分幀后的語(yǔ)音信號(hào)乘上窗函數(shù),本文加漢明窗,即為x=x.*hamming(N)。
5、端點(diǎn)檢測(cè)
在語(yǔ)音識(shí)別系統(tǒng)中,訓(xùn)練階段和建模階段都比較重要的環(huán)節(jié)都是要先通過(guò)端點(diǎn)檢測(cè)找到語(yǔ)音的起點(diǎn)和終點(diǎn),這樣,我們就可以只對(duì)有效語(yǔ)音進(jìn)行處理,這對(duì)于識(shí)別的準(zhǔn)確率和識(shí)別效率至關(guān)重要。本論文在短點(diǎn)檢測(cè)環(huán)節(jié)采用雙門(mén)限端點(diǎn)檢測(cè)法,即采用短時(shí)能量檢測(cè)和短時(shí)過(guò)零率檢測(cè)雙重指標(biāo)約束。結(jié)合實(shí)際,我們將整個(gè)語(yǔ)音端點(diǎn)檢測(cè)分為四個(gè)段落,即:無(wú)聲段、等待段、語(yǔ)音段、結(jié)束段,再為短時(shí)能量和短時(shí)過(guò)零率各設(shè)置一個(gè)高門(mén)限和一個(gè)低門(mén)限:EHigh、ELow和ZHigh、ZLow。結(jié)合MATLAB中所編程序,可以較準(zhǔn)確的確定語(yǔ)音的各個(gè)部分。圖2所示為語(yǔ)音“1”的處理結(jié)果。
6、特征參數(shù)的提取
經(jīng)過(guò)預(yù)處理的語(yǔ)音數(shù)據(jù)就可以進(jìn)行特征參數(shù)提取,特征參數(shù)的好壞將直接影響系統(tǒng)的性能和效率。本文將梅爾倒譜系數(shù)(MFCC)和一階MFCC系數(shù)的差分結(jié)合起來(lái),將其合并為一個(gè)矢量作為一幀語(yǔ)音信號(hào)的參數(shù),這樣,不僅描述了語(yǔ)音的靜態(tài)特性,由于加入了差分倒譜參數(shù),語(yǔ)音的動(dòng)態(tài)特性得到了更好的體現(xiàn)。梅爾倒譜參數(shù)的計(jì)算流程為:先將預(yù)處理過(guò)的語(yǔ)音信號(hào)進(jìn)行快速傅立葉變換,將時(shí)域信號(hào)變換成為信號(hào)的功率譜。 再用一組Mel頻標(biāo)上線性分布的三角窗濾波器(本文采用24個(gè)三角窗濾波器)對(duì)信號(hào)的功率譜濾波,每一個(gè)三角窗濾波器覆蓋的范圍都近似于人耳的一個(gè)臨界帶寬,以此來(lái)模擬人耳的掩蔽效應(yīng)。然后對(duì)三角窗濾波器組的輸出求取對(duì)數(shù),可以得到近似于同態(tài)變換的結(jié)果。最后去除各維信號(hào)之間的相關(guān)性,將信號(hào)映射到低維空間。 梅爾倒譜系數(shù)的計(jì)算差分參數(shù)的計(jì)算采用下面的公式:
7、模式匹配
本語(yǔ)音識(shí)別系統(tǒng)的模式匹配算法采用動(dòng)態(tài)時(shí)間彎折(Dynamic Time Warping,DTW)算法,該算法基于動(dòng)態(tài)規(guī)劃的思想,解決了發(fā)音長(zhǎng)短不一的模板匹配問(wèn)題。DTW是語(yǔ)音識(shí)別中出現(xiàn)較早,較為經(jīng)典的一種算法。與HMM算法相比而言,DTW算法具有計(jì)算量小,識(shí)別效率高的特點(diǎn)。模式匹配的過(guò)程其實(shí)就是根據(jù)一定的規(guī)則,計(jì)算輸入矢量特征與庫(kù)存模式之間的相似度,判斷出輸入語(yǔ)音的語(yǔ)意信息。本文中,失真測(cè)度采用下式所示的歐式距離:
其中,l=1,2,…M;i=1,2,…I;k=1,2,…K.是待測(cè)矢量之間的距離,是第i個(gè)碼本的第l個(gè)碼字矢量的第k個(gè)分量。I為說(shuō)話者的數(shù)量,M為碼本的大小,K為參數(shù)矢量的總維數(shù)。由上式得出該語(yǔ)音相對(duì)于該命令詞的最短距離,然后取最短距離最小的命令詞作為該段語(yǔ)音的首先識(shí)別結(jié)果。結(jié)合MATLAB程序,得到數(shù)字1-10的匹配距離矩陣:
圖3即為針對(duì)數(shù)字1-10的待測(cè)模板和模板庫(kù)模板匹配距離的現(xiàn)實(shí),由該距離矩陣,我們可以很清楚的看到,左上角到右下角的對(duì)角線上的距離匹配值在該值所在的行和列都是最小的。即距離最短的命令詞為識(shí)別結(jié)果。
8、結(jié)語(yǔ)
該論文闡述了基于DTW的語(yǔ)音識(shí)別系統(tǒng)在MATLAB上實(shí)現(xiàn)的基本過(guò)程,在實(shí)驗(yàn)室錄音情況下,該識(shí)別系統(tǒng)的識(shí)別率可以達(dá)到百分之九十以上,效果良好。
參考文獻(xiàn)
[1]趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003.
[2]何強(qiáng),何英. MATLAB擴(kuò)展編程[M].清華大學(xué)出版社,2002-06.
[3]李景川,董慧穎.一種改進(jìn)的基于短時(shí)能量的端點(diǎn)檢測(cè)算法[J].沈陽(yáng)理工大學(xué)學(xué)報(bào),2008.
[4]沈宏余,李英.語(yǔ)音端點(diǎn)檢測(cè)方法的研究[J].科學(xué)技術(shù)與工程,2008,(08).
[5]吳曉平,崔光照,路康.基于DTW算法的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)[J].電子工程師,2004,(07).
TTS是“Text To Speech”的縮寫(xiě),即“從文本到語(yǔ)音”。它同時(shí)運(yùn)用語(yǔ)言學(xué)和心理學(xué)的杰出之作,把文字智能地轉(zhuǎn)化為自然語(yǔ)音流。電子小說(shuō)軟件將文字讀出來(lái)、銀行營(yíng)業(yè)廳的語(yǔ)音叫號(hào)系統(tǒng)、詞霸朗讀單詞、手機(jī)朗讀短信和來(lái)電朋友的姓名……這就是目前應(yīng)用最廣泛的TTS語(yǔ)音識(shí)別技術(shù)。想了解其最新研究進(jìn)展可以訪問(wèn)網(wǎng)站/speech/tts.asp。那么,我們又是如何進(jìn)一步控制計(jì)算機(jī)的呢?
計(jì)算機(jī)為什么能聽(tīng)懂我們的話?
技術(shù)上,實(shí)現(xiàn)語(yǔ)音識(shí)別就是讓計(jì)算機(jī)通過(guò)識(shí)別和理解的過(guò)程把自然語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或計(jì)算機(jī)指令。語(yǔ)
音識(shí)別是一門(mén)交叉學(xué)科,所涉及的領(lǐng)域很廣,包括信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。
在語(yǔ)音識(shí)別過(guò)程中,首先要將說(shuō)話的聲音由模擬的語(yǔ)音信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),然后從信號(hào)中提取語(yǔ)音特征,同時(shí)進(jìn)行數(shù)據(jù)壓縮。輸入的模擬語(yǔ)音信號(hào)也要進(jìn)行預(yù)處理,包括預(yù)濾波、采樣和量化、加窗、端點(diǎn)檢測(cè)、預(yù)加重等。語(yǔ)音識(shí)別系統(tǒng)的模型通常由聲學(xué)模型和語(yǔ)言模型兩部分組成。
p語(yǔ)音輸入模式圖
p語(yǔ)音識(shí)別軟件工作流程圖
語(yǔ)音識(shí)別過(guò)程主要分為兩個(gè)階段:“學(xué)習(xí)”階段中,計(jì)算機(jī)的主要任務(wù)是建立識(shí)別基本單元的聲學(xué)模型以及進(jìn)行文法分析的語(yǔ)言模型,即構(gòu)建參考模式庫(kù);在“識(shí)別”階段,計(jì)算機(jī)根據(jù)識(shí)別系統(tǒng)的類(lèi)型選擇能夠滿足要求的識(shí)別方法,采用語(yǔ)音分析方法分析出這種識(shí)別方法所要求的語(yǔ)音特征參數(shù),按照一定的準(zhǔn)則和測(cè)度與參考模式庫(kù)中的模型進(jìn)行比較從而得出識(shí)別結(jié)果。
Vista,語(yǔ)音識(shí)別就在你身邊
微軟在最新推出的Vista中增加了上千個(gè)讓人耳目一新的新功能,其中之一便是能讓你與計(jì)算機(jī)進(jìn)行交談的“語(yǔ)音識(shí)別”技術(shù)。
其實(shí),Windows XP就已經(jīng)內(nèi)置了當(dāng)時(shí)較為先進(jìn)的TTS語(yǔ)音識(shí)別引擎,同時(shí)也支持語(yǔ)音輸入功能,不過(guò)要實(shí)現(xiàn)語(yǔ)音輸入功能還需要另外安裝語(yǔ)音輸入模塊。
而Windows Vista的語(yǔ)音識(shí)別功能已經(jīng)內(nèi)置在系統(tǒng)中,功能更為強(qiáng)大,我們可以通過(guò)說(shuō)話來(lái)讓計(jì)算機(jī)完成操作、輸入文字、將屏幕上的文字朗讀出來(lái)、處理文件夾和文件、通過(guò)IE瀏覽器來(lái)訪問(wèn)互聯(lián)網(wǎng)、單擊屏幕的任意位置、操作窗口和程序……這些功能基本上實(shí)現(xiàn)了通過(guò)語(yǔ)音命令來(lái)完成計(jì)算機(jī)的常用操作和語(yǔ)音輸入命令,對(duì)于某些特殊需要的人來(lái)說(shuō)非常實(shí)用。沒(méi)有配置鍵盤(pán)、鼠標(biāo)?記不清命令的路徑?手忙不過(guò)來(lái)?一樣可以通過(guò)說(shuō)話控制計(jì)算機(jī)。
pWindows Vista的語(yǔ)音識(shí)別向?qū)?/p>
p在Windows Vista控制面板中設(shè)置語(yǔ)音識(shí)別選項(xiàng)
pWindows Vista的語(yǔ)音識(shí)別工具欄窗口
p語(yǔ)音檢索識(shí)別。可以通過(guò)哼唱歌曲的段落在卡拉OK廳找出想唱的歌曲,通過(guò)說(shuō)話尋找手機(jī)電話本中的聯(lián)系人,甚至可以用手機(jī)通過(guò)哼唱音樂(lè)旋律來(lái)下載彩鈴。
p使用語(yǔ)音控制通過(guò)說(shuō)出不同鏈接的編號(hào)瀏覽網(wǎng)頁(yè)
如何找到并設(shè)置語(yǔ)音識(shí)別的功能呢?在Vista控制面板的搜索欄中輸入“語(yǔ)音識(shí)別選項(xiàng)”即可。需要注意的是,在
開(kāi)始設(shè)置之前請(qǐng)將麥克風(fēng)和音箱(或者耳機(jī))連接到計(jì)算機(jī)上。如果啟動(dòng)語(yǔ)音識(shí)別時(shí)提示錯(cuò)誤,可能是你開(kāi)啟了其他音頻軟件(比如Windows Media Player等音樂(lè)播放軟件),關(guān)閉這些軟件后就可以正常開(kāi)啟語(yǔ)音識(shí)別了。
開(kāi)啟Windows Vista的語(yǔ)音識(shí)別軟件后會(huì)出現(xiàn)一個(gè)語(yǔ)音識(shí)別設(shè)置向?qū)В谄渲袝?huì)引導(dǎo)你對(duì)麥克風(fēng)進(jìn)行設(shè)置以及進(jìn)行語(yǔ)音訓(xùn)練。語(yǔ)音訓(xùn)練是目前的語(yǔ)音識(shí)別軟件比較通用的一個(gè)使用前的設(shè)置工作,因?yàn)槲覀兠總€(gè)人的說(shuō)話口音和習(xí)慣都不同,計(jì)算機(jī)要聽(tīng)懂你說(shuō)的話當(dāng)然也需要提前學(xué)習(xí),大大提高語(yǔ)音識(shí)別的準(zhǔn)確率。
語(yǔ)音識(shí)別設(shè)置向?qū)Р粌H能幫助計(jì)算機(jī)學(xué)習(xí)和適應(yīng)你的說(shuō)話習(xí)慣,還能教給你語(yǔ)音識(shí)別的使用方法和常用的語(yǔ)音命令。設(shè)置完成并啟用語(yǔ)音識(shí)別功能以后,Windows的語(yǔ)音識(shí)別提示工具窗口會(huì)浮現(xiàn)在桌面上方以方便你隨時(shí)使用。這時(shí),我們就可以隨心所欲地通過(guò)與計(jì)算機(jī)“交談”來(lái)控制計(jì)算機(jī)了。特別值得一提的是,Vista的語(yǔ)音識(shí)別對(duì)于桌面控制和在使用瀏覽器瀏覽網(wǎng)頁(yè)上也更加人性化,比如它會(huì)自動(dòng)檢測(cè)并給網(wǎng)頁(yè)鏈接加上編號(hào),讀出編號(hào)即能訪問(wèn)相應(yīng)的鏈接了。
關(guān)鍵詞:漢語(yǔ)語(yǔ)言 識(shí)別技術(shù) 智能手機(jī) 經(jīng)濟(jì)效益
中圖分類(lèi)號(hào):TP212 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-9082(2017)01-0008-01
一、引言
語(yǔ)音識(shí)別技術(shù)也被稱(chēng)為自動(dòng)識(shí)別技術(shù),其目標(biāo)是將人類(lèi)語(yǔ)言中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,他是一門(mén)交叉性學(xué)科。語(yǔ)音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)與語(yǔ)音合成技術(shù)相結(jié)合使人們能夠擺脫鍵盤(pán),通過(guò)語(yǔ)音命令進(jìn)行操作。相應(yīng)地,我國(guó)這種語(yǔ)音識(shí)別技術(shù)更是“進(jìn)化”出適合中國(guó)國(guó)民應(yīng)用的漢語(yǔ)語(yǔ)言識(shí)別技術(shù)。由此不難看出,語(yǔ)音技術(shù)的應(yīng)用已經(jīng)跨越空間,成為一個(gè)在國(guó)際上具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。而該技術(shù)在智能手機(jī)中的應(yīng)用更是使得手機(jī)不斷革新,技術(shù)含金量越來(lái)越大。
二、漢語(yǔ)語(yǔ)言的特點(diǎn)
1.獨(dú)特的表意性質(zhì)。我們都知道,漢語(yǔ)語(yǔ)言博大精深,是世界上最難懂的語(yǔ)言之一,而它獨(dú)特的表意性也是的它心思人類(lèi)語(yǔ)林中獨(dú)樹(shù)一幟。漢語(yǔ)的構(gòu)詞方法基本是據(jù)意構(gòu)形,加上它用筆畫(huà)構(gòu)圖形,以此表達(dá)意思,讓它遠(yuǎn)遠(yuǎn)優(yōu)于那些音不辯形,形不之意的拼音文字。
2.靈活的構(gòu)詞能力。漢語(yǔ)從創(chuàng)始以來(lái)也經(jīng)歷了許多變化,從甲骨文、小篆、隸書(shū)、行書(shū)到如今的正楷,其筆畫(huà)越來(lái)越少,也越來(lái)越好寫(xiě)。在這些變化之外,他還吸收了許多其他民族的文化,豐富了本民族的語(yǔ)言文化。眾多的疊音詞、雙音詞等都在原來(lái)字的基礎(chǔ)上構(gòu)成新的詞語(yǔ)。更是運(yùn)用與電視、電腦上。這加速了計(jì)算機(jī)漢語(yǔ)語(yǔ)音識(shí)別技術(shù)的發(fā)展。
3.富有彈性的語(yǔ)言結(jié)構(gòu)。漢語(yǔ)的另外一個(gè)重要特點(diǎn)是,語(yǔ)法相對(duì)孤立容易,不像英語(yǔ)語(yǔ)法多而晦澀難懂。它在性質(zhì)、數(shù)量、時(shí)態(tài)、語(yǔ)態(tài)等方面都有比較固定的表達(dá)形式。
4.寓意深刻。在漢語(yǔ)語(yǔ)言中有許多手法,比如:比喻、借代、象征等,這些手法在語(yǔ)言中的使用都促進(jìn)了表達(dá)語(yǔ)句意義的深刻化。使得漢語(yǔ)語(yǔ)句聽(tīng)起來(lái)韻味十足,美而不膩。
三、漢語(yǔ)言語(yǔ)言識(shí)別技術(shù)在智能手機(jī)上的應(yīng)用
1.解鎖的應(yīng)用。眾所周知,智能手機(jī)以耗電量大著稱(chēng),以至于用戶在手機(jī)空閑時(shí)會(huì)按下休眠按鍵,手機(jī)也會(huì)從待機(jī)模式進(jìn)入休眠狀態(tài)。通過(guò)語(yǔ)音識(shí)別技術(shù),我們不用接觸手機(jī)就能夠把手機(jī)從休眠狀態(tài)下喚醒。這不僅使得解鎖更加便捷。
2.搜索引擎上的應(yīng)用。手機(jī)上的搜索類(lèi)引擎如今也呈現(xiàn)多樣發(fā)展的態(tài)勢(shì),如:百度、QQ瀏覽器、360搜索等。而隨著語(yǔ)音技術(shù)的發(fā)展,引擎類(lèi)搜索也運(yùn)用了語(yǔ)音搜索的搜索方式。這使人們搜索起來(lái)更加便捷,也在一定程度上節(jié)省了搜索者的時(shí)間。
3.社交軟件的運(yùn)用。首先是人們所熟悉的QQ、微信等上面存在的語(yǔ)音系統(tǒng),經(jīng)試驗(yàn)證明這些APP的出現(xiàn)不僅滿足了人們對(duì)各種社交的需求,而且在一定程度上緩解了人們處于快節(jié)奏生活中的壓力。
四、漢語(yǔ)語(yǔ)音識(shí)別技術(shù)應(yīng)用于智能手機(jī)帶來(lái)的經(jīng)濟(jì)效益
第一,伴隨著漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用而衍生的一系列語(yǔ)音類(lèi)型的APP為經(jīng)濟(jì)發(fā)展帶來(lái)了新的生態(tài)環(huán)境。例如:唱吧,一款網(wǎng)絡(luò)KTV。在此APP 中,通過(guò)注冊(cè)會(huì)員、界面廣告等來(lái)獲得收益。
第二,通過(guò)智能手機(jī)的發(fā)展而衍生出的相關(guān)數(shù)碼產(chǎn)品。例如:小天才電話手表。通過(guò)語(yǔ)音識(shí)別來(lái)?yè)艽螂娫挼墓δ苁沁@款電話手表的特色功能,他符合了小朋友的身份,發(fā)揮了漢語(yǔ)語(yǔ)音識(shí)別的優(yōu)勢(shì),為數(shù)碼市場(chǎng)帶來(lái)的經(jīng)濟(jì)新氣象。
第三,給智能手機(jī)行業(yè)帶來(lái)新的經(jīng)濟(jì)增長(zhǎng)點(diǎn)。語(yǔ)音識(shí)別在智能手機(jī)上的應(yīng)用為智能手機(jī)市場(chǎng)帶來(lái)了新一批的客源,而這些客源大都為青年人。這些青年人擁有消費(fèi)需求與消費(fèi)能力大,接受新事物的速度快等特點(diǎn),而這些特點(diǎn)正好與手機(jī)市場(chǎng)換代速度快相契合。不僅活躍了市場(chǎng),更是活躍了經(jīng)濟(jì)。
第四,促進(jìn)了手機(jī)品牌的形成,塑造了品牌形象。這種特有的語(yǔ)音識(shí)別技術(shù)對(duì)智能手機(jī)自身品牌的塑造來(lái)說(shuō)存在著巨大作用并促進(jìn)了其品牌手機(jī)的消費(fèi)量。以華為X9為例,在迪信通8月手機(jī)銷(xiāo)量排行榜中,華為以絕對(duì)優(yōu)勢(shì)占據(jù)榜首。
五、對(duì)漢語(yǔ)語(yǔ)音識(shí)別技術(shù)的應(yīng)用的一些思考
當(dāng)前,漢語(yǔ)音識(shí)別技術(shù)廣泛地應(yīng)用于智能手機(jī)中,極大地促進(jìn)了手機(jī)的便捷性,帶動(dòng)了手機(jī)的發(fā)展和銷(xiāo)售有了一個(gè)質(zhì)的飛躍。然而,我們不得不反思,當(dāng)下漢語(yǔ)語(yǔ)音識(shí)別技術(shù)目前所存在的一些限制智能手機(jī)發(fā)展的問(wèn)題,這些問(wèn)題主要如下:
1.聲音在語(yǔ)音識(shí)別交互領(lǐng)域存在感低
1.1相關(guān)技術(shù)要求高。中國(guó)文化博大精深,漢語(yǔ)文化更是如此。中國(guó)人說(shuō)話時(shí)并不像外國(guó)人說(shuō)話那樣,一個(gè)單詞就是一個(gè)意思,而是一句話可以理解成多重含義。除此之外,中國(guó)人說(shuō)話存在著嚴(yán)重的口音差異,并不是每個(gè)人都能說(shuō)一口流利的普通話。這在語(yǔ)音的識(shí)別、喚醒、輸入及交互方面都存在很大的問(wèn)題。雖然現(xiàn)在技術(shù)方面已經(jīng)能夠破譯粵語(yǔ)等辨識(shí)度高的方言,但是面對(duì)中眾多的方言問(wèn)題,技術(shù)方面仍然存在巨大的挑戰(zhàn)。
1.2使用場(chǎng)景有限。眾所周知,在運(yùn)用手機(jī)相關(guān)功能時(shí),在視覺(jué)和觸覺(jué)的交互無(wú)論在何種場(chǎng)景下都可以進(jìn)行。但是,聲音卻不行。場(chǎng)景嘈雜、人員眾多等都無(wú)法進(jìn)行相關(guān)的語(yǔ)音識(shí)別。
1.3交互模式不自然。不論是siri的長(zhǎng)按喚醒,還是傻傻的對(duì)著手機(jī)說(shuō)“嘿,siri!”給人的都是一種違和的感覺(jué)。對(duì)著冷冰冰的機(jī)器,我們甚至感到手足無(wú)措、舌頭打戰(zhàn)。甚至有時(shí)候好不容易說(shuō)出一句話,結(jié)果給出的結(jié)果是無(wú)法識(shí)別。
2.語(yǔ)音終端還未成型。在中國(guó)現(xiàn)如今的科學(xué)技術(shù)背景下,能夠供大規(guī)模運(yùn)營(yíng)商使用的中國(guó)版Echo還未出現(xiàn)。而且,就算出現(xiàn)也將會(huì)受到中國(guó)市場(chǎng)的制約與影響。
3.Z音內(nèi)容成本過(guò)高。在語(yǔ)音系統(tǒng)中,一方面信息獲取成本過(guò)高,另一方面差異化價(jià)值不高。語(yǔ)音信息的獲取遠(yuǎn)比視頻、圖片獲取的成本高,而且多數(shù)人會(huì)存在這樣的疑問(wèn):圖片文字就能體現(xiàn)的內(nèi)容握為什么還要通過(guò)語(yǔ)音去獲取呢?因?yàn)槎鄶?shù)人都覺(jué)得圖片與文字在獲取信息上要更為直觀。
六、結(jié)語(yǔ)
總之,科學(xué)技術(shù)的步伐從來(lái)都不會(huì)是停止不前的,我們有理由相信現(xiàn)代漢語(yǔ)識(shí)別技術(shù)將會(huì)不斷改進(jìn),突破現(xiàn)在的科技與市場(chǎng)限制,廣泛地應(yīng)用于各大領(lǐng)域,為經(jīng)濟(jì)的發(fā)展創(chuàng)造多方面、多層面的經(jīng)濟(jì)新動(dòng)態(tài)。
參考文獻(xiàn)
關(guān)鍵詞:語(yǔ)音檢索;語(yǔ)音識(shí)別;語(yǔ)音合成
中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2010)22-6295-03
Hotel Information Voice Retrieval System
LV Dan-ju, XU Wei-heng
(Computer and Information Science Dept., Southwest Forestry University, Kunming, China, 650224)
Abstract: Unlike traditional retrieval system, manually inputting query requests, this paper proposes voice search system. Using voice search technology, we design and develop the Voice Hotel information inquiry system, which basically fulfils man-machine voice dialog forms of inquiry. The system uses the voice processing technologies 1) HMM model based on speech recognition, converting real speech to text; 2) PSOLA of speech synthesis technology, converting text to speech. The retrieval accuracy of the system reaches 85%.
Key words: voice search; speech recognition; speech synthesis
語(yǔ)音搜索技術(shù)(Voice Search)是把用戶的語(yǔ)音咨詢信息轉(zhuǎn)換成文本咨詢信息,根據(jù)該文本信息進(jìn)行數(shù)據(jù)搜索的技術(shù)。該技術(shù)為用戶提供了人-機(jī)交流更為直接的語(yǔ)音對(duì)話方式。由于語(yǔ)音的便利性(較傳統(tǒng)的手工輸入)和可用性(較以內(nèi)容為主的影像檢索),成為檢索技術(shù)的重要發(fā)展方向。近年來(lái),隨著語(yǔ)音搜索技術(shù)中的關(guān)鍵技術(shù)如語(yǔ)音識(shí)別、語(yǔ)音合成技術(shù)的不斷發(fā)展與完善,語(yǔ)音搜索已在電信、金融、娛樂(lè)、政府等行業(yè)中得到了廣泛深入的運(yùn)用[1],如語(yǔ)音電話號(hào)碼查詢,音樂(lè)/視頻的搜索管理,股票的語(yǔ)音詢問(wèn)與報(bào)價(jià)以及會(huì)議信息系統(tǒng)等。微軟旗下的Tellme公司推出了針對(duì)于黑莓手機(jī)語(yǔ)音搜索軟件實(shí)現(xiàn)了移動(dòng)電話語(yǔ)音查詢功能,之后雅虎也推出了OneSearch語(yǔ)音信息搜索軟件。繼微軟Tellme和OneSearch語(yǔ)音搜索服務(wù)之后,Google也于2009年11月推出了手機(jī)語(yǔ)音搜索軟件。我國(guó)也于本世紀(jì)初相繼推出各城市語(yǔ)音控制導(dǎo)航電子地圖、KTV語(yǔ)音點(diǎn)歌服務(wù)系統(tǒng)等。語(yǔ)音搜索技術(shù)在不到20年的發(fā)展中不斷完善[2-4],顯示出其強(qiáng)大的發(fā)展?jié)摿Α?/p>
1 系統(tǒng)介紹
1.1 系統(tǒng)組成
本系統(tǒng)采用的語(yǔ)音檢索系統(tǒng)結(jié)構(gòu)[1], 如圖1所示。
對(duì)話系統(tǒng)搜索模型首先將游客的語(yǔ)音查詢信息輸入自動(dòng)語(yǔ)音識(shí)別器(Automatic Speech Recognizer ASR),該模塊將由聲學(xué)模型(Acoustic Model AM)和語(yǔ)言模型(Language Model LM)組成。語(yǔ)音識(shí)別器用于實(shí)現(xiàn)語(yǔ)音到文本的轉(zhuǎn)換(Speech to Text),ASR產(chǎn)生最好的一個(gè)識(shí)別文本結(jié)果。 系統(tǒng)根據(jù)識(shí)別的文本調(diào)用搜索模塊SQL Server引擎進(jìn)行數(shù)據(jù)搜索。將符合條件的一個(gè)或多個(gè)數(shù)據(jù)信息進(jìn)行顯示,并將搜索結(jié)果語(yǔ)音播報(bào)給用戶。
1.2 系統(tǒng)采用技術(shù)
1.2.1 語(yǔ)音識(shí)別
語(yǔ)音識(shí)別部分主要由兩個(gè)部分組成:語(yǔ)音訓(xùn)練階段與語(yǔ)音識(shí)別階段,如圖 2所示,語(yǔ)音訓(xùn)練階段是利用語(yǔ)料庫(kù)中的語(yǔ)音信息,抽取其美爾倒譜參數(shù)MFCC的語(yǔ)音特征值,該參數(shù)考慮了人耳對(duì)聲音信號(hào)的因素,能夠較好的反映;以隱馬爾科夫模型HMM為語(yǔ)音模型,依據(jù)數(shù)據(jù)統(tǒng)計(jì)原理,建立起語(yǔ)音參考模板。在訓(xùn)練階段完成后,即可進(jìn)入識(shí)別階段,識(shí)別階段將用戶的語(yǔ)音信號(hào)抽取MFCC語(yǔ)音特征,為該語(yǔ)音創(chuàng)建識(shí)別模板。最后,將參考模板與識(shí)別模板進(jìn)行對(duì)比,通過(guò)識(shí)別匹配原則尋求識(shí)別模板與參考模板中最相近的一個(gè)模板,從而實(shí)現(xiàn)語(yǔ)音信號(hào)的識(shí)別,實(shí)現(xiàn)從語(yǔ)音到文本的轉(zhuǎn)換。
1)MFCC特征參數(shù):美爾頻標(biāo)倒譜系數(shù)考慮了人耳的聽(tīng)覺(jué)特性,將頻譜轉(zhuǎn)化為基于Mel頻標(biāo)的非線性頻譜,然后轉(zhuǎn)換到倒譜域上。由于充分考慮了人的聽(tīng)覺(jué)特性,而且沒(méi)有任何前提假設(shè),MFCC參數(shù)具有良好的識(shí)別性能和抗噪能力。本系統(tǒng)采用42維的MFCC(12維的倒譜參數(shù),1維的對(duì)數(shù)能量, 1維的pitch和一、二階倒譜參數(shù))。
2)HMM聲學(xué)模型:HMM是一種雙重隨機(jī)過(guò)程,而之所以稱(chēng)為隱藏式是因?yàn)槠渲杏幸唤M隨機(jī)過(guò)程是隱藏的,看不見(jiàn)的,在語(yǔ)音中就如同人類(lèi)在發(fā)聲的過(guò)程中其發(fā)聲器官狀態(tài)是看不見(jiàn)的,好比喉嚨、舌頭與口腔的變化是不可能從可觀測(cè)的語(yǔ)音信號(hào)序列看出來(lái)的。而另一組隨機(jī)過(guò)程觀測(cè)序列(Observation Sequence),本系統(tǒng)采用6狀態(tài)的HMM表示的漢語(yǔ)音素模型,它是由狀態(tài)觀測(cè)概率(State Observation Probability)來(lái)描述在每個(gè)狀態(tài)下觀測(cè)到各種語(yǔ)音特征參數(shù)的概率分布。HMM的狀態(tài)觀測(cè)概率函數(shù)式bj(ot)是采用高斯混合密度函數(shù)GMM(Gaussian Mixture Model)來(lái)計(jì)算連續(xù)概率密度,因此每一個(gè)聲音單元(本系統(tǒng)采用音素)皆有一組連續(xù)的HMM(GHMM)。
3)N-Gram的語(yǔ)言模型:本系統(tǒng)采用基于統(tǒng)計(jì)方法的適合大詞匯量連續(xù)語(yǔ)音識(shí)別的Trigram統(tǒng)計(jì)語(yǔ)言模型,進(jìn)一步提高文本識(shí)別率。為下一步檢索提供更為優(yōu)質(zhì)的文本檢索信息。一個(gè)詞的N-gram的語(yǔ)言模型如式:
(1)
整個(gè)句子的概率表示為:
(2)
式中w1,w2,…,wm表示組成整個(gè)句子中出現(xiàn)的每個(gè)詞,參數(shù)n為n-gram統(tǒng)計(jì)語(yǔ)言模型的階數(shù),其值取決于模型的精度和復(fù)雜度,通過(guò)實(shí)驗(yàn)表明,n值越大,則對(duì)句子中單詞之間的依賴關(guān)系描述得越準(zhǔn)確,此時(shí)模型的精確度越高,但模型的復(fù)雜度也越大。本系統(tǒng)采用n=3,也即Trigram。于是,訓(xùn)練數(shù)據(jù)的句子中每個(gè)詞出現(xiàn)的概率只與其前兩個(gè)詞有關(guān),表示為:
(3)
在計(jì)算時(shí),上式表示為:
(4)
c(wi-2,wi-1,wi)表示為該詞序列出現(xiàn)在訓(xùn)練文本中的次數(shù)。但由于統(tǒng)計(jì)數(shù)據(jù)的稀疏性,必然會(huì)有c(wi-2,wi-1,wi)=0的可能。為此,應(yīng)采用平滑技術(shù)(back-off和interpolated插值)來(lái)調(diào)整序列在訓(xùn)練文本中的分布概率。本系統(tǒng)采用插值方法。其表達(dá)式為:
(5)
λ為插值系數(shù),對(duì)于給定的p(wi|wi-2,wi-1),可以在訓(xùn)練語(yǔ)料上運(yùn)用Baum-welch算法計(jì)算得到插值系數(shù)λ(01)。
4)Viterbi Search識(shí)別算法:系統(tǒng)采用Viterbi搜索方法獲取最好的音節(jié)系列,作為識(shí)別的文本。
系統(tǒng)的訓(xùn)練與識(shí)別部分均采用HTK(HMM Tool Kit)[6]實(shí)現(xiàn)。HTK是一套功能強(qiáng)大的語(yǔ)音識(shí)別工具,可以將大量的語(yǔ)音用HMM訓(xùn)練后,加以識(shí)別。所以本系統(tǒng)采用HTK為識(shí)別核心。語(yǔ)料庫(kù)中收錄賓館名稱(chēng)、賓館價(jià)格、賓館星級(jí)、賓館地址的語(yǔ)音資料,并將其對(duì)應(yīng)文本進(jìn)行手工音素注音。訓(xùn)練階段是實(shí)現(xiàn)語(yǔ)音的MFCC特征與文本音素依HMM的對(duì)應(yīng)過(guò)程,完成HMM音素模板的建立。在識(shí)別運(yùn)用部分將要識(shí)別的語(yǔ)音文件進(jìn)行MFCC提取后與HMM音素模板,利用N-gram的語(yǔ)言模型,進(jìn)一步完善識(shí)別文本。最后利用Viterbi Search算法,找出一個(gè)最相似的音節(jié)序列,進(jìn)而確定文本。
1.2.2 語(yǔ)音理解/搜索(Spoken Language Understanding/search)
語(yǔ)音理解的目的是將用戶的表述轉(zhuǎn)換成相對(duì)應(yīng)的語(yǔ)義。在語(yǔ)音搜索中所指的“相對(duì)應(yīng)的語(yǔ)義”就是對(duì)數(shù)據(jù)庫(kù)查詢的關(guān)鍵詞信息。由于用戶在查詢時(shí)所說(shuō)的語(yǔ)句不可能?chē)?yán)格按照語(yǔ)法要求,是一種口頭的表述,如當(dāng)用戶選擇賓館名稱(chēng)查詢時(shí),按照要求用戶只需要說(shuō)明賓館名稱(chēng)如“連云賓館”即可,但用戶可能會(huì)說(shuō)“我想問(wèn)一下連云賓館,謝謝!”,而不只是“連云賓館”。這樣,就會(huì)造成識(shí)別文本與查詢文本的錯(cuò)誤對(duì)應(yīng)。為此,本系統(tǒng)采用語(yǔ)音信息提示,告訴用戶查詢的語(yǔ)音表達(dá)方式,如按賓館查詢時(shí),提示信息為“請(qǐng)說(shuō)賓館名稱(chēng)”,按賓館星級(jí)查詢時(shí),提示信息為“請(qǐng)說(shuō)出要查詢的賓館星級(jí),1~5的數(shù)字”等。在文獻(xiàn)[4]中,還提出了其它語(yǔ)音理解的解決方案。由于本系統(tǒng)只是一個(gè)初級(jí)性的語(yǔ)音檢索,固沒(méi)有采用像基于詞類(lèi)的N-Gram,填詞法等語(yǔ)音理解技術(shù)。
1.2.3 語(yǔ)音合成
為了使結(jié)果查詢采用多媒體方式輸出,以提供更自然的人-機(jī)交互,系統(tǒng)實(shí)現(xiàn)能夠?qū)⒉樵兾淖中畔骰蛇B續(xù)的語(yǔ)音(TTS,Text to Speech),以提供高質(zhì)量、智能化的語(yǔ)音服務(wù)的重要技術(shù)。首先將文字輸入到TTS系統(tǒng)中,TTS系統(tǒng)在收到文字后,根據(jù)原有在語(yǔ)料庫(kù)中的語(yǔ)音檔案進(jìn)行連音,調(diào)整長(zhǎng)度,大小及聲調(diào)的動(dòng)作。本系統(tǒng)采用微軟推出的TTS軟件包,作為漢語(yǔ)合成時(shí)還要考慮聲調(diào)因素。實(shí)現(xiàn)過(guò)程如圖 3所示。
TTS引擎屬于Windows API外掛函數(shù),它是一個(gè)Speech API程序。安裝TTS引擎后,自動(dòng)將類(lèi)庫(kù)文件Vtxtauto.tlb安裝在Windows系統(tǒng)目錄里的Speech 目錄下,從而將其導(dǎo)入語(yǔ)音庫(kù)“Voicetext Type Library”中。形成庫(kù)文件后,我們可以將TTS引擎作為一個(gè)外部工程從語(yǔ)音庫(kù)中引入VB、VC等32位應(yīng)用軟件的可視化環(huán)境,在視圖中的對(duì)象瀏覽器窗口觀察分析TTS引擎所封裝的類(lèi)、類(lèi)的成員函數(shù)、方法及各屬性的意義,并在所開(kāi)發(fā)的軟件中嵌入TTS,編寫(xiě)出獨(dú)具個(gè)性的語(yǔ)音合成軟件。
2 系統(tǒng)設(shè)計(jì)說(shuō)明
本系統(tǒng)采用VC++進(jìn)行語(yǔ)音檢索Voice Hotel系統(tǒng)的界面設(shè)計(jì),其系統(tǒng)操作說(shuō)明如下:
1)開(kāi)始執(zhí)行Voice Hotel,會(huì)以語(yǔ)音提示使用語(yǔ)音查詢的方法。語(yǔ)音會(huì)提示在嗶聲后開(kāi)始3秒錄音,嗶聲響起,開(kāi)始進(jìn)行錄音,此時(shí),對(duì)著麥克風(fēng)說(shuō)出要查詢的方式:“賓館名稱(chēng)”、“賓館價(jià)格”、“賓館星級(jí)”、“賓館地址”;如圖 4表示,說(shuō)出“賓館名稱(chēng)”。
2)經(jīng)過(guò)系統(tǒng)識(shí)別后,激活相應(yīng)的查詢方式,語(yǔ)音回報(bào)用戶要求的查詢方式,并提示查詢表述方式,準(zhǔn)備進(jìn)行查詢關(guān)鍵字的語(yǔ)音錄入;如圖 5所示。
3)語(yǔ)音提示在嗶聲后開(kāi)始錄音,嗶聲響起,對(duì)著麥克風(fēng)說(shuō)出要查詢的關(guān)鍵字;如圖6所示。
4)經(jīng)系統(tǒng)識(shí)別后,將會(huì)在相應(yīng)的查詢方式處顯示識(shí)別結(jié)果,并在檢索結(jié)果處顯示查詢符合要求的結(jié)果,利用語(yǔ)音合成技術(shù),將其識(shí)別結(jié)果及查詢結(jié)果進(jìn)行語(yǔ)音播報(bào)。如圖 7表示,識(shí)別結(jié)果為:金龍,進(jìn)行結(jié)果顯示。
3 實(shí)驗(yàn)數(shù)據(jù)及結(jié)果
由于本語(yǔ)音識(shí)別系統(tǒng)是采用最接近的句子作為識(shí)別結(jié)果,被識(shí)別系統(tǒng)資料的充足與否,平均每句的字?jǐn)?shù),都會(huì)影響正確率。系統(tǒng)采用字正確率作為系統(tǒng)測(cè)評(píng)指標(biāo)的標(biāo)準(zhǔn):。系統(tǒng)采用的訓(xùn)練數(shù)據(jù)說(shuō)明,如表 1所示,測(cè)試結(jié)果如表 2所示。
從表2可知,本系統(tǒng)的識(shí)別率達(dá)到大約85%,基本達(dá)到一個(gè)初級(jí)語(yǔ)音查詢的要求。
本系統(tǒng)的開(kāi)發(fā)出基于語(yǔ)音和文字兩種查詢與輸出的多媒體查詢系統(tǒng),它優(yōu)于傳統(tǒng)資料查詢的文字輸入、輸出的方式,顯示出人-機(jī)交流更加自然的特點(diǎn)。系統(tǒng)中核心的部分即為語(yǔ)音識(shí)別與語(yǔ)音合成部分。就該系統(tǒng)識(shí)別率而言,由于本語(yǔ)音識(shí)別系統(tǒng)采用最接近的句子當(dāng)作為識(shí)別結(jié)果,被識(shí)別系統(tǒng)資料的多少,平均每句的字?jǐn)?shù),都會(huì)影響正確率。訓(xùn)練語(yǔ)音資料信息如下:其測(cè)試結(jié)果如下:實(shí)驗(yàn)數(shù)據(jù)表明,本系統(tǒng)的平均識(shí)別率約為85%。
4 結(jié)論
本文已實(shí)現(xiàn)了一個(gè)較為完整的語(yǔ)音賓館查詢系統(tǒng),關(guān)鍵技術(shù)為語(yǔ)音識(shí)別與合成。由于系統(tǒng)只是一個(gè)初級(jí)的語(yǔ)音檢索系統(tǒng),所以在語(yǔ)音理解部分采用的是對(duì)用戶的語(yǔ)音查詢表述進(jìn)行了嚴(yán)格的限制,今后可近將針對(duì)語(yǔ)音理解部分作進(jìn)一步研究,以實(shí)現(xiàn)更自然的口語(yǔ)查詢的目的, 同時(shí)提高系統(tǒng)識(shí)別率。并提供多查詢接入方式如電話方式的查詢以及更加豐富輸出結(jié)果如顯示賓館的地理位置等。
參考文獻(xiàn):
[1] Ye-Yi Wang, Dong Yu, Yun-Cheng Ju and Alex Acero, An Introduction to Voice Search, IEEE Signal Processing Mag.[J], pp.30-38, May 2008
[2] Yu D, Ju Y C, Wang Y Y, Zweig G, et al. Automated directory assistance system: From theory to practice[J].in Proc. Interspeech, Antwerp, Belgium,2007: 2709-2712.
[3] Natarajan P, Prasad R, Schwartz R M, et al. A scalable architecture for directory assistance automation[J].in Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, Orlando, FL, 2002:121-124.
[4] Yu D, Ju Y C, Wang Y Y, et al. N-Gram Based Filler Model for Robust Grammar Authoring[J].in Proc. ICASSP,2006(1):565-568.
語(yǔ)音識(shí)別技術(shù)成為21世紀(jì)“數(shù)字時(shí)代”的重要開(kāi)發(fā)領(lǐng)域,在計(jì)算機(jī)的多媒體技術(shù)應(yīng)用和工業(yè)自動(dòng)化控制應(yīng)用等方面,成果令人屬目。語(yǔ)音識(shí)別技術(shù)是指用電子裝置來(lái)識(shí)別某些人的某些特征語(yǔ)音,語(yǔ)音識(shí)別的手段一般分為二大類(lèi),一類(lèi)利用在計(jì)算機(jī)上開(kāi)發(fā)語(yǔ)音識(shí)別系統(tǒng),通過(guò)編程軟件達(dá)到對(duì)語(yǔ)音的識(shí)別,另一類(lèi)采用專(zhuān)門(mén)的語(yǔ)音識(shí)別芯片來(lái)進(jìn)行簡(jiǎn)單的語(yǔ)音識(shí)別。利用專(zhuān)門(mén)的語(yǔ)音識(shí)別芯片應(yīng)用在地鐵車(chē)輛上,具有結(jié)構(gòu)簡(jiǎn)單、使用方便,并且語(yǔ)音識(shí)別器有較高的可靠性、穩(wěn)定性的特點(diǎn),是簡(jiǎn)單語(yǔ)音識(shí)別在自動(dòng)控制應(yīng)用上的一種優(yōu)先方案。
目前上海地鐵一、二、三、五、六、八號(hào)線在車(chē)輛信息顯示系統(tǒng)的設(shè)計(jì)上缺少實(shí)用性和操作性,對(duì)乘客來(lái)講缺少在實(shí)時(shí)報(bào)站時(shí)的人性化。如:地鐵車(chē)廂內(nèi)的乘客信息顯示系統(tǒng)和車(chē)廂外側(cè)的列車(chē)信息顯示系統(tǒng)。如果在每個(gè)車(chē)門(mén)的上方安裝車(chē)站站名動(dòng)態(tài)顯示地圖,實(shí)時(shí)顯示與車(chē)廂廣播同步的信息,以及在每節(jié)車(chē)廂外側(cè)顯示列車(chē)的終點(diǎn)站,良好的工業(yè)設(shè)計(jì)不僅能給廣大的乘客帶來(lái)非常大的幫助,而且能夠提升上海地鐵服務(wù)的形象。由于在設(shè)計(jì)以上地鐵列車(chē)時(shí),受科技發(fā)展的限制。現(xiàn)在上海地鐵4號(hào)線在車(chē)輛信息顯示系統(tǒng)的設(shè)計(jì)上滿足了廣大的乘客的需求,
增加了車(chē)站站名動(dòng)態(tài)顯示地圖。
如何在現(xiàn)有的地鐵車(chē)輛上增加地鐵車(chē)廂內(nèi)的乘客信息顯示系統(tǒng)和車(chē)廂外側(cè)的列車(chē)信息顯示系統(tǒng),如圖1、2,首先考慮其實(shí)用性和性價(jià)比,同時(shí)安裝、操作要方便,在不影響列車(chē)的性能的前提下,完成本乘客信息顯示系統(tǒng)的應(yīng)用,設(shè)計(jì)方案的選擇極其重要,目前的乘客信息顯示系統(tǒng)比較復(fù)雜,例如:對(duì)于應(yīng)用在某條線路上的聲音識(shí)別系統(tǒng),不僅要修改原語(yǔ)音文件,而且聲音識(shí)別器不容易操縱,
對(duì)使用者來(lái)講仍然存在比較多的問(wèn)題。對(duì)于應(yīng)用在某條線路上數(shù)字傳輸顯示系統(tǒng),其操作方法不僅給司機(jī)帶來(lái)了任務(wù),每站需要手動(dòng)操作二次,同時(shí)顯示的相關(guān)內(nèi)容沒(méi)有實(shí)時(shí)性,總之乘客信息顯示系統(tǒng)比較落后。
設(shè)計(jì)一種符合現(xiàn)代化要求的乘客信息顯示系統(tǒng)是非常必要。
2.設(shè)計(jì)
地鐵車(chē)輛乘客信息顯示系統(tǒng)的設(shè)計(jì),采用CMOS語(yǔ)音識(shí)別大規(guī)模集成電路,識(shí)別響應(yīng)時(shí)間小于300 ms。HM2007芯片采用單片結(jié)構(gòu),如圖3。將語(yǔ)音識(shí)別需要的全部電路:CPU、A/D、ROM、語(yǔ)音的AMP放大器、壓縮器、濾波器、震蕩器和接口界面等集中在一片芯片內(nèi),這樣外圍電路就非常少,外接64K非易失性SRAM,最多能識(shí)別40個(gè)車(chē)站站名語(yǔ)音(字長(zhǎng)0.9秒),或(字長(zhǎng)1.92秒)但識(shí)別僅20個(gè)車(chē)站站名語(yǔ)音。按正常人的講話速度,0.9秒一般每秒吐字1到3個(gè)為宜。
針對(duì)目前上海地鐵列車(chē)在車(chē)廂內(nèi)外無(wú)LED動(dòng)態(tài)站名顯示而設(shè)計(jì),通過(guò)將列車(chē)車(chē)廂廣播的模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),自動(dòng)控制LED發(fā)光二極管,在列車(chē)在車(chē)廂內(nèi)使得廣播的內(nèi)容(每個(gè)車(chē)站站名)與發(fā)光二極管顯示面板聲光同步,將顯示面板放置地鐵車(chē)輛的每扇車(chē)門(mén)上方,并且顯示面板以地鐵運(yùn)營(yíng)線路為背景,達(dá)到列車(chē)進(jìn)站和出站時(shí)能分別指示。在列車(chē)車(chē)廂外讓乘客非常直觀地、一目了然地了解車(chē)輛的終點(diǎn)站方向,從而方便乘客的上下車(chē),提高了地鐵服務(wù)水平。在國(guó)外的地鐵列車(chē)上應(yīng)用已相當(dāng)普遍。
語(yǔ)音識(shí)別顯示器①的輸入端與車(chē)載廣播功放器相連接,實(shí)現(xiàn)廣播模擬信號(hào)發(fā)出的語(yǔ)音進(jìn)行車(chē)站名的自動(dòng)識(shí)別。不需要編程技術(shù)和修改文件等方法,全部采用硬件方法設(shè)計(jì)。整個(gè)系統(tǒng)分為5部分:(1)輸入控制部分;(2)噪音濾波部分;(3)語(yǔ)言識(shí)別部分;(4)執(zhí)行顯示部分;(5)錄音功能部分。
(1)輸入控制部分:
通過(guò)麥克風(fēng)或(結(jié)合器)連接,如圖4所示,要求模擬語(yǔ)音輸入點(diǎn)的電壓必須控制在大約20mv左右,以確保后期語(yǔ)音識(shí)別的正確性。在輸入電路中增加了聲音控制部分的電路,即將模擬信號(hào)轉(zhuǎn)變成數(shù)字方波信號(hào),對(duì)語(yǔ)音輸入進(jìn)行開(kāi)關(guān)量的控制,確保在T
(2)語(yǔ)音識(shí)別部分:
利用語(yǔ)音識(shí)別芯片HM2007和外接6264SRAM存儲(chǔ)器組成為主要部分,(HM2007中ROM已經(jīng)固化了語(yǔ)音語(yǔ)法技術(shù))對(duì)語(yǔ)音的存儲(chǔ)及語(yǔ)音語(yǔ)法算法進(jìn)行控制。HM2007的詳細(xì)內(nèi)容見(jiàn)產(chǎn)品說(shuō)明書(shū)。
(3)噪音濾波部分:
濾波功能是自動(dòng)識(shí)別(阻擋)我們?cè)谠O(shè)計(jì)階段設(shè)計(jì)好的各個(gè)工況的語(yǔ)音情況,例如:司機(jī)的講話及車(chē)輛雜音等(在麥克風(fēng)的工況下),以確保輸入語(yǔ)音的可靠性、穩(wěn)定性,特采用UM3758串行編譯碼一體化進(jìn)行濾波電路。如圖5。
(4)執(zhí)行顯示部分:
將車(chē)廂廣播喇叭的模擬信息通過(guò)語(yǔ)音識(shí)別器轉(zhuǎn)變成數(shù)字信息,最終經(jīng)過(guò)譯碼電路、4/16多路數(shù)據(jù)選擇器及RS485接口,去控制車(chē)廂內(nèi)車(chē)門(mén)上十個(gè)LED顯示面板,如圖6。
(5)錄音功能部分:
在進(jìn)行廣播內(nèi)容更改時(shí),本項(xiàng)目最大的特點(diǎn)是:不需要任何手段的手工軟件編程的修改,而是通過(guò)遠(yuǎn)程音頻電路控制技術(shù)進(jìn)行按動(dòng)相關(guān)按鈕,選擇地址然后自動(dòng)錄入內(nèi)容,如圖6。
3. 結(jié)論
語(yǔ)音識(shí)別器及LED顯示面板的設(shè)計(jì),能應(yīng)用到以前沒(méi)有LED顯示面功能的地鐵車(chē)輛上,與其他所設(shè)計(jì)的方式相比較,語(yǔ)音識(shí)別控制簡(jiǎn)單、可靠性好、安裝方便、相對(duì)投資最小和不改動(dòng)車(chē)廂內(nèi)任何電器為特點(diǎn),僅提供110VDC電源和音頻輸入接口。
本項(xiàng)目的開(kāi)發(fā)具有一定社會(huì)效益,得到國(guó)內(nèi)外乘客和殘疾人員的歡迎,提高了地鐵服務(wù)質(zhì)量。
參考文獻(xiàn):
1. HUALON MICRELECTRONICS CORPORATION TIWAN
PRODUCT NUMBER: HM2007
2. 555集成電路實(shí)用大全
上海科技普及出版社
3.①獲得“2003年上海市優(yōu)秀發(fā)明選拔賽三等獎(jiǎng)”
4.①編入《中國(guó)科技發(fā)展精典文庫(kù)》第四輯