語(yǔ)音識(shí)別的基本原理論文
2023-11-07閱讀(374)
問(wèn):語(yǔ)音識(shí)別的技術(shù)原理是什么?
- 答:語(yǔ)音識(shí)別的技術(shù)原理是將一段語(yǔ)音信號(hào)轉(zhuǎn)換成相對(duì)應(yīng)的文本信息,系統(tǒng)主要包含特征提取、聲學(xué)模型,語(yǔ)言模型以及字典與解碼四大部分,其中為了更有效地提取特征往往還需要對(duì)所采集到的聲音信號(hào)進(jìn)行濾波、分幀等預(yù)處理工作,把要分析的信號(hào)從原始信號(hào)中提取出來(lái)。
之后,特征提取工作將聲音信號(hào)從時(shí)域轉(zhuǎn)換到頻域,為聲學(xué)模型提供合適的特征向量;聲學(xué)模型中再根據(jù)聲學(xué)特性計(jì)算每一個(gè)特征向量在聲學(xué)特征上的得分;而語(yǔ)言模型則根據(jù)語(yǔ)言學(xué)相關(guān)的理論,計(jì)算該聲音返握信號(hào)對(duì)應(yīng)可能詞組序列的概率;最后根據(jù)已有的字典,對(duì)詞組序列進(jìn)行解碼,漏數(shù)慶得到最后可能的文本表示。
作為語(yǔ)音識(shí)別的前提與基礎(chǔ),語(yǔ)音信號(hào)的預(yù)處理過(guò)程至關(guān)重要。在最終進(jìn)行模板匹配的時(shí)候,是將輸入語(yǔ)音信號(hào)的特征參數(shù)同模板庫(kù)中的特征參數(shù)進(jìn)行對(duì)比,因此,只有在預(yù)處理階段得到能夠表征語(yǔ)音信號(hào)本質(zhì)特征的特征參數(shù),才能夠?qū)⑦@些特征參數(shù)進(jìn)行匹配進(jìn)行識(shí)別率畢螞高的語(yǔ)音識(shí)別。
問(wèn):如何解釋語(yǔ)音識(shí)別的技術(shù)原理?
- 答:語(yǔ)音識(shí)別,是人工智能的重要入口,越來(lái)越火。從京東科大訊飛合作的叮咚,亞馬遜的明星產(chǎn)品Echo,到最近一個(gè)月谷歌Master和百度小度掀起的人機(jī)大戰(zhàn),賺夠了眼球。但語(yǔ)音只是個(gè)入口,內(nèi)容空孫或者說(shuō)引導(dǎo)用戶做決策乃至消費(fèi),才是王道。.語(yǔ)音識(shí)別系統(tǒng),分訓(xùn)練和解碼兩階段。訓(xùn)練,即通過(guò)大量標(biāo)注的冊(cè)謹(jǐn)語(yǔ)音數(shù)據(jù)訓(xùn)練聲學(xué)模型,包括GMM-HMM、DNN-HMM和RNN+CTC等;解碼,即通過(guò)聲學(xué)模型和語(yǔ)言模型將訓(xùn)練集外的語(yǔ)音數(shù)據(jù)識(shí)別成文字。目前常用的開源工具有HTK Speech Recognition Toolkit,Kaldi ASR以及基于Tensorflow()實(shí)現(xiàn)端到端系統(tǒng)。我以古老而又經(jīng)典的HTK為例,來(lái)闡述語(yǔ)音識(shí)別領(lǐng)域涉及到的概念及其原理。HTK提供了豐富的語(yǔ)音數(shù)據(jù)處理,以及訓(xùn)練和解碼的工具。語(yǔ)州虧基音識(shí)別,分為孤立詞和連續(xù)詞語(yǔ)音識(shí)別系統(tǒng)。早期,1952年貝爾實(shí)驗(yàn)室和1962年IBM實(shí)現(xiàn)的都是孤立詞(特定人的數(shù)字及個(gè)別英文單詞)識(shí)別系統(tǒng)。連續(xù)詞識(shí)別,因?yàn)椴煌嗽诓煌膱?chǎng)景下會(huì)有不同的語(yǔ)氣和停頓,很難確定詞邊界,切分的幀數(shù)也未必相同;而且識(shí)別結(jié)果,需要語(yǔ)言模型來(lái)進(jìn)行打分后處理,得到合乎邏輯的結(jié)果。
- 答:首先,我們知道聲音實(shí)際上是一種波。常見的mp3等格式都是壓縮格式,必須轉(zhuǎn)成非壓縮的純波形首先,我們知道聲音實(shí)際上是一種波。常見的mp3等格式都是壓縮格式,必須轉(zhuǎn)成非壓縮的純波形頭以外,就是聲音波形的一個(gè)個(gè)點(diǎn)了。在開始語(yǔ)音識(shí)別之前,有時(shí)需要把首尾端的靜音切除,祥備降低對(duì)后續(xù)步驟造成的干擾。這個(gè)靜音切除的操作一般稱為VAD,需要用到信號(hào)處理的一些技術(shù)。要對(duì)聲音進(jìn)行分析,需要對(duì)聲音分幀,也就是把聲音切開成一小段一小段,每小段稱為一幀。分幀操作一般不是簡(jiǎn)單的切開,而是使用移動(dòng)窗函數(shù)來(lái)實(shí)現(xiàn),這里不詳述。幀與幀之間一般是有交疊的,圖中,每幀的長(zhǎng)度為25毫秒,每?jī)蓭g有25-10=15毫秒的交疊。我們稱為以幀長(zhǎng)25ms、幀移10ms分幀。分幀后,語(yǔ)音就變成了很多小段。但波形在時(shí)域上幾乎沒(méi)有描述能力,因此必須將波形作變換。常見的一種變換方法是提取特征,根據(jù)人耳的生理特性,把每一幀波形變成一個(gè)多維向量,可以簡(jiǎn)單地理解為這個(gè)向量包含了這幀語(yǔ)音的內(nèi)容信息。這個(gè)過(guò)程叫做聲學(xué)特征提取。實(shí)際應(yīng)用中,這一衫宴轎步有很多細(xì)節(jié),聲學(xué)特征也不止有這一種,具體這里不講。至此,聲音就成了一個(gè)12行(假設(shè)聲學(xué)特征是12維)、N列的一個(gè)矩陣,稱之為觀察序列,這里N為總幀數(shù)或肆。觀察序列如下圖所示,圖中,每一幀都用一個(gè)12維的向量表示,色塊的顏色深淺表示向量值的大小。
- 答:語(yǔ)音識(shí)別的第一個(gè)特點(diǎn)是要識(shí)別的語(yǔ)音的內(nèi)容(比聲韻母等)是不定長(zhǎng)時(shí)序,也就是說(shuō),在識(shí)別以前你不可能知道當(dāng)前的聲韻母有多長(zhǎng),這樣在構(gòu)建統(tǒng)計(jì)模型輸入語(yǔ)音特征的時(shí)候無(wú)法簡(jiǎn)單判定到底該輸入0.0到0.5秒還是0.2到0.8秒進(jìn)行識(shí)別,同時(shí)多數(shù)常見的模型都不方便處理維度不確定的輸入特征(注意在一次處理的時(shí)候,時(shí)間長(zhǎng)度轉(zhuǎn)化成了當(dāng)前的特征維度)。一種簡(jiǎn)單的解決思路是對(duì)語(yǔ)音進(jìn)行分幀,每一幀占有比較短固定的時(shí)長(zhǎng)(比如25ms),再假設(shè)說(shuō)這樣的一幀既足夠長(zhǎng)(可以蘊(yùn)含足以判斷它屬于哪個(gè)聲韻母的信息),又很平穩(wěn)(方便進(jìn)行短時(shí)傅里葉分析),這樣將每一幀轉(zhuǎn)換為一個(gè)特征向量,(依次)分別識(shí)別它們屬于哪個(gè)聲韻母,就可以解決問(wèn)題。識(shí)別的結(jié)果可以是比如第100到第105幀是聲母c,而第106幀到115幀是韻母eng等。這種思路有點(diǎn)類似微積分中的『以直代曲』。另外在實(shí)際的分幀過(guò)程中,還有很多常用技巧,比如相鄰兩幀之間有所重疊,或引入與臨近幀之間的差者漏分作為額外特征,乃至直接堆疊許多語(yǔ)音幀等等,這些都可以讓前述的兩個(gè)假設(shè)更可靠。近年來(lái),研究種也出現(xiàn)了一些更新穎的處理方式,扒嫌肢比如用.wav文件的采樣點(diǎn)取代分幀并處理后的語(yǔ)音幀,但這樣的方法在處理速度及性能上暫春世時(shí)還沒(méi)有優(yōu)勢(shì)。
問(wèn):簡(jiǎn)述語(yǔ)音識(shí)別原理。
- 答:分類: 電腦/ >> 硬件
解析:
語(yǔ)音識(shí)別的基本過(guò)程 根據(jù)實(shí)際中的應(yīng)用不同,語(yǔ)音識(shí)別系統(tǒng)可以分為:特定人與非特定人的識(shí)別、獨(dú)立詞與連續(xù)詞的識(shí)別、小詞匯量與大詞匯量以及無(wú)限詞匯量的識(shí)別。但無(wú)論那種語(yǔ)音識(shí)別系統(tǒng),其基本原理和處理方法都大體類似。
語(yǔ)音識(shí)別過(guò)程主要包括語(yǔ)音信號(hào)的預(yù)處理、特征提取、模式匹配幾個(gè)部分。預(yù)處理包括預(yù)濾波、采樣和量化、加窗、端點(diǎn)檢測(cè)、預(yù)加重等過(guò)程。語(yǔ)音信號(hào)識(shí)別最重要的一環(huán)就是特征參數(shù)提取。提取的特征參數(shù)必須滿足以下的要求:
(1)提取的特征參數(shù)能有效地代表語(yǔ)音特征,具有很好的區(qū)分性; (2)各階參數(shù)之間雀配有良好的獨(dú)立性;
(3)特征參數(shù)要計(jì)算方便,最好有高效的算法,以保證語(yǔ)音識(shí)別的實(shí)時(shí)實(shí)現(xiàn)。
在訓(xùn)練階段,將特征參數(shù)進(jìn)行一定的處理毀穗后,為每個(gè)詞條建立一個(gè)模型,保存為模板庫(kù)。在識(shí)別階段,語(yǔ)音信號(hào)經(jīng)過(guò)相同的纖歲卜通道得到語(yǔ)音特征參數(shù),生成測(cè)試模板,與參考模板進(jìn)行匹配,將匹配分?jǐn)?shù)最高的參考模板作為識(shí)別結(jié)果。同時(shí),還可以在很多先驗(yàn)知識(shí)的幫助下,提高識(shí)別的準(zhǔn)確率。
語(yǔ)音識(shí)別的基本原理論文
下載Doc文檔