自動語音識別(ASR)在呼叫中心系統(tǒng)中的應用
自動語音識別(AutomaticSpeechRecognition簡稱"ASR")技術的目標是讓計算機能夠“聽寫”出不同人所說出的連續(xù)語音,也就是俗稱的“語音聽寫機”,是實現(xiàn)“聲音”到“文字”轉換的技術。 自動語音識別(ASR)在呼叫中心系統(tǒng)中的應用,自動語音識別通常有以下幾種分類方法:
(1)按系統(tǒng)的用戶情況分:特定人和非特定人識別系統(tǒng);
(2)按系統(tǒng)詞匯量分:小詞匯量、中詞匯量和大詞匯量系統(tǒng);
(3)按語音的輸入方式分:孤立詞、連接詞、連續(xù)語音系統(tǒng)等;
(4)按輸入語音的發(fā)音方式分:朗讀式、口語(自然發(fā)音)式;
(5)按輸入語音的方言背景情況分:普通話、方言背景普通話、方言語音識別系統(tǒng);
(6)按輸入語音的情感狀態(tài)分;中性語音、情感語音識別系統(tǒng)。語音識別技術適用于家用電器和電子設備,比如電視、計算機、汽車、音響、冷氣等的聲控遙控器,電話、手機或PDA上的聲控人名撥號、數(shù)字錄音機的聲控語音檢索標簽、兒童玩具的聲控等;也可用于個人、呼叫中心,以及電信級應用的信息查詢與服務等領域。
語音識別系統(tǒng)選擇識別基元的要求是,有準確的定義,能得到足夠數(shù)據(jù)進行訓練,具有一般性。自動語音識別(ASR)在呼叫中心系統(tǒng)中的應用,英語通常采用上下文相關的音素建模,漢語的協(xié)同發(fā)音不如英語嚴重,可
以采用音節(jié)建模。系統(tǒng)所需的訓練數(shù)據(jù)大小與模型復雜度有關。模型設計得過于復雜以至于超出了所提供的訓練數(shù)據(jù)的能力,會使得性能急劇下降。 聽寫機:大詞匯量、非特定人、連續(xù)語音識別系統(tǒng)通常稱為聽寫機。其架構就是建立在前述聲學模型和語言模型基礎上的HMM拓撲結構。訓練時對每個基元用前向后向算法獲得模型參數(shù),識別時,將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉移概率,形成循環(huán)結構,用Viterbi算法進行解碼。針對漢語易于分割的特點,先進行分割再對每一段進行解碼,是用以提高效率的一個簡化方法。 自動語音識別(ASR)在呼叫中心系統(tǒng)中的應用對話系統(tǒng):用于實現(xiàn)人機口語對話的系統(tǒng)稱為對話系統(tǒng)。受目前技術所限,對話系統(tǒng)往往是面向一個狹窄領域、詞匯量有限的系統(tǒng),其題材有旅游查詢、訂票、數(shù)據(jù)庫檢索等等。其前端是一個語音識別器,識別產(chǎn)生的N-best候選或詞候選網(wǎng)格,由語法分析器進行分析獲取語義信息,再由對話管理器確定應答信息,由語音合成器輸出。由于目前的系統(tǒng)往往詞匯量有限,也可以用提取關鍵詞的方法來獲取語義信息。
自動語音識別(ASR)在呼叫中心系統(tǒng)中的應用
admin
2012/02/06
14:41:18