“喂,你要爪子嘛?”“嫩干啥哩?”——奇富科技智能營銷及貸后提醒業(yè)務(wù)場景中,每天都能接到大量帶方言口音的電話,客戶口音的多樣性直接影響到語音識別的準(zhǔn)確率和業(yè)務(wù)的流暢度。然而,市面上通用語音識別技術(shù)在面對方言時往往顯得力不從心,導(dǎo)致人機交互的準(zhǔn)確性和智能性大打折扣,服務(wù)效率和質(zhì)量受損。
為此,奇富科技“QI語精靈”方言識別技術(shù)再度升級,成功將業(yè)內(nèi)首個全自研Qifusion框架集成到業(yè)務(wù)場景中,不僅彌合方言識別對自身業(yè)務(wù)的影響,而且在業(yè)內(nèi)知名的Kespeech 開源方言數(shù)據(jù)集性能對比測試中,字錯率刷新模型最低值,達到國內(nèi)頂尖水平,為金融科技行業(yè)樹立了新標(biāo)桿。
圖:Kespeech 開源方言數(shù)據(jù)集性能對比
QI語精靈是奇富科技全自研智能語音模型,此次升級依托自身豐富的貸后提醒及方言數(shù)據(jù)樣本,不僅延續(xù)了對國內(nèi)八種主流地區(qū)方言的覆蓋,包括東北官話、膠遼官話、北京官話、冀魯官話、中原官話、江淮官話、蘭銀官話和西南官話,還特別針對四川、重慶、山東、河南、貴州等用戶分布較多的地區(qū)方言的識別能力進行了強化,平均識別準(zhǔn)確率相對提升了25%,川渝地區(qū)方言識別準(zhǔn)確率相對提升超35%。同時,融合方言信息提取模塊,它能夠自動識別不同口音,并在時間維度上對文字進行解碼修正,將方言口音的語音識別誤差率降低了30%以上,整體語音識別字錯率降低了16%以上,顯著提升了用戶體驗。
在模型結(jié)構(gòu)上,QI語精靈依托全自研的Qifusion結(jié)構(gòu),突破傳統(tǒng)方言識別模型受限于地區(qū)先驗條件,需預(yù)先知曉方言種類才能準(zhǔn)確識別的局限,無需方言種類的先驗條件,便能直接進行精準(zhǔn)的識別和轉(zhuǎn)譯。并創(chuàng)新采用了多任務(wù)學(xué)習(xí)方法,在復(fù)雜的通話環(huán)境下實現(xiàn)了超過93%的語音識別綜合準(zhǔn)確率。此外,意圖識別功能同樣表現(xiàn)出色,準(zhǔn)確率超過95%,能夠迅速而準(zhǔn)確地識別用戶需求并做出響應(yīng)。
在業(yè)務(wù)應(yīng)用上,基于QI語精靈提出的預(yù)訓(xùn)練方言信息模塊及增量業(yè)務(wù)數(shù)據(jù)訓(xùn)練策略的結(jié)合,能大幅提升智能營銷、貸后提醒、風(fēng)險控制業(yè)務(wù)應(yīng)用場景識別準(zhǔn)確率。在智能電銷及貸后客戶溝通服務(wù)中,QI語精靈能將大量的語音轉(zhuǎn)寫成文字,無論是標(biāo)準(zhǔn)的普通話還是方言口音都能精準(zhǔn)捕捉并轉(zhuǎn)寫,大幅減輕客服人員的工作壓力。同時,能快速且準(zhǔn)確地解析用戶需求并作出響應(yīng),為用戶提供精準(zhǔn)高效的服務(wù)體驗。
QI語精靈技術(shù)在實際應(yīng)用中展現(xiàn)出的顯著成效,這得益于奇富科技在人工智能語音領(lǐng)域的持續(xù)研究與開發(fā)積累。《Eden-TTS:一種簡單高效的非自回歸“端到端可微分”神經(jīng)網(wǎng)絡(luò)的語音合成架構(gòu)》、《基于多粒度Transformer的多模態(tài)情緒識別》和《基于SE模塊和多尺度特征學(xué)習(xí)的語音情感識別》等多篇論文被ICASSP和 INTERSPEECH兩大頂級語音領(lǐng)域的國際學(xué)術(shù)會議連續(xù)收錄,這不僅證明了奇富科技在智能語音領(lǐng)域的研究實力,也為全球智能語音技術(shù)的發(fā)展貢獻了中國智慧。
從卷語義到卷方言,奇富科技的智能語音模型——QI語精靈,不僅在方言庫的擴展上不斷取得進步,還在提升對復(fù)雜語音環(huán)境的適應(yīng)能力、拓寬應(yīng)用場景等方面持續(xù)進階,實現(xiàn)更深層次的智能化和個性化服務(wù)。