《2013年度(第六屆)中國聯(lián)絡(luò)中心與BPO產(chǎn)業(yè)大會》ACCC大會于2013年4月18-19日在上海國際會議中心隆重舉行。峰會由呼叫中心與BPO行業(yè)資訊網(wǎng)(51Callcenter)主辦,中國呼叫中心與BPO產(chǎn)業(yè)聯(lián)盟(CNCBA)、4PS聯(lián)絡(luò)中心國際標準組織指導(dǎo),有來自于金融、通信、物流、電子商務(wù)、制造業(yè)、跨國企業(yè)等行業(yè)管理層;及聯(lián)絡(luò)中心、客戶服務(wù)、云計算、服務(wù)外包、CRM、社會化媒體、企業(yè)通信等行業(yè)廠商等3000余位海內(nèi)外嘉賓參加了該活動。
4PS標準/CNCBA主席/國家工信部全國服務(wù)外包技能考試指導(dǎo)委員會副理事長顏曉濱、工信部通信科技委員會委員/中國通信協(xié)會理事李振坤等,及來自協(xié)會及行業(yè)的高管及專家在聯(lián)絡(luò)中心、客戶服務(wù)、云計算、服務(wù)外包、CRM、社會化媒體、企業(yè)通信等主題方面做了幾十場精彩紛呈的演講和分享。
科大訊飛網(wǎng)絡(luò)語音部解飛做了主題為《呼叫中心“語時代”》的演講。如下為大會現(xiàn)場演講實錄,如需完整觀看所有內(nèi)容,請登錄-- http://qianlongyuan.cn/2013/ 。
解飛:謝謝主持人,謝謝各位專家,各位嘉賓。我們今天在這里分享的是關(guān)于語音技術(shù)方面。語音技術(shù)是人跟人之間交互最便捷、最自然的方式,像傳統(tǒng)的嵌入式設(shè)備最早可以發(fā)短信、發(fā)小心,使用九宮格按鍵發(fā)的觸摸方式改變了我們的交互界面。后來通過語音的交互,一定是一種最便捷、最自然的用戶體驗的方式。我們講語時代已經(jīng)到來,為什么這樣講呢?應(yīng)該講他具備了兩個條件,第一個,語音相關(guān)的技術(shù)已經(jīng)得到了極大的進展和突破,其中解決人和人之間用語音方式或人與機器之間做語音交互的問題,就是語音識別正確率,語音識別的正確率現(xiàn)在通用領(lǐng)域已經(jīng)達到了90%以上,因此已經(jīng)能達到真正的使用門檻。此外隨著Wifi等網(wǎng)絡(luò)的普及,可以使云系統(tǒng)可以把龐大資源放在云的服務(wù)端。在我們使用的終端手機各種嵌入式的設(shè)備上,只需要把語音進行收集傳到后端,再在后端進行回復(fù),就可以完成交互?,F(xiàn)在我們面臨的時代,語音交互和爆發(fā)已經(jīng)達到了一個基本的使用條件和門檻。所以蘋果在2011年10月份發(fā)布了Siri,Siri是4S一個最大的賣點,而且從現(xiàn)在拿到的數(shù)據(jù)看,4S用戶每個月都會打電話使用Siri的語音功能。在語音交互的嵌入式設(shè)備體驗已經(jīng)做得非常好,從2011年Google公布數(shù)據(jù)說25%搜索來自于語音搜索。微軟也是一樣,比爾.蓋茨從08年就在他的演講中說過,他最看好的三大技術(shù),語音是其中一種方式。中文語音上我們也有了比較多的積累,我們在中文語音是走在全球前列。2011年10月份科大訊飛在業(yè)界第一次發(fā)布了語音云平臺,為我們個行業(yè)車載啊、手機啊、智能家電、終端設(shè)備提供按需可取、隨處可以訪問的云的能力。去年3月份我們在北京第二次發(fā)布了第二代語音云,在第一代基礎(chǔ)上承載了語義理解功能。在第一代語音云發(fā)布的時候,一起發(fā)布了一個訊飛語音輸入法,目前這個輸入法已經(jīng)有超過三千萬的用戶。應(yīng)該說是屬于嵌入式設(shè)備排名前三的輸入木。去年第二代發(fā)布了訊飛雨點,像業(yè)內(nèi)互聯(lián)網(wǎng)大佬搜狗語音助理、百度語音助理,也都紛紛面世,基于語音平臺的客戶端應(yīng)用目前已經(jīng)超過了6千多個。

科大訊飛網(wǎng)絡(luò)語音部 解飛
在用戶發(fā)展方面,去年一年用戶數(shù)從一千萬增長到將近一億的用戶,今年4月份語音云用戶已經(jīng)突破了1.4億。
下面為了說明一下,我們跟中國移動合作了一個產(chǎn)品,叫做靈犀,有些嘉賓可能使用過,靈犀在我的手機客戶端就有這樣一個軟件,打開靈犀麥克風,“幫我查一下科大訊飛的股票”,“為您找到科大訊飛的股票,科大訊飛當前的股價是36.62元,下跌0.18元,跌幅0.49%”。這邊就可以找到他已經(jīng)看到科大訊飛的股票,現(xiàn)在是一個比較好的買入時機。“上海的天氣情況怎么樣”?因為這個前臺做收音放音,今天可能使用網(wǎng)絡(luò)的人比較多,網(wǎng)速不是特別好。“附近有沒有肯德基或者麥當勞”?我們也可以試一下本地訪問功能。“打電話給秦偉”,“馬上為您呼叫,秦偉,18……”打電話、發(fā)消息簡單的通訊錄音的識別也可以做。
在呼叫中心語音技術(shù)有哪些可以應(yīng)有呢?我們現(xiàn)在撥是安徽聯(lián)通的客服熱線,“您好歡迎致電中國聯(lián)通客戶服務(wù)熱線,自助服務(wù)請按一,”“中午好,我是客服助理,能幫您辦理話費查詢、套餐查詢等,請問有什么可以幫您,如需了解更多,請按幫助”。“我家的寬帶上不了網(wǎng)了”。“好的,寬帶故障,請問您寬帶故障提示代碼是什么”,“678錯誤”,“好的,下面為您介紹寬帶故障678,請您檢查接入點”。
我們再回到PPT。下面看一下兩段Video。
除了在呼叫中心的應(yīng)用,我們也跟一些車載行業(yè)做了一些語音應(yīng)用。前年跟上汽的合作中就提供了IVOKA系統(tǒng),可能有些嘉賓的車子已經(jīng)得到了應(yīng)用。車載系統(tǒng)里內(nèi)嵌了一個3G的卡片,雖然車主是對著車上的終端設(shè)備在說,但后臺的交互都已經(jīng)開始做語音識別。跟靈犀一樣,在網(wǎng)絡(luò)環(huán)境差的時候可能會受到一些影響。
除了車載以外,國內(nèi)五大電視機廠商也跟訊飛合作,提供電視上的智能助理產(chǎn)品,尤其現(xiàn)在的互聯(lián)網(wǎng)電視,后臺提供的資源內(nèi)容非常多,通過這種傳統(tǒng)的遙控器解決輸入問題是很難的,用鍵盤輸入一直是非常難的問題。但現(xiàn)在我們在遙控器里加了一個小的麥克風,只要收看的節(jié)目都可以找得到。
除此之外,語音技術(shù)可以在教育領(lǐng)域得到一些應(yīng)用。我這里有一個小的Video可以看一下。(播放視頻)這里面到三個技術(shù),語音合成,所有老師的板書和學(xué)生文字都可以通過軟件做播報,得到最標準的中英文發(fā)音,第二就是評測技術(shù),講出來的單詞和句子可以通過系統(tǒng)告訴你哪句讀得不好,第三就是語音識別技術(shù),小孩在背誦課文時后臺會把文字播報出來,哪個地方錯誤也能得到提示。

講到合成技術(shù),這是訊飛的看家本領(lǐng),也是目前呼叫中心用得最多的語音技術(shù),也就是語音合成。語音禾城上全球最大的評測叫暴風雪評測杯,我們連續(xù)7年獲得大賽第一名。去年在英文的合成效果,大家可以聽一下。值得一提的是這套系統(tǒng)是當時所有參會比賽系統(tǒng)里唯一一個超過4.2分的。什么是4.2分的概念呢?我們系統(tǒng)評測的時候按照五分制,最標準的播音員水平是五分,普通人講話水平是4分,他是唯一一個超過普通人講話的英文合成效果。陳至立到訊飛時聽到我們的語音合成,說這個是很有價值的意義的,因為英文播報的效果比很多西部學(xué)校里高中英語老師的水平高得多。除了中英文,現(xiàn)在也在考慮多語種的解決方案,我們現(xiàn)在提供15種的包含藏語、維族的語音合成解決方案。
語音識別上面,隨著大數(shù)據(jù)和云計算的技術(shù)突破,識別正確率在逐漸提升,達到可用水平。最早的時候業(yè)內(nèi)有一些專家可能也了解到有很多廠商從90年代就開始推云識別技術(shù),但那時候云識別可以說是很傻的云識別,我們要定義識別的內(nèi)容,直到08年以后這個技術(shù)有很的突破,去年工信部軟件處理中心測試比賽,我們分幾個方向測試語音識別正確率,一個是日常輸入,一個是搜索導(dǎo)航PUI檢索上,另外就是傳統(tǒng)的語音,訊飛都達到了90%的使用水平。
除了語音識別方面的核心進渣,值得一提的就是語義理解技術(shù)的進一步發(fā)展。把語音轉(zhuǎn)成文字這是第一步,也是最基礎(chǔ)的工作,如果語音轉(zhuǎn)文字不正確后面就談不到語義理解。語音轉(zhuǎn)文字正確以后,怎樣理解用戶用途,這就是語義理解的意義?,F(xiàn)在還沒有達到語音識別那么成熟,在20幾個語音下,我們平均性能到85%的正確率。隨著訊飛語音不斷的積累更大量的用戶數(shù)據(jù),這個85%的正確率也在穩(wěn)步往上提升,有望到明年底期望達到90%以上。
語音理解以后雖然還處于進展中,但是已經(jīng)有了很多實際應(yīng)用案例。我們已經(jīng)有全國16家升級運營商使用語義理解,包括短信營業(yè)廳判斷用戶發(fā)出的文字是什么意思,包括網(wǎng)上營業(yè)廳通過機器人、客服形式對客戶進行對話,這里面得到了用戶比較好的使用效果的評價。

在呼叫中心有哪些解決方案可以提供呢?我們分為兩個大的方面,第一是面向呼叫中心前臺,主要包含語音合成解決方案、語音導(dǎo)航解決方案、聲紋識別,導(dǎo)航是實現(xiàn)語音交互,聲紋是對客戶身份進行確認保障,后臺提供解決方案就是語音分析,因為語音分析最近兩三年在呼叫中心行業(yè)是很熱的一個點,在這個行面我們分享一下我們有哪些經(jīng)驗。
傳統(tǒng)的合成應(yīng)用可能是比較多的。我舉一個例子,聽一下語音合成在簡單的客服播報工號的效果。這個是常常從您好到播完是4秒鐘,而我們用識別,并且調(diào)了參數(shù),然語速變得比正常語速變得更快,因為工號播報是沒有信息量的,也很少有用戶非常在意,我們做了一個試點,提升平均通話時長2秒鐘,一年下來節(jié)約費用就是86萬元。同時有些專家可能認為我使用板卡播報更穩(wěn)定,使用你系統(tǒng)播報是不是有些問題?但事實上我們做了安徽的一個播報,他的播報效果應(yīng)該是很大的,非常大的量,現(xiàn)在我們在1月份兩個中心每天2700萬次,服務(wù)可用性是達到99.999%,而且合成響應(yīng)時間是小于0.3秒。同時在用戶體驗上,我們用核心指標就是滿意度,效率提升了17%,應(yīng)該說語音合成很成熟的技術(shù)應(yīng)用在呼叫中心來說是效果非常好的一種應(yīng)用。
2010年以后很多銀行甚至運營商都做很多的試點,我們希望通過這樣的自助語音識別系統(tǒng)改變傳統(tǒng)的按鍵式的交互方式,把后臺更多業(yè)務(wù)通過自助系統(tǒng)展現(xiàn)出來。可能有三個大的改造點和應(yīng)用方向,第一打造全語音的門戶,把我們在后臺IVR菜單下兩三百個業(yè)務(wù)都推送到客戶面前,實現(xiàn)菜單扁平化。第二就是自助服務(wù)改造,比如以前用戶需要輸入貨幣名稱、股票代碼,有時很難記得清楚,銀行可以直接說出貨幣名稱、城市名稱。第三就是輔助人工信息播報,因為大量查詢類業(yè)務(wù)我們都可以通過語音合成選中知識庫之后聽,而沒有必要進行簡單重復(fù)的播報。
現(xiàn)在語音導(dǎo)航應(yīng)用,我們從09年在工行做,后面在中信銀行、深發(fā)展做了一些,使用效果還是非常不錯的。我有幾個數(shù)字,第一就是語音導(dǎo)航系統(tǒng)的自助使用率提升大約20%以上,這里有一個對比的圖。前面這個是我們某銀行上線前使用IVR的圖,這個圖里80%用戶在IVR系統(tǒng)里做的交易和操作只集中在這四類上,這是非??上У模驗槲覀冊O(shè)計人員做了很復(fù)雜的流程、引導(dǎo)、IVR的設(shè)計,但卻沒有很多用戶用他。這是我們第三個月的業(yè)務(wù)統(tǒng)計,可以看到85%的設(shè)計集中在20幾個業(yè)務(wù)上,這種長尾現(xiàn)象非常像人工的業(yè)務(wù)的服務(wù)趨勢。第二個數(shù)據(jù)就是33%,通過語音導(dǎo)航系統(tǒng)的比例相對按鍵轉(zhuǎn)人工比例下降了33%。第三個數(shù)據(jù)就是0,系統(tǒng)上線18個月,零投訴。一些管理者有一些誤區(qū),認為語音導(dǎo)航跟按鍵是一個替代關(guān)系,其實不是這樣,我們經(jīng)驗看,語音導(dǎo)航是跟按鍵是一個補充關(guān)系,因為語音的方式并不是所有用戶都能夠接受的,一定還是需要有按鍵這種方式來做補充,兩個是互相融合的一種關(guān)系。

語音導(dǎo)航方面我們做的后臺數(shù)據(jù)分析,發(fā)現(xiàn)98%的用戶在接到語音導(dǎo)航提示之后,他講的是普通話和方言,因為這是全國系統(tǒng)里做的分析,還有2%講的方言,我們寫了一個詞,什么叫純方言,什么叫方言普通話,我們可以聽一下什么是方言普通話,這個就是純方言,搜集數(shù)據(jù)的小姑娘也很糾結(jié),聽不懂。方言普通話的效果我們已經(jīng)達到90%。
導(dǎo)航應(yīng)用在上海世博會、工行、中信銀行已經(jīng)使用了很多。我們系統(tǒng)為962010分攤了10%的人工,那是語音導(dǎo)航在國內(nèi)應(yīng)用的第一炮,對這個比例我們還是非常滿意。但現(xiàn)在在老運營商里做的導(dǎo)航系統(tǒng)已經(jīng)分攤?cè)斯?0%。
導(dǎo)航系統(tǒng)跟越來越多的客戶端的方式,是可以融合在一起的。我們也在某些運營商做了實驗,我們同時提供導(dǎo)航、客戶端的解決方案,可以看到兩邊在后臺語音合成技術(shù)和識別效果甚至包括一些UI設(shè)計上都是可以直接適用的,而且這種客戶端應(yīng)用可能未來更符合用戶體驗。
再就是聲紋識別技術(shù),是一種生物識別技術(shù),但也有一個跟其他生物識別非常不一樣的特點,虹膜識別、掌形識別都是需要接觸式的,只有聲紋可以遠程,通過電話,使用終端設(shè)備只需要一個麥克風就可以完成。第二就是用戶體驗上,聲紋可以運行在呼叫中心后臺的服務(wù)器端,把語音傳到聲紋服務(wù)器上,而用戶本人并不知道他在進行確認。第三就是性價比,不需要任何軟件。再就是他跟人說話的語音、語言和文本沒有任何關(guān)系,也就是說這個人可以是中文,也可以是英文,我們都可以對聲紋進行確認匹配。也可以結(jié)合一些特使應(yīng)用場景,我們把聲紋技術(shù)跟語音識別技術(shù)結(jié)合起來使用固定詞語才能達到聲紋識別,這樣以免錄音欺詐的現(xiàn)象。
另外就是運營支撐中的智能語音分析應(yīng)用。有一些用戶投訴的時候我們可能調(diào)流水,找出包含的內(nèi)容進行質(zhì)檢和分析,但是現(xiàn)在我們通過語音識別技術(shù)、語音分析技術(shù)可以把座席跟用戶交互的語音錄音全部轉(zhuǎn)成文字信息,再轉(zhuǎn)成結(jié)構(gòu)化的可檢索信息保存在數(shù)據(jù)庫里。我們可以通過建一些模型,比如包含對服務(wù)質(zhì)量的模型、對營銷的模型,對經(jīng)營情報的模型我們集中起來,對他進行數(shù)據(jù)復(fù)雜和挖掘利用。

應(yīng)用實踐。一個就是質(zhì)檢上,我們可以把質(zhì)檢里的內(nèi)容通過自動方式發(fā)現(xiàn)出來,可能形成這樣一個頁面,這是文本跟錄音對照的頁面,然后把系統(tǒng)自動聽取出來的質(zhì)檢定位錄音片段,提供給質(zhì)檢員進行確認。我在做項目的時候,人的質(zhì)檢正確率大約95%,系統(tǒng)現(xiàn)在可能好的也達不到人的效果。但是其實已經(jīng)給我們帶來比較明顯的價值,首先就是抽樣方式上傳統(tǒng)的抽樣是均衡抽樣,命中率比較低,可能每個座席必須聽兩到四個,但是通過系統(tǒng)抽,通過我們預(yù)設(shè)模型進行抽取,分布更符合分布原則,對于質(zhì)量評估效果會更準確。第二就是對質(zhì)檢量的覆蓋。上系統(tǒng)之后我們沒有做100%的質(zhì)檢,我們做的是30%。第三就是對質(zhì)檢員本身,之前一個質(zhì)檢員聽錄音的時候比較好的可能一天聽80單,差的60單,我自己聽過,感覺特別枯燥,然后聽不清楚還要重新來,通過這種系統(tǒng)可以能從文字方面先做理解,直接點文字進入錄音片斷,這個效率提升非常明顯,從70幾條聽到130幾條,幾乎是一倍的效果。我們上線的時候,去年7月份每天違規(guī)件一個月下來是1245件,在第一季度已經(jīng)下降到90件一個月,就是質(zhì)檢的違規(guī)項在我涵蓋的這些項里,下降還是很厲害的,第二就是對于服務(wù)態(tài)度惡劣的問題,出現(xiàn)辱罵字樣的案間從9件下降到每個月2件,這個下降也是很明顯的,因為確實他的威懾力度還是很大的。
再就是除了質(zhì)檢以外,可以做一些運營管理,可以幫我們做一些自助話務(wù)結(jié)構(gòu)分析,通話時長,甚至可以區(qū)別出座席、客戶的時長,還有重復(fù)來電分析,現(xiàn)在我們可以結(jié)合來電原因定位到具體的用戶的信息上,可以做一些自動的來電原因分析,還有品牌信息、員工信息的關(guān)聯(lián)信息分析工具。
再就是營銷挖掘方面,我們對手機報和彩鈴業(yè)務(wù)兩個做了營銷挖掘,可以看到10月份對于手機報的業(yè)務(wù)其實成功率是提升了41%,手彩鈴也是提升非常高,提升了168%。
最后講一個小的總結(jié)。在互聯(lián)網(wǎng)時代,鼠標和鍵盤一定是我們作為輸入交互的最主要渠道,進入移動互聯(lián)網(wǎng)時代智能語音交互方式隨著設(shè)備越來越小,觸摸屏的普及,可能會成為一個新的方向。尤其是現(xiàn)在互聯(lián)網(wǎng)非常普及,通過IVR、通過網(wǎng)頁、通過短信這種多渠道的方式,已經(jīng)到來。再就是自然語言交互上,是一個明顯的趨勢。我們也希望提供語音與語言融合的應(yīng)用趨勢,大家一起迎接呼叫中心的語時代。謝謝各位。
本新聞為51Callcenter原創(chuàng)稿件,轉(zhuǎn)載請注明出自51Callcenter。謝謝!