關(guān)注國(guó)際新聞的朋友可能已注意到,每次的聯(lián)合國(guó)大會(huì)上,很多外交官都會(huì)頭戴耳機(jī)認(rèn)真聆聽(tīng)其他國(guó)家外交官的發(fā)言,這里應(yīng)用的就是同聲傳譯技術(shù),它讓收聽(tīng)者可以快速理解不同國(guó)家的語(yǔ)言。以前的同聲傳譯基本上靠人來(lái)快速翻譯,而隨著智能技術(shù)的發(fā)展,智能機(jī)器翻譯開(kāi)始越來(lái)越多的應(yīng)用到同傳的領(lǐng)域中。
同聲傳譯,并不是一次簡(jiǎn)單的機(jī)器翻譯
說(shuō)到機(jī)器翻譯,相信很多朋友都在使用百度、有道等公司提供的在線(xiàn)翻譯。我們只要打開(kāi)在線(xiàn)翻譯頁(yè)面,然后輸入需要翻譯的語(yǔ)句,選擇輸出翻譯語(yǔ)言即可快速完成翻譯。如果再借助語(yǔ)音輸入完成需翻譯語(yǔ)句的輸入,這就是一次簡(jiǎn)單的同聲傳譯模型(圖1)。

圖1 同聲傳譯模型
不過(guò)在線(xiàn)機(jī)器翻譯準(zhǔn)確度不高、機(jī)械性強(qiáng)、語(yǔ)義歧義等一直受人詬病,而要實(shí)現(xiàn)同聲傳譯,一是要求“同聲”,也就是可以同步識(shí)別發(fā)言者的語(yǔ)音,實(shí)現(xiàn)盡可能短的延遲;二則是“傳譯”,要求翻譯盡可能的準(zhǔn)確。隨著人工智能和深度學(xué)習(xí)技術(shù)的發(fā)展,同聲傳譯技術(shù)逐漸實(shí)現(xiàn)上述兩個(gè)要求,比如搜狗的“搜狗同傳”技術(shù)就可以很好實(shí)現(xiàn)“同聲”和“傳譯”(圖2)。

圖2 “搜狗同傳”技術(shù)展示
同聲+傳譯,搜狗同傳背后的秘密
如上所述,同聲傳譯技術(shù)并非簡(jiǎn)單的語(yǔ)音輸入和機(jī)器翻譯的結(jié)合體。同聲傳譯講究的是“同聲”+“傳譯”,那么搜狗同傳這類(lèi)技術(shù)是怎么實(shí)現(xiàn)這些要求?
首先是同聲,在王小川演講的演示中可以看到,在演講者完成一句話(huà)的演講后,背后的大屏幕幾乎在同一時(shí)間完成了語(yǔ)音和文字轉(zhuǎn)換。這看似簡(jiǎn)單的語(yǔ)音到文本的轉(zhuǎn)換,實(shí)則是搜狗強(qiáng)大語(yǔ)音識(shí)別技術(shù)的實(shí)際體現(xiàn)。
要對(duì)某個(gè)人說(shuō)出的語(yǔ)句進(jìn)行實(shí)時(shí)、高效的識(shí)別,搜狗同傳先要實(shí)現(xiàn)精準(zhǔn)的語(yǔ)音斷句,也就是對(duì)用戶(hù)說(shuō)的每一句話(huà)進(jìn)行判斷,從而可以準(zhǔn)備識(shí)別用戶(hù)真正的表達(dá)意圖。因?yàn)橛脩?hù)的演講是連貫的,如果無(wú)法實(shí)現(xiàn)準(zhǔn)確的語(yǔ)音斷句,那么就很容易出現(xiàn)識(shí)別的偏差。舉個(gè)簡(jiǎn)單的例子,“小王打敗了小李得了冠軍”這樣一句話(huà),用戶(hù)在表述中不同的停頓就有完全不同的意思,如“A:小王打敗了,小李得了冠軍”,“B:小王打敗了小李,得了冠軍”。
為了提高語(yǔ)音斷局的能力,搜狗同傳算法通過(guò)能量檢測(cè)和基于深度學(xué)習(xí)模型的方式,對(duì)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音和靜音的判斷,這樣可以跳過(guò)對(duì)靜音片段的處理以提升解碼效率,同時(shí)語(yǔ)音片斷可以分割成多句并行識(shí)別,大大提高語(yǔ)音識(shí)別的效率。借助深度學(xué)習(xí)模式,搜狗同傳就可以準(zhǔn)確識(shí)別語(yǔ)音斷句,比如上述例子,如果前文表達(dá)的是小王的實(shí)力強(qiáng)大,這樣通過(guò)上下文關(guān)系搜狗同傳就會(huì)使用A的短句理解用戶(hù)輸入(圖3)。

圖3 語(yǔ)音短句圖解
在語(yǔ)音識(shí)別部分,搜狗同傳使用了CLDNN+CTC結(jié)合的聲學(xué)模型和RNNLM語(yǔ)言模型,把經(jīng)過(guò)語(yǔ)音斷句后的片段,通過(guò)聲學(xué)模型和語(yǔ)言模型轉(zhuǎn)化成文本。這樣借助“語(yǔ)音斷句算法+聲學(xué)模型+RNNLM語(yǔ)言模型”,搜狗同傳就可以準(zhǔn)確識(shí)別用戶(hù)的演講,從而實(shí)現(xiàn)高效的“同聲”輸入識(shí)別(圖4)。

圖4 同聲輸入圖解
其次是“傳譯”,在完成對(duì)用戶(hù)語(yǔ)音的識(shí)別后就需要進(jìn)行同步的翻譯。要完成文本的準(zhǔn)確翻譯,其中的關(guān)鍵是文本斷句。搜狗同傳的文本短句模塊借助內(nèi)容平滑技術(shù)去掉無(wú)意義詞語(yǔ),使句子變得通順,然后通過(guò)規(guī)則和模型兩種方法進(jìn)行語(yǔ)句劃分并加標(biāo)點(diǎn)。這里還運(yùn)用到了雙向GRU技術(shù)構(gòu)建編碼端的結(jié)構(gòu)。通過(guò)Attention機(jī)制在源端和目標(biāo)端文本間進(jìn)行對(duì)齊并生成當(dāng)前時(shí)刻的句子級(jí)向量表示,并送至解碼端,解碼端逐詞解碼輸出翻譯結(jié)果。這樣翻譯后的語(yǔ)句通暢,可以很好讓傾聽(tīng)者看明白其他語(yǔ)言發(fā)言者要表達(dá)的意思(圖5)。

圖5 傳譯模式圖解
這樣通過(guò)“同聲”(語(yǔ)音短句+識(shí)別輸入)和“傳譯”(文本短句+逐詞解碼),搜狗同傳可以讓不同語(yǔ)言的演講者和傾聽(tīng)者都可以看懂彼此的發(fā)言,實(shí)現(xiàn)全人類(lèi)之間的順暢交流(圖6)。

圖6 同聲傳譯圖解
同聲傳譯,讓我們溝通更便捷
隨著對(duì)外開(kāi)放力度的加強(qiáng),無(wú)論是對(duì)外貿(mào)易(如和國(guó)外合作廠商的協(xié)作),還是普通用戶(hù)的對(duì)外交往(如和國(guó)外網(wǎng)友的skype交流)。我們都需要和不同語(yǔ)言的用戶(hù)進(jìn)行交流,但是由于語(yǔ)言的障礙,使得這些交流變得異常困難。
不過(guò)隨著類(lèi)似搜狗同聲傳譯技術(shù)的發(fā)展,接著這些技術(shù)我們就可以和國(guó)外網(wǎng)友,同事進(jìn)行無(wú)障礙的交流,這極大提高我們之間的溝通效率。比如對(duì)于國(guó)外有分部的公司,通過(guò)會(huì)議室投影儀的展示,不同國(guó)家的員工可以無(wú)障礙瀏覽和理解一種語(yǔ)言的制作的PPT。對(duì)于希望學(xué)習(xí)其他語(yǔ)言的網(wǎng)友,借助同聲傳譯遠(yuǎn)程在線(xiàn)課堂,即使身在中國(guó),也不會(huì)由于母語(yǔ)的限制而看不懂國(guó)外教師的演示,大大提高在線(xiàn)學(xué)習(xí)的效率。
正是看到同聲傳譯發(fā)展?jié)摿Γ壳案鞔驣T巨頭也在發(fā)展各自的同聲傳譯技術(shù),比如谷歌在開(kāi)發(fā)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù),并且在YouTube視頻使用即時(shí)同聲傳譯字幕(圖7)。

圖7 谷歌神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯
騰訊公司則推出的人工智能同聲傳譯解決方案“騰訊同傳”,科大訊飛推出的智能語(yǔ)音翻譯機(jī),隨著AI技術(shù)的發(fā)展,這些同聲傳譯技術(shù)必將會(huì)給我們和世界的交流帶來(lái)更多的便利(圖8)。

圖8 騰訊同傳
|