華譯網(wǎng)評論:計算機語言翻譯技術(shù)發(fā)展迅速,可以說翻譯領(lǐng)域是電腦最容易替代人的領(lǐng)域,翻譯行業(yè)的從業(yè)人員可能是最先因電腦替代而被迫失業(yè)的一批人。翻譯公司也可能是最先因計算機語言技術(shù)發(fā)展而倒閉的公司。各國的翻譯人員和各國的翻譯公司做好準(zhǔn)備了嗎,趕緊改行吧。哈哈!
10月25日,微軟首席研究官、微軟研究院院長里克雷斯特博士在天津舉辦的“21世紀(jì)計算大會”中展示的微軟最新的研究成果――同聲傳譯器,向世人描繪了一幅“跨越語言,溝通無礙”的美好藍圖。
■速度只比原聲慢半秒
在美國熱播了40年的科幻電視劇《星際迷航》中,有一個非常“打眼”的工具――宇宙翻譯器。星際艦隊成員把它別在胸前徽章里,整個星際聯(lián)邦都廣泛使用它將所有的已知語言翻譯為聽者所懂的語言,對其余的未知語言也可通過對簡短幾句話的分析而進行轉(zhuǎn)換。按照劇中設(shè)定,宇宙翻譯器要到22世紀(jì)才能發(fā)明。
不過,在雷斯特的設(shè)想中,這種翻譯器的出現(xiàn)可能不用等那么久,他日前展示的“同聲傳譯”就是通往宇宙翻譯器的重要一環(huán)。
在這個10分鐘左右的演示中,雷斯特一直中速講英文,他背后有兩個大屏幕。現(xiàn)場觀眾都看到其中一個屏幕把他講的話以英文文本的形式展示出來,速度大概只比他的聲音慢小半秒。
在另一個屏幕上,上半部把英文文本中的單詞提取出來,并對應(yīng)中文單詞,而下半部按照中文語序已經(jīng)排列成中文句子。
隨后,最令人激動的時刻到來了,翻譯完的中文句子以普通話的形式“說”了出來,聲音聽起來與雷斯特本人很像,速度基本上是他一說完英語,機器就“說”出仿真聲音的中文翻譯,聽起來就像雷斯特在給自己做同聲傳譯。
他表示,微軟的同聲傳譯不僅能英譯漢,還能翻譯西班牙語等26種語言。雖然目前還沒有走出實驗室,未來卻可能做成同聲傳譯器,以至有人驚呼學(xué)同聲傳譯的人豈不是要失業(yè)么?
■語言識別并未完美
這個吸引眼球的演示第一步就是用計算機識別雷斯特的英文發(fā)言,但是這可能也是最難的一步。
雷斯特介紹,最開始的語言識別采用簡單的模式匹配,計算機檢查語音產(chǎn)生的波形,并盡量與已知相關(guān)的特定單詞相匹配。不過這一方法失效率太高了。
直到七八十年代,隱式馬爾科夫模型(HMM)被廣泛應(yīng)用,它利用來自多個人的培訓(xùn)數(shù)據(jù)建立更為穩(wěn)健的統(tǒng)計語音模型,成為語言識別的主流。不過,直到今日,即使是最佳的語音系統(tǒng),在任意語音上的單詞出錯率還高達20%-25%。
“兩年前,我們和多倫多大學(xué)的研究人員使用一項名為深度神經(jīng)網(wǎng)絡(luò)的技術(shù),仿照人腦行為,語音的錯誤率比之前的方法降低30%。這意味著之前四五個單詞中就會出現(xiàn)一個錯誤,而現(xiàn)在七八個單詞中才會出現(xiàn)一個錯誤。”
雖然微軟同聲傳譯的技術(shù)細節(jié)仍未透露,不過聲學(xué)專家解釋,這一技術(shù)還是建立在HMM的框架上,改為用神經(jīng)網(wǎng)絡(luò)模擬語音特征分布,從八九十年代就有應(yīng)用。只是現(xiàn)在計算能力提高,能把模型做得更細,也就更“深度”。
這種方法的準(zhǔn)確率與數(shù)據(jù)積累有很大關(guān)系。計算機越來越多地學(xué)習(xí)、掌握更多數(shù)據(jù),就會更聰明,這就是“機器學(xué)習(xí)”,不過機器學(xué)習(xí)依然有限度。如果是針對專人的優(yōu)化“學(xué)習(xí)”,語言識別的性能會提高得多一些。
■機器翻譯能代替人工翻譯?
說話人的語言被識別了,如何英譯漢也是個大問題。數(shù)據(jù)顯示,近幾十年來,因機器翻譯質(zhì)量存在問題,一直無法成為翻譯的主流。我們經(jīng)常會使用軟件翻譯頁面,所得文本之凌亂不言而喻。
雷斯特表示,他的演示中英譯漢需要兩個步驟:“第一步是提取我說的單詞,然后找到相應(yīng)的中文,雖然這并不簡單,但確實是比較簡單的一步。第二步是重新調(diào)整單詞的順序,使之符合中文習(xí)慣,這是語音正確翻譯的重要一步!
雷斯特所說的步驟與目前機器翻譯的方法是一致的。難點就在于譯文選擇和調(diào)序,不同語言語序不同,一個詞翻譯成另一種語言也可能有多個候選譯文,所以機器翻譯結(jié)果有時漏洞百出,F(xiàn)有提高正確率的方法需要依靠統(tǒng)計學(xué)。
雷斯特也承認,微軟的同聲傳譯在文本方面還有很多錯誤,而且翻譯結(jié)果可能很搞笑。不過,統(tǒng)計技術(shù)和大數(shù)據(jù)的引入將使文本翻譯有翻天覆地的變化。
然而,有專家認為,機器翻譯只能在某個特定領(lǐng)域達到較高的準(zhǔn)確率,比如法律或經(jīng)濟領(lǐng)域能達到80%到90%的準(zhǔn)確率,這是因為在特定領(lǐng)域詞義有了明確界定。而在通用領(lǐng)域,機譯準(zhǔn)確率不會很高,還是要依賴人工翻譯的經(jīng)驗。
■模仿的聲音有多像?
“數(shù)年后我希望打破人與人之間的語言障礙!碑(dāng)雷斯特用英語說出這句話一秒鐘后,微軟同聲翻譯機模仿他的聲音用中文說出。臺下的觀眾報以熱烈的掌聲。
確實,如果能在翻譯中保留說話人的語調(diào),交流將會更順暢。雷斯特說:“我這個不會說中文的人以自己的聲音‘說’出中文實在令人興奮!倍_到這一效果,需要一個文本到語音的系統(tǒng),包含數(shù)小時中國人說話的語音。此外,他還要預(yù)先錄制1小時的英文語音數(shù)據(jù)用來提取自己的聲音屬性,最后得到仿佛自己在說中文的效果。
這是一個個性化語音合成技術(shù)。一般情況下,機器通常只需模仿固定的男女兩種聲音,而要得到針對專人的仿聲,則需要獲得他/她的語音數(shù)據(jù),提取發(fā)聲相關(guān)的特征參數(shù),比如節(jié)奏、頻率、語氣,也就是專業(yè)術(shù)語說的基頻等等。當(dāng)合成系統(tǒng)適應(yīng)后,就可以輸出仿真聲音了。
不過,模仿聲音無法做到以假亂真,應(yīng)該只能做到七分像,因為模仿只能把一個人的習(xí)慣在單調(diào)水平上重現(xiàn)。比如,可以通過一個人走路的習(xí)慣、步長、左右搖晃等準(zhǔn)確模仿他的行走。但是人講話的信息量太大,雖然理論上可以分析節(jié)奏、頻率,但是要完全量化技術(shù)上還是做不到。(北京青年報 秦文) |