科技報報／谷歌發布神經網路翻譯系統：支援中英文

Google29日宣布發布Google神經網路機器翻譯系統（Google Neural Machine Translation），簡稱GNMT，使用當前最先進的訓練技術，能夠實現到迄今為止機器翻譯質量的最大提升。

我是廣告請繼續往下閱讀

根據驅動之家報導，機器語言翻譯早已有之，而十年前Google推出的Google Translate帶來了全新突破，其背後的核心演算法是基於短語的機器翻譯。

在那之後，機器智慧的快速發展大大推動了語音識別和圖像識別的提升，但改進機器翻譯、使之盡量接近人工翻譯，依然充滿挑戰。

幾年之前，Google就開始使用循環神經網路來直接學習一個輸入序列（如一種語言的一個句子）到一個輸出序列（另一種語言的同一個句子）的映射。

基於短語的機器學習會將輸入句子分解成詞和短語，然後對其中的大部分進行獨立翻譯。神經網路機器翻譯則將整個輸入句子視作翻譯的基本單元，優點是所需調整更少，很快就在中等規模的公共基準資料集上達到了與基於短語的翻譯系統不相上下的準確度。

此後研究者不斷改進神經網路機器翻譯系統，比如類比外部對準模型來處理罕見詞，使用『注意（attention）』來對準輸入詞和輸出詞，以及將詞分解成更小的單元以應對罕見詞。

如今，神經網路機器翻譯系統已經克服了超大型資料集上的許多挑戰，在翻譯速度和準確度上都已足夠為用戶帶來更好的服務，比如英語和法語、英語和西班牙語的互譯翻譯質量已經達到90％左右，中英互譯也在80％上下。

這則動圖就展示了Google神經網路機器翻譯系統將一個中文句子翻譯成英語句子的過程。

首先，該網路將這句中文的詞編碼成一個向量列表，其中每個向量都表示了到目前為止所有被讀取到的詞的含義（編碼器Encoder）。一旦讀取完整個句子，解碼器就開始工作，一次生成英語句子的一個詞（解碼器Decoder）。

為了在每一步都生成翻譯正確的詞，解碼器重點注意了與生成英語詞最相關編碼的中文向量的權重分布（注意『Attention』；藍色連線的透明度表示解碼器對一個被編碼的詞的注意程度）。

在雙語評估者的幫助下，通過在維基百科和新聞網站的例句測定，Google發現：在多個樣本的翻譯中，神經網路機器翻譯系統將誤差降低了55－85％甚至更多。

特別地，Google神經網路機器翻譯系統已經投入到一個非常困難的中英語言對翻譯中。

現在，行動版和網頁版的Google Translate 的中英翻譯已經開始完全使用神經網路機器翻譯系統，每天處理大約1800萬條翻譯，未來幾個月還會擴展到更多的語言對上。

當然，機器翻譯仍然不可能做到完美，Google神經網路機器翻譯系統也會犯一些人類譯者永遠不會出的重大錯誤，例如漏詞和錯誤翻譯專有名詞或罕見術語，以及將句子單獨進行翻譯而不考慮其段落或上下文。

無論如何，Google神經網路機器翻譯系統仍然代表著一個重大的里程碑。