機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基于規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網絡機器翻譯(Neural Machine Translation, NMT)技術異軍突起,取得了翻譯質量的大幅躍升。
12月21日,在百度機器翻譯技術開放日上,百度技術委員會聯席主席、自然語言處理部技術負責人吳華博士表示,基于領先的人工智能、神經網絡以及自然語言處理技術,百度早在1年多以前就率先發布了世界上首個互聯網NMT系統,引領機器翻譯進入神經網絡翻譯時代。
吳華博士講解百度機器翻譯技術
先發制人:百度率先進入NMT時代
眾所周知,一項新的技術從實驗室誕生到真正的工業化應用,往往需要很長時間。以統計機器翻譯(SMT)為例,它自上世紀90年代初提出,直到15年之后,才出現了第一個基于SMT技術的互聯網翻譯系統,得到了大規模的應用。
而神經網絡翻譯技術從2014年9月提出,到百度2015年5月上線首個互聯網NMT系統,只用了短短8個月時間。這既體現了百度對于新技術敏銳的洞察力,也體現了百度翻譯的雄厚的技術實力。事實證明,NMT這一技術帶來了翻譯質量的大幅躍升,極大的提升了用戶體驗。
隨后,NMT以驚人的發展速度席卷學術界和工業界。在2016年學術界頂級會議上,幾乎全是圍繞NMT相關的創新工作,今年9月,谷歌、微軟等公司也相繼發布NMT系統。
NMT技術緣何受到追捧?據吳華介紹,它克服了傳統方法將句子分割為不同片段進行翻譯的缺點,而是充分利用上下文信息,對句子進行整體的編碼和解碼,從而產生更為流暢的譯文。
攻堅克難:NMT時代的百度式創新
“上線過程充滿挑戰,然而,對于每一個難題,我們都率先給出了高效的解決方案”回顧一年多前的上線歷程,吳華不無自豪的說。
盡管敏銳地洞察到NMT的優勢和潛力,在最初計劃上線該技術時,工程師們仍然表示了 擔憂。畢竟,線上傳統的SMT系統經過長時間打磨,運作良好。而NMT剛剛提出幾個月的時間,盡管有優勢,但技術本身仍存在諸多缺陷,學術界也對其性能存在爭論甚至質疑。更不要提將其發布上線,面對廣大的互聯網用戶了。
“既然我們相信并且驗證了它是有用的,我們應該盡快讓它上線,提升用戶體驗”。簡單可依賴,百度工程師文化深入大家的骨髓。
彼時,對于NMT面臨的多個難題,并無成熟的解決方法?!杭纫礈史较颍忠^過河』。百度翻譯技術人員系統化地提出了一整套解決方案。譬如,通過引入SMT中的特征解決NMT系統集外詞(OOV)無法翻譯、譯文不完整(漏詞)的問題,借助算法改進將解碼速度提升數十倍;開創性地提出首個基于深度學習的多語言翻譯框架,解決數據稀疏問題;同時將模型壓縮70倍便于移動用戶在本地運行等。
在這一系列努力之下,吳華表示,“百度翻譯在中英的測試集上,翻譯質量比之前傳統的方法提升了7個百分點以上。”而通常,提升1個百分點,效果就非常顯著了。2015年5月20日,百度翻譯正式上線NMT系統,成為世界范圍內第一個真正實用的NMT系統。
隨后,在7月份的自然語言處理頂級會議ACL年會上,百度NMT翻譯系統又擔任了終身成就獎頒獎典禮的實時翻譯,在眾多世界級專家面前亮相展示。
同年,百度翻譯獲得了國家科技進步二等獎。百度也成為首個獲此殊榮的互聯網企業。
服務大眾:場景落地與大規模工業化應用
技術最終要服務大眾,否則就是鏡中月、水中花。在一系列技術創新的同時,百度翻譯結合用戶真實的使用場景,不斷豐富產品功能,優化用戶體驗。目前,百度翻譯支持全球28種語言互譯、756個翻譯方向,每日響應過億次的翻譯請求。
民警用百度翻譯救助外國友人、公交車售票員用百度翻譯幫助巴基斯坦小伙子找回失物、游客利用『對話翻譯』、『拍照翻譯』功能在國外自由溝通等等,都表明了百度翻譯越來越多的融入了我們的生活。
此外,百度翻譯還開放了API接口,助力廣大企業國際化。目前已有超過2萬個第三方應用接入。華為、OPPO、中興、三星等手機廠商,金山詞霸、靈格斯詞霸、敦煌網等眾多產均接入了百度翻譯API。世界知識產權組織(WIPO)也將百度翻譯API集成到官網,供用戶將專利信息翻譯成不同語種查詢。
砥礪前行:不斷創新,擴大領先優勢
“NMT時代我們走在了世界前列,我們需要適應并一直保持領跑者的角色。以前我們是跟跑、并跑,現在我們要帶著別人跑”吳華在活動上如是說道。
事實上,這不僅是對機器翻譯而言,對于整體的科學技術領域,中國科技企業正逐步擺脫跟跑、并跑角色,開始在國際中擔負起領跑重任,并持續保持擴大這種領先優勢。