一個(gè)令人苦惱的事實(shí)是,英文網(wǎng)頁的數(shù)量不知道比中文網(wǎng)頁多到哪里去,而公共知識庫維基百科中,英文詞條也遠(yuǎn)比中文詞條豐富。如果是英文苦手,又想避開可能被廣告占領(lǐng)的某度百科,就只能借助翻譯工具了。 2014年底Skype翻譯公布預(yù)覽版,后來逐漸支持?jǐn)?shù)十種語
一個(gè)令人苦惱的事實(shí)是,英文網(wǎng)頁的數(shù)量不知道比中文網(wǎng)頁多到哪里去,而公共知識庫維基百科中,英文詞條也遠(yuǎn)比中文詞條豐富。如果是英文苦手,又想避開可能被廣告占領(lǐng)的某度百科,就只能借助翻譯工具了。
2014年底Skype翻譯公布預(yù)覽版,后來逐漸支持?jǐn)?shù)十種語言的語音及文本實(shí)時(shí)互譯;2006年Google推出在線翻譯工具,目前已支持103種語言,覆蓋99%的網(wǎng)民。不過使用過就會(huì)發(fā)現(xiàn),它們還只能算差強(qiáng)人意,譯文不準(zhǔn)確,也無法用于內(nèi)容出版。以Google為例,它經(jīng)常會(huì)詞不達(dá)意,甚至違背語法規(guī)則。這是因?yàn)镚oogle機(jī)器翻譯用的是基于統(tǒng)計(jì)分析的算法,需要豐富的語料庫才能有較好的效果,而這顯然與人類對語言的理解不同。
那機(jī)器翻譯就不堪重用嗎?也不是。
石家莊網(wǎng)絡(luò)建設(shè)獲悉,在新聞?lì)I(lǐng)域,機(jī)器人已經(jīng)能自動(dòng)生成稿件,數(shù)秒內(nèi)就能將重要資訊傳達(dá)給用戶,不過還僅限財(cái)經(jīng)等句式規(guī)范的內(nèi)容。機(jī)器翻譯也是如此,商鵲網(wǎng)就認(rèn)為,機(jī)器翻譯雖然遠(yuǎn)未達(dá)到成熟,但在科技專利等垂直領(lǐng)域可以取得突破。
什么樣的機(jī)器翻譯,比Google還要占優(yōu)?
skype翻譯
在翻譯上,商鵲網(wǎng)主要為垂直領(lǐng)域(專利、跨境電商和境外投資等)提供機(jī)器翻譯引擎產(chǎn)品,應(yīng)用在譯后編輯工作模式中;并以譯后編輯(通過少量人工修改以完善機(jī)器的翻譯)平臺提供人機(jī)交互翻譯服務(wù)。
此外,商鵲網(wǎng)還有在線術(shù)語管理平臺“語帆術(shù)語寶”和開放詞典網(wǎng)站“一本詞典”等產(chǎn)品,并為客戶提供技術(shù)服務(wù),如語料對齊工具。
其核心技術(shù)在以下幾個(gè)方面:
完整的機(jī)器翻譯技術(shù),覆蓋了自然語言處理技術(shù)的各個(gè)層面(詞法、句法、語義),主要組成部分(分詞、術(shù)語提取、句法分析、語言模型、語義分析等)和主要技術(shù)方案(基于統(tǒng)計(jì)、基于實(shí)例、深度神經(jīng)網(wǎng)絡(luò)等)
人機(jī)交互翻譯技術(shù),目前應(yīng)用的是適合行業(yè)用戶水平的譯后編輯技術(shù);
術(shù)語提取技術(shù)和術(shù)語管理系統(tǒng),這是實(shí)現(xiàn)知識圖譜和智能知識管理的基礎(chǔ);
完整的數(shù)據(jù)采集、加工和應(yīng)用工具、流程及系統(tǒng)。
雖然工廠、寫作及翻譯上的自動(dòng)化水平越來越高,但機(jī)器翻譯還遠(yuǎn)未達(dá)到成熟水平(用過Google和有道翻譯的應(yīng)該有同感)。讓機(jī)器學(xué)會(huì)翻譯不是件容易的事,語言有很大的復(fù)雜性,一些用詞與表達(dá)往往有多種含義,再加上語序的變化,想想也是為難機(jī)器人,畢竟人類之間也經(jīng)常發(fā)生誤解。
相比之下人機(jī)交互翻譯更成熟也更實(shí)用。而且通過反饋的方式,可以提高系統(tǒng)的智能化水平。這也是商鵲網(wǎng)使用人機(jī)交互翻譯,并專注特定領(lǐng)域的原因。
這種方式也讓人想到Facebook的人工智能服務(wù)“M”。M能提供訂餐這樣的連續(xù)對話服務(wù),這是因?yàn)樗斜环Q為“訓(xùn)練員”的人工輔助,遇到無法處理的信息時(shí)會(huì)由教練處理。這樣人工智能可以輔助人工后臺,反過來人工后臺會(huì)訓(xùn)練人工智能。
商鵲網(wǎng)表示,在對自然語言處理*為重要的語料數(shù)據(jù)上也有持續(xù)的積累。在專利等領(lǐng)域,它們已經(jīng)有了大規(guī)模雙語語料和雙語術(shù)語庫。2013年啟動(dòng)的人工譯后編輯項(xiàng)目,也為其積累了大量人工反饋和行為數(shù)據(jù)。對比Google在專利領(lǐng)域的翻譯,商鵲網(wǎng)認(rèn)為,雖然Google在句式表達(dá)上占優(yōu),但自己在術(shù)語準(zhǔn)確度上有優(yōu)勢,因?yàn)槊磕暧谐^2億字的人機(jī)專利翻譯業(yè)務(wù),這對提高翻譯引擎的準(zhǔn)確度十分重要。
無論是圖像識別還是自然語言處理,數(shù)據(jù)集對人工智能至關(guān)重要,反饋越多,系統(tǒng)迭代也越快,準(zhǔn)確性也越高。
對于當(dāng)紅的深度學(xué)習(xí)技術(shù),商鵲網(wǎng)也在將較為成熟的技術(shù)如WordEmbedding等應(yīng)用于技術(shù)研發(fā)中,并在克服翻譯效果、時(shí)空性能和用戶體驗(yàn)之間的平衡等問題,在垂直領(lǐng)域取得突破?;蛟S再過不久,機(jī)器就不再需要人類協(xié)助翻譯了吧。