萬眾矚目的 iOS14 帶來了全新的內(nèi)置翻譯功能。
打開它,第一眼看去平平無奇。
翻譯應(yīng)用本體非常簡潔。在頂端選好互譯的語言后,用戶可以通過文字或語音輸入需要翻譯的內(nèi)容,翻譯后的文字會(huì)以藍(lán)色字體顯示在下方。
蘋果翻譯目前支持包括中文、英語、日語、德語、西語在內(nèi)的 11 種常用語。
不過,當(dāng)我們仔細(xì)“把玩”了一下蘋果的這個(gè)翻譯軟件后,發(fā)現(xiàn)事情并不簡單。
一開始我們發(fā)現(xiàn),除了日常用語外,連一些不太常見的說法,它也能輕松解決:
比如,輸入“快樂肥宅水”后,蘋果翻譯給出的結(jié)果直接是“可樂”。
這勾起了我們的興趣,翻出一些上古老梗試了試,居然也忠實(shí)地“還原”了——
“藍(lán)瘦香菇”這一題蘋果給出的答案是“Sad.gif”。(“藍(lán)瘦香菇”是2016年火遍網(wǎng)絡(luò)的梗,源自一失戀的南寧小哥拍攝的自拍視頻,他用方言表達(dá)“難受,想哭”,被“直譯”為了“藍(lán)瘦香菇”)
這實(shí)在太神奇了。要知道,谷歌翻譯在這一題的答案還是:
我們又接著試了試更多網(wǎng)絡(luò)流行語,發(fā)現(xiàn)蘋果翻譯很有自己的想法。
輸入“奧利給”后,蘋果翻譯表示這個(gè)詞是“酷”的意思。
成精了!
而且,在面對跨文化交流的微妙場合時(shí),蘋果翻譯也沒有輸?shù)簟?/p>
日文的“月色真美”經(jīng)了它的手就變成了“我愛你”。日本網(wǎng)友紛紛表示對蘋果好感大增。
▲ 夏目漱石白教了
然而隨著先用上 iOS14 的一批人,像我們一樣不斷“試探”蘋果翻譯,大家很快發(fā)現(xiàn),這個(gè)應(yīng)用開始有點(diǎn)不對勁了。
比如輸入“五五開”,出現(xiàn)的英文是“盧本偉”……(盧本偉是一名前斗魚主播,在一次游戲比賽中被問到和比自己實(shí)力強(qiáng)大很多的對手比賽什么感受,他強(qiáng)行回答了“五五開”,自此在游戲圈變成這個(gè)詞的代名詞,但在游戲圈外,可能并不是所有人都知道這個(gè)梗)
▲ 它不是準(zhǔn)確不準(zhǔn)確的問題,它真的是那種……那種很少見的那種
而輸入“滾筒洗衣機(jī)”,日語直接顯示“工藤新一”,不由讓人替真的需要在日本購買洗衣機(jī)的人捏了一把汗。(因?yàn)?ldquo;工藤新一”的日語發(fā)音,聽起來很像滾筒洗衣機(jī)。所以許多中國動(dòng)漫迷會(huì)這么稱呼他。但放在一個(gè)“正經(jīng)”的翻譯軟件里,是不是太隨意了?)
▲ 雖然從某種程度來講并沒有翻譯錯(cuò)
至此,蘋果翻譯給人的感覺已經(jīng)從“能精準(zhǔn)翻譯出晦澀中文梗的精髓”變成了“這是不是有點(diǎn)太隨意,要耽誤真正想要翻譯的人的正事?”的疑惑了。
而且,在另一些時(shí)候,蘋果翻譯表現(xiàn)得更是好像沉迷于玩爛梗的小鬼。
明明只是普通的一句“一袋米要扛幾樓”,都硬要翻譯成“感受痛苦吧”。(因?yàn)楹笳叩娜瘴淖x音,聽起來就像是中文的一袋米要扛幾樓,諸君可以打開蘋果翻譯一試......)
▲ 也可以輸入“辛辣天塞”試試
類似的翻車時(shí)刻越來越多,大家就開始覺得蘋果的“隨心所欲二次元”濃度也未免太高了。
被“污染”的語料
“把玩”至此,我們實(shí)在是好奇,是誰“教壞了”蘋果呢?
雖然蘋果一向?qū)ψ约业募夹g(shù)三緘其口,這次也一樣沒有說明 iOS14 到底用到了什么模型,但我們可以參考蘋果翻譯的老前輩 Google 翻譯。
Google 翻譯用到的是 Seq2Seq (Sequence to Sequence) 模型,Seq2Seq 由兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)模型協(xié)力組成,一個(gè)用于對輸入序列進(jìn)行編碼,一個(gè)用于對輸出序列進(jìn)行解碼。
當(dāng)輸入中文“知識就是力量”時(shí),編碼模型把每個(gè)字都標(biāo)上一個(gè)矢量,其中每個(gè)矢量代表到目前為止已讀取的所有字的含義。在整個(gè)句子編碼結(jié)束后,解碼器即會(huì)開始生成對應(yīng)的英語句子。
通過分析大量的語料數(shù)據(jù),模型能自動(dòng)從中學(xué)習(xí)出相應(yīng)的語法規(guī)則,也就是說,工程師教給模型什么,模型就學(xué)會(huì)什么。因此,蘋果的工程師可能為蘋果翻譯 feed 了太多網(wǎng)絡(luò)平行語料,導(dǎo)致蘋果翻譯被網(wǎng)絡(luò)用語“污染”,而識別不出文本原來的含義。
蘋果翻譯出現(xiàn)失誤的另一個(gè)可能性是,蘋果翻譯引入了知識圖譜。
知識圖譜是 Google 于 2012 年提出的概念,本質(zhì)上是一種基于圖的數(shù)據(jù)結(jié)構(gòu)。在知識圖譜中,每個(gè)名詞(又叫實(shí)體)都是一個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)間又有邏輯關(guān)系線相連。通過這種知識圖譜,神經(jīng)網(wǎng)絡(luò)能更好地理解上下文之間的關(guān)聯(lián)。
▲ 一種知識圖譜示意圖
也許在蘋果翻譯構(gòu)建的知識圖譜中,“五五開”被鏈接到“盧本偉”這個(gè)實(shí)體,而這個(gè)實(shí)體又可以被翻譯為“Lu Benwei”,同理,“滾筒洗衣機(jī)”也可能被鏈接到了“工藤新一”這個(gè)實(shí)體。
因?yàn)榫W(wǎng)絡(luò)平行語料和知識圖譜的存在,翻譯模型在面對獨(dú)立的名詞時(shí)很容易翻車。比如說“瓜皮”,蘋果直接按方言理解,翻譯成“笨蛋”。
▲ "方言本當(dāng)上手"
不過,根據(jù)我們對它原理的判斷,想要更準(zhǔn)確的翻譯,解決方法之一就是在蘋果翻譯出現(xiàn)錯(cuò)誤時(shí),我們可以嘗試為文本添加上下文,來幫助模型更好地理解。
比如把“瓜皮”改成“我不吃瓜皮”,把“滾筒洗衣機(jī)”改成“滾筒洗衣機(jī)多少錢”。
蘋果的這些翻譯確實(shí)帶來了很多樂趣,但當(dāng)人們真的需要用它來完成跨語言溝通時(shí),又不由得捏一把汗。
現(xiàn)在問題來了,這樣的蘋果翻譯你喜歡嗎?
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...