自從2016年Alphago戰(zhàn)勝李世石后,最近幾年全球幾乎所有技術(shù)公司,幾乎都投入了AI的競爭之中。我們也很快在我們的日常生活中用上科技公司的AI智能音箱,接觸到AI智能客服,用上AI的人臉識別。
同時,眾多一流科技公司追求AI技術(shù)進(jìn)步的腳步也從未停歇。2021年8月10日,阿里巴巴達(dá)摩院的AliceMind團(tuán)隊再次刷新全球最權(quán)威機(jī)器視覺問答榜單VQA(Visual Question Answering) ,并以81.03分的成績讓AI在“讀圖會意”上首次超越人類表現(xiàn)。
AI技術(shù)雖然發(fā)展很早,但是一度停滯了很多年,一直到新世紀(jì)深度神經(jīng)網(wǎng)絡(luò)復(fù)興,應(yīng)用到AlphaGo上擊敗手李世石,AI才開始重新進(jìn)入快車道。
AI的機(jī)器視覺,是一個非常重要而且有實(shí)用性的分支,通過CNN卷積模型,AI在2015年實(shí)現(xiàn)了視覺分類超越人類。但是應(yīng)用到真實(shí)世界,AI僅僅識別是不夠的。
所以,全球計算機(jī)視覺頂會CVPR從2015年起連續(xù)6年舉辦VQA挑戰(zhàn)賽,聚集微軟、Facebook、斯坦福大學(xué)、阿里巴巴、百度等眾多世界最強(qiáng)AI研究機(jī)構(gòu),形成了國際上規(guī)模最大、認(rèn)可度最高的VQA數(shù)據(jù)集。對AI技術(shù)進(jìn)行攻關(guān)。
VQA測試,是給定一些圖片,然后用自然語言針對圖片中的內(nèi)容提出問題,讓AI理解自然語言提出的問題,識別圖片,然后正確回答。
我們看VQA的一道試題,給定下面這張玩具的圖片。然后提出問題。
What are those toys there for?(這些玩具用在什么地方?)正確答案是Wedding(婚禮)。
這個問題,對人類來說似乎不太難,但是對AI來說非常大的挑戰(zhàn)。
整個測試都是各種各樣不同的圖和各種各樣不同的問題,2016年水平的AI,在進(jìn)行VQA測試的時候,分?jǐn)?shù)都是非常可憐,被諷刺為人工智障。
而經(jīng)過多年的努力,2021年,阿里在這個測試中取得了非常好的成績,這是與微軟、Facebook、百度等一流公司,一流大學(xué),一流研發(fā)機(jī)構(gòu)競爭。阿里達(dá)摩院取得高分來之不易。
而且,這也是VQA測試以來,AI第一次超過人類水平,這是標(biāo)志性的重大成就。
最近幾年,AI的成果一直在轉(zhuǎn)化,今天,我們用自然語言可以給阿里的智能音箱下命令,像要求仆人一樣要求智能音箱控制我們中的聯(lián)網(wǎng)家電。
這在短短十年前,都是科幻片的情況。而背后的技術(shù)僅僅是一個語音語義識別。
那么,這次阿里達(dá)摩院在VQA這個高難度領(lǐng)域突破,超越人類,又會給我們帶來什么?
一、皇冠上的明珠
過去幾年,人類在AI上有很多突破,這些突破主要都是單模的,也就是替代人類一種感官。譬如機(jī)器視覺用于人臉識別、物體識別。語音識別用于識別人類語音,判斷語義。這都是依賴于深度神經(jīng)網(wǎng)絡(luò)的發(fā)展。
從DNN(深度神經(jīng)網(wǎng)絡(luò))到RNN(循環(huán)神經(jīng)網(wǎng)絡(luò)),CNN(卷積神經(jīng)網(wǎng)絡(luò)),GAN(生成式對抗網(wǎng)絡(luò))。人類在最近10多年中取得了巨大進(jìn)步。
我們用上了智能音箱,普及了基于AI技術(shù)的人臉識別,有了能夠交談的AI客服。
但是,VQA就不同了。VQA是為了解決真實(shí)世界復(fù)雜問題的。
VQA給你一幅圖像,一個自然語言描述的問題,讓你用自然語言回答。這個東西是多模的
首先,讓AI明白VQA所提出問題就是一個高難度的任務(wù)。這個屬于自然語言理解。
人類理解自然語言描述的一個問題,首先要懂語言,譬如一個英文問題,你先得懂英語才行。
要懂英語,你得學(xué)單詞,被語法,了解固定搭配,知道句型。而AI要看懂也得有這個過程。
對VQA來說,并不是我們普通語言識別看懂就行了,而是要根據(jù)圖了解VQA問題的意圖。這個就難了。
人類除了看懂問題的詞匯,理解句型,還要有一個人類的常識,要有人類的知識學(xué)習(xí)記憶,要聯(lián)想記憶去理解問題。
對人工智能里說,要理解問題,也需要先認(rèn)識詞匯,然后理解意圖,還需要搜索知識庫明白問題問的是什么。還要結(jié)合影像識別的結(jié)果。
僅僅是正確了解VQA的問題意圖,就是比普通語言識別更困難的任務(wù)。而這只是第一步。
就圖像識別來說,目前人工智能技術(shù)已經(jīng)比較成熟,畢竟2015年在這方面AI已經(jīng)超過人類,現(xiàn)在已經(jīng)有類似于產(chǎn)品檢驗(yàn)機(jī)的東西都已經(jīng)應(yīng)用到生產(chǎn)之中了,單一物體人工智能識別是什么已經(jīng)不太難。
但是對于VQA來說,所提出的問題并不是關(guān)于整張圖片的,而是針對圖片中某一個或者某幾個物體的。
譬如,圖片中有10個人,VQA所提出的問題只與一個人有關(guān),AI要從10個中聚焦到問題相關(guān)的人,這就難了。
人工智能要根據(jù)對問題的理解,把把目標(biāo)物體從復(fù)雜影像中聚焦出來,這是高難度。而這還是第二步。
因?yàn)�,你正確理解問題意圖,正確聚焦出來還不行,還得根據(jù)問題的意思回答,你能夠聚焦出來一幅圖的重點(diǎn)物體是衣服,但是要回答的問題是衣服的文字代表什么球隊。
這樣你還要做推理,看衣服上什么文字是和球隊相關(guān)的,然后再搜索球隊標(biāo)識的數(shù)據(jù)回答。還需要一個推理的過程。
最后,你推理完畢了,還要通過GAN(生成式對抗網(wǎng)絡(luò))產(chǎn)生出自然語言的回答。這才算是完成任務(wù)。
我們現(xiàn)在日常用的AI識別,還屬于感知級別的AI,譬如認(rèn)個人臉,認(rèn)個身份證,聽懂語音。而VQA這個已經(jīng)是認(rèn)知了,是多種AI技術(shù)的綜合,屬于多模態(tài),可以算AI技術(shù)皇冠上的明珠之一。
所以,一開始這類測試,盡管參加者都是世界一流的科技公司,大學(xué),研發(fā)機(jī)構(gòu),但是得分都很低,在50分以下,后來一年年隨著技術(shù)和算力的進(jìn)步逐漸提升。
今天,阿里已經(jīng)取得了80多分,超過人類認(rèn)識的水平,這是非常不容易的。
二、達(dá)摩院的獨(dú)門秘籍
如同我們前面說的,VQA挑戰(zhàn)的核心難點(diǎn)在于,需在單模態(tài)精準(zhǔn)理解的基礎(chǔ)上,整合多模態(tài)的信息進(jìn)行聯(lián)合推理認(rèn)知,最終實(shí)現(xiàn)跨模態(tài)理解。
這相當(dāng)于人類通過多個認(rèn)知途徑獲取信息,最后綜合判斷做出結(jié)論。
對于這個挑戰(zhàn),阿里達(dá)摩院的AliceMind團(tuán)隊,用整合方案對整合問題,對AI視覺-文本推理體系進(jìn)行了系統(tǒng)性的設(shè)計,融合了大量算法創(chuàng)新,作出來一個整體的解決方案,具體包括四個方面:
一是先把盡可能的提升單模態(tài)理解的精度。主要是對圖片識別的精確。阿里從多個方面刻畫圖片的局部和全局的語義信息,同時使用Region,Grid,Patch等視覺特征表示,更清楚的把圖片上的東西都識別清楚了,這樣可以更精準(zhǔn)地進(jìn)行單模態(tài)理解。相當(dāng)于人類在識別物體的時候看得更清楚。為后續(xù)打基礎(chǔ)。
二是做大量多模態(tài)預(yù)訓(xùn)練
阿里達(dá)摩院的AliceMind團(tuán)隊用大數(shù)據(jù)的海量圖文數(shù)據(jù)和多粒度視覺特征做多模態(tài)預(yù)訓(xùn)練,用于更好地進(jìn)行多模態(tài)信息融合和語義映射,發(fā)展出了SemVLP,Grid-VLP,E2E-VLP和Fusion-VLP等預(yù)訓(xùn)練模型。
這個相當(dāng)于人類上學(xué)學(xué)基礎(chǔ)知識,你有了基礎(chǔ)知識,才能對看到的東西做個判斷,古代人不認(rèn)識汽車,現(xiàn)代人因?yàn)閷W(xué)過什么是汽車,所以看到汽車就知道這是汽車。計算機(jī)也得學(xué)習(xí),多模態(tài)的預(yù)訓(xùn)練就是這個學(xué)習(xí)過程。學(xué)習(xí)的越多,識別的越準(zhǔn)。
三是研發(fā)自適應(yīng)的跨模態(tài)語義融合和對齊技術(shù),創(chuàng)新性地在多模態(tài)預(yù)訓(xùn)練模型中加入Learning to Attend機(jī)制來進(jìn)行跨模態(tài)信息地高效深度融合。就是說你不能看圖全看,而是要逐漸聚焦到問題相關(guān)的東西上面。用這個去做多模態(tài)的預(yù)訓(xùn)練。
四是采用Mixture of Experts (MOE)技術(shù)進(jìn)行知識驅(qū)動的多技能AI集成。因?yàn)閂QA本身是多模態(tài)的,人工智能的神經(jīng)網(wǎng)絡(luò)當(dāng)然不能用一個,也得多個一起來,A神經(jīng)網(wǎng)絡(luò)適合算A,就去算A。B神經(jīng)網(wǎng)絡(luò)適合算B,就去算B。把這些神經(jīng)網(wǎng)絡(luò)集成起來,取得最好的效果。
至于看懂問題,阿里達(dá)摩院前身IDST早在2018年就在斯坦福SQuAD挑戰(zhàn)賽中歷史性地讓機(jī)器閱讀理解首次超越人類,轟動全球。2021年阿里的深度語言模型體系A(chǔ)liceMind入選2021 世界人工智能大會最高獎 SAIL 獎 TOP30。VQA無非是把阿里的自然語言理解功力與圖形識別再結(jié)合一下,萬變不離其宗。
所以,阿里能獲得這個成就不是一朝一夕之功,是阿里強(qiáng)大的技術(shù)實(shí)力多年積累的結(jié)果。阿里通過積累的強(qiáng)大技術(shù)實(shí)力,針對VQA挑戰(zhàn)做系統(tǒng)性的解決方案。利用數(shù)據(jù)和算力資源,最終實(shí)現(xiàn)了超越人類的奇跡。
實(shí)力、創(chuàng)新性方案、資源,這是阿里達(dá)摩院的成功秘笈。
三、超越人類的AI會帶給我們什么
最近幾年,人類在AI上的每次突破,都會給我們的生活帶來極大的便利。自動駕駛的突破雖然沒有讓無人駕駛普及,但是自動泊車,自動跟車,高速路自動巡航已經(jīng)非常普及。
VQA這種多模態(tài)的AI應(yīng)用屬于高級技術(shù),阿里在VQA上技術(shù)突破也很快落到了阿里的產(chǎn)品。
阿里達(dá)摩院的對話式AI已經(jīng)在為淘寶天貓商家服務(wù),已經(jīng)提供百萬級調(diào)用量的VQA看圖問答能力,已經(jīng)有數(shù)萬家商家開通使用店小蜜客服VQA功能。
客戶提出問題,阿里的AI技術(shù)能夠理解客戶的問題,直接從產(chǎn)品網(wǎng)頁圖像中截取相關(guān)內(nèi)容展示給客戶,解決客戶的需求。相當(dāng)于一個高效人工客服。
同時,阿里的VQA也已作為中臺能力,拓展至盒馬和考拉客服場景及閑魚的圖文同款匹配場景。用戶可以通過VQA的技術(shù),文字意圖匹配到相關(guān)產(chǎn)品。
當(dāng)然,這些VQA相關(guān)技術(shù)的應(yīng)用僅僅是牛刀小試。
因?yàn)閂QA其實(shí)并不是一張圖片的識別那么簡單。而是測試性的,未來真正的識別,不是圖片而是現(xiàn)實(shí)世界的影像。而解決方案,也未必是語言回答,也可以是控制行動。VQA的技術(shù)成熟以后,我們可以通過自然語言,命令A(yù)I做事。
現(xiàn)在你的語音識別只能通過智能音箱控制家電。而未來,是我們給機(jī)器人下命令,機(jī)器人理解你的語言意圖,然后掃描周邊環(huán)境,找到符合你意圖的東西,執(zhí)行行動。
譬如,未來有一天,你對這機(jī)器人說,給我洗衣服。
機(jī)器人理解你的意圖,然后識別房間內(nèi)影像,聚焦到臟衣籃這個物體,移動到臟衣籃,然后聚焦到臟衣服這個物體,把臟衣服用機(jī)械手拿起來。
然后再聚焦到洗衣機(jī)這個物體,把衣服放進(jìn)去。邏輯判斷洗衣機(jī)如何操作,給你完成洗衣甩干烘干,最后拿出衣服,聚焦到你的衣柜,把衣服放進(jìn)衣柜整理好。
整個過程的識別都需要VQA技術(shù)基礎(chǔ),這是VQA技術(shù)未來的應(yīng)用。
這個技術(shù)成熟以后,就會有真正的AI時代,人類大量厭惡性工作可以讓AI替代,人類聚焦精力于創(chuàng)造。這才是AI應(yīng)該給我們的未來。
當(dāng)然,這個過程是漸進(jìn)的,阿里超越人類的AI技術(shù)會先從細(xì)微專用領(lǐng)域開始,慢慢替代。而阿里一方面會在這種替代中獲得豐厚的經(jīng)濟(jì)回報,一方面也會不斷迭代技術(shù),提升水平,引領(lǐng)AI科技。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...