本文來自于微信公眾號 機器之心(ID:almosthuman2014),作者:機器之心。
在人工智能領(lǐng)域,很少有像 Yann LeCun 這樣的學者,在65歲的年齡還能高度活躍于社交媒體。
一直以來,Yann LeCun 都是以「直言不諱的批評者」形象活躍于人工智能領(lǐng)域。他始終支持開源,并帶領(lǐng) Meta 的團隊推出了占據(jù)如今開源大模型領(lǐng)域半壁江山的 Llama2;他對很多人深感恐慌的人工智能末日論不以為然,堅信 AGI 的到來一定是件好事……
近日,LeCun 又一次來到 Lex Fridman 的播客,展開了一場接近三個小時的對談,內(nèi)容涉及開源的重要性、LLM 的局限性、為什么人工智能末日論者是錯誤的,以及通向 AGI 的道路等話題。
我們從這場播客內(nèi)容中精選了一些有參考價值的觀點,以下是相關(guān)內(nèi)容:
LLM 的局限性
Lex Fridman:你說過,自回歸 LLM 并不是我們在超人類智能方面取得進展的方式。為什么它們不能帶我們一路走下去?
Yann LeCun:出于多種原因。首先,智能行為有許多特征。例如,理解世界的能力、理解物理世界的能力、記憶和檢索事物的能力、持久性記憶、推理能力和計劃能力。這是智能系統(tǒng)或?qū)嶓w、人類、動物的四個基本特征。LLM 無法做到這些,或者只能以非常原始的方式做到這些,而且并不真正了解物理世界。LLM 并沒有真正的持久記憶,無法真正推理,當然也無法計劃。因此,如果你期望系統(tǒng)變得智能,但卻無法做這些事情,那么你就犯了一個錯誤。這并不是說自回歸 LLM 沒有用。它們當然有用,但它們并不有趣,我們無法圍繞它們構(gòu)建整個應(yīng)用程序生態(tài)系統(tǒng)。但作為邁向人類水平智能的通行證,它們?nèi)鄙俦匾慕M成部分。
通過感官輸入,我們看到的信息比通過語言看到的信息多得多,盡管我們有直覺,但我們學到的大部分內(nèi)容和知識都是通過我們的觀察和與現(xiàn)實世界的互動,而不是通過通過語言。我們在生命最初幾年學到的一切,當然還有動物學到的一切,都與語言無關(guān)。
Lex Fridman:也就是你所說的,LLM 缺乏對物理世界的理解?所以,直覺物理學、關(guān)于物理空間、關(guān)于物理現(xiàn)實的常識推理對你來說沒有什么特別之處。這是 LLM 無法做到的巨大飛躍?
Yann LeCun:我們今天使用的 LLM 無法做到這一點,原因有很多,但最主要的原因是 LLM 的訓練方式是:你獲取一段文本,刪除文本中的一些單詞,屏蔽它們,用空白 token 代替它們,然后訓練一個遺傳神經(jīng)網(wǎng)絡(luò)來預測缺失的單詞。如果你以一種特殊的方式構(gòu)建這個神經(jīng)網(wǎng)絡(luò),讓它只能查看左側(cè)的單詞或它試圖預測的單詞,那么你所擁有的系統(tǒng)基本上就是試圖預測文本中的下一個單詞。因此,你可以給它輸入一段文字、一個提示,然后讓它預測下一個單詞。它永遠無法準確預測下一個單詞。
因此,它要做的就是生成字典中所有可能單詞的概率分布。事實上,它并不預測單詞。它預測的是作為子單詞單位的詞塊,因此很容易處理預測中的不確定性,因為字典中可能出現(xiàn)的單詞數(shù)量有限,你只需計算它們的分布即可。然后,系統(tǒng)就會從該分布中選出一個詞。當然,在該分布中,選取概率較高的詞的幾率會更高。因此,你從該分布中采樣,實際產(chǎn)生一個單詞,然后將該單詞移入輸入中,這樣系統(tǒng)就不會預測第二個單詞了。
這就是所謂的自回歸預測,這也是為什么這些 LLM 應(yīng)該被稱為「自回歸 LLMs」,但我們只是稱其為 LLM。這種過程與在產(chǎn)生一個單詞之前的過程是有區(qū)別的。
當你我交談時,你我都是雙語者,我們會思考我們要說什么,而這與我們要說的語言相對獨立。當我們談?wù)撘粋數(shù)學概念時,我們所做的思考和我們打算給出的答案與我們是用法語、俄語還是英語來表達無關(guān)。
Lex Fridman:喬姆斯基翻了個白眼,但我明白,所以你是說有一個更大的抽象存在于語言之前并映射到語言?
Yann LeCun:對于我們所做的很多思考來說,是的。
Lex Fridman:你的幽默是抽象的嗎?當你發(fā)推文時,你的推文有時有點辛辣,在推文映射到英語之前,你的大腦中是否有一個抽象的表示?
Yann LeCun:確實有一個抽象的表示來想象讀者對該文本的反應(yīng)。但是,想一個數(shù)學概念,或者想象一下你想用木頭做一個什么東西,或者諸如此類的東西,這種思考與語言完全無關(guān)。你并不是在用某種特定的語言進行內(nèi)心獨白。你是在想象事物的心理模型。我的意思是,如果我讓你想象一下,如果我把這個水瓶旋轉(zhuǎn)90度,它會是什么樣子,這與語言毫無關(guān)系。很顯然,我們的大部分思考都是在更抽象的表征層面上進行的,如果輸出的是語言,我們會計劃好要說的話,而不是輸出肌肉動作,我們會在做出答案之前就計劃好答案。
LLM 不會這樣做,只是本能地說出一個又一個單詞。這有點像下意識的動作,有人來問你一個問題,你就會回答這個問題。沒有時間思考答案,但答案很簡單。所以你不需要注意,會自動做出反應(yīng)。這就是 LLM 的工作。它真的不會思考答案。因為它已經(jīng)積累了很多知識,所以能檢索到一些東西,但也只會吐出一個又一個 token,而不會計劃答案。
Lex Fridman:一個 token 一個 token 地生成必然是簡單化的,但如果世界模型足夠復雜,它最有可能生成的是一連串的 token,這將是一件深奧的事情。
Yann LeCun:但這基于一個假設(shè):這些系統(tǒng)實際上擁有一個永恒的世界模型。
視頻預測
Lex Fridman:所以真正的問題是…… 能否建立一個對世界有深刻理解的模型?
Yann LeCun:能否通過預測來構(gòu)建它,答案很可能是肯定的。但能通過預測單詞來構(gòu)建它嗎?答案很可能是否定的,因為語言在弱帶寬或低帶寬方面非常貧乏,沒有足夠的信息。因此,建立世界模型意味著要觀察世界,了解世界為什么會以這樣的方式演變,然后世界模型的額外組成部分就是能夠預測你可能采取的行動會導致世界如何演變。
因此,一個真正的模型是:這是我對 T 時世界狀態(tài)的想法,這是我可能采取的行動。在 T+1時間,預測的世界狀態(tài)是什么?現(xiàn)在,世界的狀態(tài)并不需要代表世界的一切,它只需要代表與這次行動規(guī)劃相關(guān)的足夠多的信息,但不一定是所有的細節(jié)。
現(xiàn)在,問題來了。生成模型無法做到這一點。因此,生成模型需要在視頻上進行訓練,我們已經(jīng)嘗試了10年,你拍攝一段視頻,向系統(tǒng)展示一段視頻,然后要求你預測視頻的提醒,基本上就是預測將要發(fā)生什么。
如果你愿意,可以制作大型視頻模型。這樣做的想法由來已久,在 FAIR,我和我們的一些同事嘗試這樣做已有10年之久,但你無法真正做到與 LLM 相同的技巧,因為 LLM,正如我所說,你無法準確預測哪一個單詞會跟隨一連串單詞,但你可以預測單詞的分布。現(xiàn)在,如果你去看視頻,你要做的就是預測視頻中所有可能幀的分布,而我們并不知道如何正確地做到這一點。
我們不知道如何以有用的方式來表示高維連續(xù)空間上的分布。這就是主要問題所在,我們之所以能做到這一點,是因為這個世界比文字復雜得多,信息豐富得多。文本是離散的,而視頻是高維的、連續(xù)的。這里面有很多細節(jié)。因此,如果我拍攝了這個房間的視頻,視頻中的攝像機在四處轉(zhuǎn)動,我根本無法預測在我四處轉(zhuǎn)動時房間里會出現(xiàn)的所有東西。系統(tǒng)也無法預測攝像機轉(zhuǎn)動時房間里會出現(xiàn)什么。也許它能預測到這是一個房間,里面有一盞燈,有一面墻,諸如此類的東西。它無法預測墻壁上的畫是什么樣子,也無法預測沙發(fā)的紋理是什么樣子。當然也無法預測地毯的質(zhì)地。所以我無法預測所有這些細節(jié)。
因此,一種可能的處理方法,也是我們一直在研究的方法,就是建立一個擁有所謂潛在變量的模型。潛在變量被輸入到神經(jīng)網(wǎng)絡(luò)中,它應(yīng)該代表所有你還沒有感知到的關(guān)于這個世界的信息,你需要增強系統(tǒng)的預測能力,才能很好地預測像素,包括地毯、沙發(fā)和墻上畫作的細微紋理。
我們試過直接的神經(jīng)網(wǎng)絡(luò),試過 GAN,試過 VAE,試過各種正則化自動編碼器。我們還嘗試用這些方法來學習圖像或視頻的良好表征,然后將其作為圖像分類系統(tǒng)等的輸入�;旧隙际×�。
所有試圖從損壞版本的圖像或視頻中預測缺失部分的系統(tǒng),基本上都是這樣的:獲取圖像或視頻,將其損壞或以某種方式進行轉(zhuǎn)換,然后嘗試從損壞版本中重建完整的視頻或圖像,然后希望系統(tǒng)內(nèi)部能夠開發(fā)出良好的圖像表征,以便用于物體識別、分割等任何用途。這種方法基本上是完全失敗的,而它在文本方面卻非常有效。這就是用于 LLM 的原理。
Lex Fridman:失敗究竟出在哪里?是很難很好地呈現(xiàn)圖像,比如將所有重要信息很好地嵌入圖像?是圖像與圖像、圖像與圖像之間的一致性形成了視頻?如果我們把你所有失敗的方式做一個集錦,那會是什么樣子?
Yann LeCun:首先,我必須告訴你什么是行不通的,因為還有其他東西是行得通的。所以,行不通的地方就是訓練系統(tǒng)學習圖像的表征,訓練它從損壞的圖像中重建出好的圖像。
對此,我們有一整套技術(shù),它們都是去噪自編碼器的變體,我在 FAIR 的一些同事開發(fā)了一種叫做 MAE 的東西,即掩蔽自編碼器。因此,它基本上就像 LLM 或類似的東西,你通過破壞文本來訓練系統(tǒng),但你破壞圖像,從中刪除補丁,然后訓練一個巨大的神經(jīng)網(wǎng)絡(luò)重建。你得到的特征并不好,而且你也知道它們不好,因為如果你現(xiàn)在訓練同樣的架構(gòu),但你用標簽數(shù)據(jù)、圖像的文字描述等對它進行監(jiān)督訓練,你確實能得到很好的表征,在識別任務(wù)上的表現(xiàn)比你做這種自監(jiān)督的再訓練要好得多。
結(jié)構(gòu)是好的,編碼器的結(jié)構(gòu)也是好的,但事實上,你訓練系統(tǒng)重建圖像,并不能使它產(chǎn)生長而良好的圖像通用特征。那還有什么選擇呢?另一種方法是聯(lián)合嵌入。
JEPA(聯(lián)合嵌入預測架構(gòu))
Lex Fridman::聯(lián)合嵌入架構(gòu)與 LLM 之間的根本區(qū)別是什么?JEPA 能帶我們進入 AGI 嗎?
Yann LeCun:首先,它與 LLM 等生成式架構(gòu)有什么區(qū)別?LLM 或通過重構(gòu)訓練的視覺系統(tǒng)會生成輸入。它們生成的原始輸入是未損壞、未轉(zhuǎn)換的,因此你必須預測所有像素,而系統(tǒng)需要花費大量資源來實際預測所有像素和所有細節(jié)。而在 JEPA 中,你不需要預測所有像素,你只需要預測輸入的抽象表示。這在很多方面都要容易得多。因此,JEPA 系統(tǒng)在訓練時,要做的就是從輸入中提取盡可能多的信息,但只提取相對容易預測的信息。因此,世界上有很多事情是我們無法預測的。例如,如果你有一輛自動駕駛汽車在街上或馬路上行駛,道路周圍可能有樹,而且今天可能是大風天。因此,樹上的葉子會以一種你無法預測的半混亂、隨機的方式移動,而你并不關(guān)心,也不想預測。因此,你希望編碼器基本上能消除所有這些細節(jié)。它會告訴你樹葉在動,但不會告訴你具體發(fā)生了什么。因此,當你在表示空間中進行預測時,你不必預測每片樹葉的每個像素。這樣不僅簡單得多,而且還能讓系統(tǒng)從本質(zhì)上學習到世界的抽象表征,其中可以建模和預測的內(nèi)容被保留下來,其余的則被編碼器視為噪音并消除掉。
因此,它提升了表征的抽象程度。仔細想想,這絕對是我們一直在做的事情。每當我們描述一種現(xiàn)象時,我們都會在特定的抽象層次上進行描述。我們并不總是用量子場論來描述每一種自然現(xiàn)象。那是不可能的。因此,我們有多個抽象層次來描述世界上發(fā)生的事情,從量子場論到原子理論、分子、化學、材料,一直到現(xiàn)實世界中的具體物體等等。因此,我們不能只在最底層模擬一切。而這正是 JEPA 的理念所在,以自我監(jiān)督的方式學習抽象表征,而且還可以分層學習。因此,我認為這是智能系統(tǒng)的重要組成部分。而在語言方面,我們可以不用這樣做,因為語言在某種程度上已經(jīng)是抽象的,已經(jīng)消除了很多不可預測的信息。因此,我們可以不做聯(lián)合嵌入,不提升抽象程度,直接預測單詞。
Lex Fridman:你是說語言,我們懶得用語言,因為我們已經(jīng)免費得到了抽象的表述,而現(xiàn)在我們必須放大,真正思考一般的智能系統(tǒng)。我們必須處理一塌糊涂的物理現(xiàn)實和現(xiàn)實。而你確實必須這樣做,從完整、豐富、詳盡的現(xiàn)實跳轉(zhuǎn)到基于你所能推理的現(xiàn)實的抽象表征,以及所有諸如此類的東西。
Yann LeCun:沒錯。那些通過預測來學習的自監(jiān)督算法,即使是在表征空間中,如果輸入數(shù)據(jù)的冗余度越高,它們學習到的概念也就越多。數(shù)據(jù)的冗余度越高,它們就越能捕捉到數(shù)據(jù)的內(nèi)部結(jié)構(gòu)。因此,在知覺輸入、視覺等感官輸入中,冗余結(jié)構(gòu)要比文本中的冗余結(jié)構(gòu)多得多。語言可能真的代表了更多的信息,因為它已經(jīng)被壓縮了。你說得沒錯,但這也意味著它的冗余度更低,因此自監(jiān)督的效果就不會那么好。
Lex Fridman:有沒有可能將視覺數(shù)據(jù)的自監(jiān)督訓練與語言數(shù)據(jù)的自監(jiān)督訓練結(jié)合起來?盡管你說的是10到13個 token,但其中蘊含著大量的知識。這10到13個 token 代表了我們?nèi)祟愐呀?jīng)弄明白的全部內(nèi)容,包括 Reddit 上的廢話、所有書籍和文章的內(nèi)容以及人類智力創(chuàng)造的全部內(nèi)容。
Yann LeCun:嗯,最終是的。但我認為,如果我們太早這樣做,就有可能被誘導作弊。而事實上,這正是目前人們在視覺語言模型上所做的。我們基本上是在作弊,在用語言作為拐杖,幫助我們視覺系統(tǒng)的缺陷從圖像和視頻中學習良好的表征。
這樣做的問題是,我們可以通過向語言模型提供圖像來改進它們,但我們甚至無法達到貓或狗的智力水平或?qū)κ澜绲睦斫馑�,因為它們沒有語言。它們沒有語言,但對世界的理解卻比任何 LLM 都要好得多。它們可以計劃非常復雜的行動,并想象一系列行動的結(jié)果。在將其與語言結(jié)合之前,我們?nèi)绾巫寵C器學會這些?顯然,如果我們將其與語言相結(jié)合,會取得成果,但在此之前,我們必須專注于如何讓系統(tǒng)學習世界是如何運作的。
事實上,我們使用的技術(shù)是非對比性的。因此,不僅架構(gòu)是非生成的,我們使用的學習程序也是非對比的。我們有兩套技術(shù)。一套是基于蒸餾法,有很多方法都采用了這一原理,DeepMind 有一種叫 BYOL,F(xiàn)AIR 有幾種,一種叫 vcREG,還有一種叫 I-JEPA。應(yīng)該說,vcREG 并不是一種蒸餾方法,但 I-JEPA 和 BYOL 肯定是。還有一種也叫 DINO 或 DINO,也是從 FAIR 生產(chǎn)出來的。這些方法的原理是,你將完整的輸入,比如說一張圖片,通過編碼器運行,產(chǎn)生一個表示,然后你對輸入進行破壞或轉(zhuǎn)換,通過本質(zhì)上等同于相同的編碼器運行,但有一些細微差別,然后訓練一個預測器。
有時預測器非常簡單,有時預測器并不存在,但要訓練一個預測器來預測第一個未損壞輸入與已損壞輸入之間的關(guān)系。但你只訓練第二個分支。你只訓練網(wǎng)絡(luò)中輸入損壞輸入的部分。另一個網(wǎng)絡(luò)則不需要訓練。但由于它們共享相同的權(quán)重,當你修改第一個網(wǎng)絡(luò)時,它也會修改第二個網(wǎng)絡(luò)。通過各種技巧,你可以防止系統(tǒng)崩潰,就像我之前解釋的那種崩潰,系統(tǒng)基本上會忽略輸入。因此,這種方法非常有效。我們在 FAIR 開發(fā)的兩種技術(shù),DINO 和 I-JEPA 在這方面都非常有效。
我們的最新版本稱為 V-JEPA。它與 I-JEPA 的理念基本相同,只是將其應(yīng)用于視頻。因此,你可以獲取整個視頻,然后屏蔽其中的一大塊內(nèi)容。我們所屏蔽的實際上是一個時間管,所以是整個視頻中每一幀的整個片段。
這是我們所擁有的第一個能學習到良好視頻表征的系統(tǒng),因此當你將這些表征輸入到一個有監(jiān)督的分類器頭部時,它能以相當高的準確率告訴你視頻中發(fā)生了什么動作。因此,這是我們第一次獲得這種質(zhì)量的東西。
結(jié)果似乎表明,我們的系統(tǒng)可以通過表征來判斷視頻在物理上是可能的,還是完全不可能的,因為某些物體消失了,或者某個物體突然從一個位置跳到另一個位置,或者改變了形狀什么的。
Lex Fridman:這能讓我們建立一種足夠了解世界并能夠駕駛汽車的世界模型嗎?
Yann LeCun:可能還需要一段時間才能達到這個目標�,F(xiàn)在已經(jīng)有一些機器人系統(tǒng),就是基于這個想法。你需要的是一個稍加改動的版本,想象你有一段完整的視頻,而你對這段視頻所做的,就是把它在時間上轉(zhuǎn)換到未來。因此,你只能看到視頻的開頭,而看不到原始視頻中的后半部分,或者只屏蔽視頻的后半部分。然后你就可以訓練一個 JEPA 系統(tǒng)或我描述的那種系統(tǒng),來預測被遮擋視頻的完整表現(xiàn)形式。不過,你也要給預測器提供一個動作。例如,車輪向右轉(zhuǎn)動10度或其他動作,對嗎?
因此,如果這是一個汽車攝像頭,而你又知道方向盤的角度,那么在某種程度上,你應(yīng)該能夠預測你所看到的畫面會發(fā)生什么變化。顯然,你無法預測視圖中出現(xiàn)的物體的所有細節(jié),但在抽象表示層面,你或許可以預測將要發(fā)生的事情。所以,現(xiàn)在你有了一個內(nèi)部模型,它說:"這是我對 T 時刻世界狀態(tài)的想法,這是我正在采取的行動。這里是對 T 加1、T 加 delta T、T 加2秒時世界狀態(tài)的預測," 不管它是什么。如果你有這樣一個模型,你就可以用它來進行規(guī)劃。因此,現(xiàn)在你可以做 LMS 做不到的事情,即規(guī)劃你要做的事情。因此,當你到達一個特定的結(jié)果或滿足一個特定的目標時。
因此,你可以有很多目標。我可以預測,如果我有一個這樣的物體,我張開手,它就會掉下來。如果我用一種特定的力量把它推到桌子上,它就會移動。如果我用同樣的力推桌子,它可能不會移動。因此,我們腦海中就有了這個世界的內(nèi)部模型,它能讓我們計劃一系列的行動,以達到特定的目標�,F(xiàn)在,如果你有了這個世界模型,我們就可以想象一連串的動作,預測這一連串動作的結(jié)果,衡量最終狀態(tài)在多大程度上滿足了某個特定目標,比如把瓶子移到桌子左邊,然后在運行時規(guī)劃一連串動作,使這個目標最小化。
我們說的不是學習,而是推理時間,所以這就是規(guī)劃,真的。在最優(yōu)控制中,這是一個非常經(jīng)典的東西。它被稱為模型預測控制。你有一個想要控制的系統(tǒng)模型,它能預測與一系列指令相對應(yīng)的狀態(tài)序列。而你正在規(guī)劃一連串的指令,以便根據(jù)你的角色模型,系統(tǒng)的最終狀態(tài)將滿足你設(shè)定的目標。自從有了計算機,也就是60年代初開始,火箭軌跡的規(guī)劃就一直采用這種方式。
強化學習
Lex Fridman:建議放棄生成模型而轉(zhuǎn)而采用聯(lián)合嵌入架構(gòu)?你已經(jīng)有一段時間是強化學習的批評者了。這感覺就像法庭證詞,放棄概率模型,轉(zhuǎn)而支持我們談到的基于能量的模型,放棄對比方法,轉(zhuǎn)而支持正則化方法。
Yann LeCun:我認為它不應(yīng)該被完全放棄,但我認為它的使用應(yīng)該最小化,因為它在采樣方面效率非常低。因此,訓練系統(tǒng)的正確方法是首先讓它從主要觀察(也許還有一點交互)中學習世界和世界模型的良好表示。
Lex Fridman:RLHF 為什么效果這么好?
Yann LeCun:具有轉(zhuǎn)化效果的是人類反饋,有很多方法可以使用它,其中一些只是純粹的監(jiān)督,實際上,它并不是真正的強化學習。
開源
Yann LeCun:擁有人工智能行業(yè)、擁有不存在獨特偏見的人工智能系統(tǒng)的唯一方法就是擁有開源平臺,任何團體都可以在該平臺上構(gòu)建專門的系統(tǒng)。歷史的必然方向就是,絕大多數(shù)的 AI 系統(tǒng)都會建立在開源平臺之上。
Meta 圍繞的商業(yè)模式是,你提供一種服務(wù),而這種服務(wù)的資金來源要么是廣告,要么是商業(yè)客戶。
舉例來說,如果你有一個 LLM,它可以通過 WhatsApp 與顧客對話,幫助一家披薩店,顧客只需點一份披薩,系統(tǒng)就會問他們:「你想要什么配料或什么尺寸,等等」。商家會為此付費,這就是一種模式。
否則,如果是比較經(jīng)典的服務(wù)系統(tǒng),它可以由廣告支持,或者有幾種模式。但問題是,如果你有足夠大的潛在客戶群,而且無論如何你都需要為他們構(gòu)建該系統(tǒng),那么將其發(fā)布到開放源代碼中也無傷大雅。
Lex Fridman:Meta 所打的賭是:我們會做得更好嗎?
Yann LeCun:不。賭注更大,我們已經(jīng)擁有龐大的用戶群和客戶群。
我們提供開源的系統(tǒng)或基本模型、基礎(chǔ)模型,供他人在此基礎(chǔ)上構(gòu)建應(yīng)用程序,這也無傷大雅。如果這些應(yīng)用對我們的客戶有用,我們可以直接向他們購買。他們可能會改進平臺。事實上,我們已經(jīng)看到了這一點。LLaMA2的下載量已達數(shù)百萬次,成千上萬的人提出了如何改進平臺的想法。因此,這顯然加快了向廣大用戶提供該系統(tǒng)的進程,而且數(shù)以千計的企業(yè)正在使用該系統(tǒng)構(gòu)建應(yīng)用程序。因此,Meta 從這項技術(shù)中獲取收入的能力并沒有因為基礎(chǔ)模型的開源分布而受到影響。
Llama3
Lex Fridman:關(guān)于 LLaMA3,你最興奮的是什么?
Yann LeCun:會有各種版本的 LLaMA,它們是對以前的 LLaMA 的改進,更大、更好、多模態(tài),諸如此類。然后,在未來的幾代中,有能夠真正了解世界如何運作的規(guī)劃系統(tǒng),可能是通過視頻進行訓練的,因此它們會有一些世界模型,可能能夠進行我之前談到的推理和規(guī)劃類型。
這需要多長時間?朝這個方向進行的研究什么時候會進入產(chǎn)品線?我不知道,也不能告訴你。在我們實現(xiàn)這一目標之前,我們基本上必須經(jīng)歷一些突破,但大家能夠監(jiān)控我們的進展,因為我們公開發(fā)布了自己的研究。因此,上周我們發(fā)布了 V-JEPA 工作,這是邁向視頻訓練系統(tǒng)的第一步。
下一步將是基于這種視頻創(chuàng)意訓練的世界模型。DeepMind 也有類似的工作,加州大學伯克利分校也有關(guān)于世界模型和視頻的工作。很多人都在做這方面的工作。我認為很多好的想法正在出現(xiàn)。我敢打賭,這些系統(tǒng)將是 JEPA 輕型系統(tǒng),它們不會是生成模型,我們將看看未來會發(fā)生什么。
30多年前,我們正在研究組合網(wǎng)絡(luò)和早期的神經(jīng)網(wǎng)絡(luò),我看到了一條通往人類水平智能的道路,系統(tǒng)可以理解世界、記憶、計劃、推理。有一些想法可以取得進展,可能有機會發(fā)揮作用,我對此感到非常興奮。
我喜歡的是,我們在某種程度上朝著一個好的方向前進,也許在我的大腦變成白沙司或在需要退休之前取得成功。
Lex Fridman:你的大部分興奮點還是在理論方面,也就是軟件方面?
Yann LeCun:很多年前我曾經(jīng)是一名硬件人員。規(guī)模是必要的,但還不夠。有可能我未來還能活十年,但我還是要跑一小段距離。當然,對于能源的效率,我們?nèi)〉玫倪M步越遠,我們在努力工作方面取得的進步就越多。我們必須降低功耗。如今,一個 GPU 的功耗在半千瓦到一千瓦之間。人腦的功率約為25瓦,而 GPU 的功率遠遠低于人腦。你需要10萬或100萬的功率才能與之媲美,所以我們的差距非常大。
AGI
Lex Fridman:你經(jīng)常說 GI 不會很快到來,背后的基本直覺是什么?
Yann LeCun:那種被科幻小說和好萊塢廣為流傳的想法,即某個人會發(fā)現(xiàn) AGI 或人類級 AI 或 AMI(不管你怎么稱呼它)的秘密,然后打開機器,我們就擁有了 AGI,是不可能發(fā)生的。
這將是一個循序漸進的過程。我們是否會有系統(tǒng)能從視頻中了解世界是如何運作的,并學習良好的表征?達到我們在人類身上觀察到的規(guī)模和性能之前,還需要相當長的一段時間,不是一天兩天的事。
我們會讓系統(tǒng)擁有大量關(guān)聯(lián)記憶,從而記住東西嗎?是的,但這也不是明天就能實現(xiàn)的。我們需要開發(fā)一些基本技術(shù)。我們有很多這樣的技術(shù),但要讓它們與完整的系統(tǒng)協(xié)同工作,那就是另一回事了。
我們是否將擁有能夠推理和規(guī)劃的系統(tǒng),或許就像我之前描述的目標驅(qū)動型人工智能架構(gòu)那樣?是的,但要讓它正常工作,還需要一段時間。在我們讓所有這些東西協(xié)同工作之前,在讓系統(tǒng)基于此實現(xiàn)學習分層規(guī)劃、分層表示,能夠像人腦那樣針對手頭的各種不同情況進行配置之前,至少需要十年時間甚至更長,因為有很多問題我們現(xiàn)在還沒有看到,我們還沒有遇到,所以我們不知道在這個框架內(nèi)是否有簡單的解決方案。
在過去的十幾年,我一直聽到有人聲稱 AGI 指日可待,但他們都錯了。
智商可以衡量人類的一些東西,但因為人類的形式相對統(tǒng)一。但是,它只能衡量一種能力,而這種能力可能與某些任務(wù)相關(guān),但與其他任務(wù)無關(guān)。但如果你說的是其他智能實體,對它們來說很容易做到的基本事情卻截然不同,那么它就沒有任何意義了。因此,智能是一種技能的集合,也是一種高效獲取新技能的能力。一個特定的智能實體所擁有或能夠快速學習的技能集合與另一個智能實體的技能集合是不同的。因為這是一個多維度的東西,技能集合是一個高維空間,你無法測量,也無法比較兩個東西是否一個比另一個更聰明。它是多維的。
Lex Fridman:你經(jīng)常反對所謂的人工智能末日論者,解釋一下他們的觀點以及你認為他們錯誤的原因。
Yann LeCun:人工智能末日論者想象了各種災難場景,人工智能如何逃脫或控制并基本上殺死我們所有人,這依賴于一大堆假設(shè),而這些假設(shè)大多是錯誤的。
第一個假設(shè)是,超級智能的出現(xiàn)將是一個事件,在某個時刻,我們會發(fā)現(xiàn)其中的秘密,我們會打開一臺超級智能的機器,因為我們以前從未這樣做過,所以它會占領(lǐng)世界,殺死我們所有人。這是錯誤的。這不會是一個事件。
我們將擁有像貓一樣聰明的系統(tǒng),它們具有人類智能的所有特征,但它們的智能水平可能像貓或鸚鵡之類。然后,我們再逐步提高它們的智能水平。在讓它們變得更聰明的同時,我們也要在它們身上設(shè)置一些防護欄,并學習如何設(shè)置防護欄,讓它們表現(xiàn)得更加正常。
在自然界中,似乎更聰明的物種最終會統(tǒng)治另一個物種,甚至有時是有意為之,有時只是因為錯誤而區(qū)分其他物種。
所以你會想:「好吧,如果人工智能系統(tǒng)比我們更聰明,肯定會消滅我們,如果不是故意的,只是因為他們不關(guān)心我們,」這是荒謬的 —— 第一個原因是它們不會成為與我們競爭的物種,不會有主宰的欲望,因為主宰的欲望必須是智能系統(tǒng)中固有的東西。它在人類身上是根深蒂固的,狒狒、黑猩猩、狼都有這種欲望,但在猩猩身上卻沒有。這種支配、服從或以其他方式獲得地位的欲望是社會性物種所特有的。像猩猩這樣的非社會性物種就沒有這種欲望,而且它們和我們一樣聰明。
人形機器人
Lex Fridman:你認為很快就會有數(shù)以百萬計的人形機器人四處走動嗎?
Yann LeCun:不會很快,但一定會發(fā)生。
未來十年,我認為機器人行業(yè)將非常有趣,機器人行業(yè)的興起已經(jīng)等待了10年、20年,除了預編程行為和諸如此類的東西外,并沒有真正出現(xiàn)。主要問題還是莫拉維克悖論,我們?nèi)绾巫屵@些系統(tǒng)理解世界是如何運作的,并計劃行動?這樣,我們才能完成真正專業(yè)的任務(wù)。波士頓動力的做法基本上是通過大量手工制作的動態(tài)模型和事先的精心策劃,這是非常經(jīng)典的機器人技術(shù),其中包含大量創(chuàng)新和一點點感知,但這仍然不夠,他們無法制造出家用機器人。
此外,我們離完全自主的 L5駕駛還有一定距離,比如一個可以像17歲孩子一樣通過20小時的駕駛來訓練自己的系統(tǒng)。
因此,在擁有世界模型、能夠自訓練以了解世界如何運作的系統(tǒng)之前,我們不會在機器人技術(shù)方面取得重大進展。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...