什么是通用智能?
通用智能的核心定義是,一個智能體在不對環(huán)境做任何假設(shè)的情況下,具備依靠推理解決問題的能力。
舉個例子,人是典型的具有通用智能的生物。人類能夠在不對復(fù)雜的生活環(huán)境做出預(yù)設(shè)的情況下,通過自己的智能進(jìn)行廣泛推理,解決各種需要處理的問題。例如,當(dāng)我們出門時,無法預(yù)設(shè)是否會遇到地震、海嘯,或者前方是否會有車禍等突發(fā)事件。人類正是在這樣不確定的環(huán)境中,依靠通用智能進(jìn)行判斷和決策。即使這些事件發(fā)生了,我們也能根據(jù)情況進(jìn)行推理,以達(dá)到預(yù)期的目標(biāo)。
因此,就本質(zhì)而言,通用智能可以被視作環(huán)境的映射,是環(huán)境的產(chǎn)物。有怎樣的環(huán)境就會產(chǎn)生怎樣的通用智能,無法憑空變出新的事物。相對于人類所處的自然環(huán)境,通用智能依托的環(huán)境是數(shù)據(jù),它也涉及反饋和壓縮的過程,類似于自然環(huán)境的進(jìn)化,只是變成了計算過程。
同時,需要特別強調(diào),這里的推理指 reasoning,而不僅僅是簡單的推斷結(jié)果(inference)。推斷是從已有的證據(jù)或前提中得出結(jié)論的過程,可以視為推理的結(jié)果或產(chǎn)物。相較于推斷,推理更強調(diào)思考的過程和邏輯步驟,進(jìn)而找到解決問題的方法。
通用智能的前提:不對環(huán)境做任何假設(shè)
通用智能不應(yīng)依托先驗假設(shè),而應(yīng)當(dāng)隨著環(huán)境的變化而變化。關(guān)注技術(shù)細(xì)節(jié)的創(chuàng)業(yè)者或研究者可能會注意到理解模型和生成模型之間的差異。然而,理解模型作為一個單獨的概念在某種程度上可能會帶來誤導(dǎo)。
當(dāng)下,大家在談?wù)摾斫饽P蜁r,主要關(guān)注它是否具備辨別能力,能否進(jìn)行分類和分割。這是由于人類自己會關(guān)心這些問題,但人類的先驗知識恰恰是*的問題,即使它也帶來了機會。
舉個例子,如果我們在 500 年前構(gòu)建大語言模型,它一定會說地球是平的,太陽圍繞地球旋轉(zhuǎn)。而 500 年后構(gòu)建大模型的人,則會嘲笑今天人類的愚蠢。因為人腦只有 15 瓦的功耗,思考能力非常有限,只能處理非常局部的問題。
從這個角度,人類是否能理解這些模型一點也不重要,我們真正應(yīng)該關(guān)注的是模型的壓縮能力。壓縮得好不好決定了下游任務(wù)能否做好。更重要的是,模型能否在沒有先驗假設(shè)的情況下,根據(jù)環(huán)境變化進(jìn)行調(diào)整和優(yōu)化。
如果我們想象一個很大的符號空間,存在各種各樣的符號序列,人類能理解的符號實際上只是空間中的一個很小的部分,通常是局部*。如果我們追求能讓人類理解的模型,那么勢必會放棄許多全局*、更好的解決方案。
通用智能的內(nèi)核:推理
正如人的本質(zhì)在于不斷地感知、理解環(huán)境,并進(jìn)行推理,通用智能的本質(zhì)也是推理。而推理的核心是,針對任何任務(wù),都能夠找到一條完成任務(wù)的路徑。
推理水平的高低取決于智能的程度,這通常反映在推理路徑的長短上。面對同樣的問題,聰明的人可能只需要兩步就能解決,普通人則需要更多的步驟。
更具體的,推理路徑效率是反映推理質(zhì)量的重要指標(biāo),包括時間和功耗兩個方面。針對同樣的問題,既要看解題的路徑,又要看花費的時間和功耗。舉個例子,今天的 OpenAI 某種程度上是大人欺負(fù)小孩。回答同樣的問題,GPT-4 確實顯得更聰明,但它花了很多時間,消耗了大量算力。真正好的比較方式應(yīng)該是框定一定標(biāo)準(zhǔn)。如同拳擊比賽,選手按重量級分別比拼,通常不會要求一個 200 磅的人和一個 60 磅的人進(jìn)行對抗。
因此,綜合來看,真正意義上的聰明或智能是在相同的時間和功耗下,能夠找到一條更好的、更短的推理路徑。
通用智能是數(shù)據(jù)的產(chǎn)物
那么,要找到更好的推理路徑,關(guān)鍵是什么呢?答案是數(shù)據(jù)。
鑒于通用智能所依托的環(huán)境是數(shù)據(jù),它也可被視為數(shù)據(jù)的產(chǎn)物。我們需要重點關(guān)注兩類數(shù)據(jù):任務(wù)路徑數(shù)據(jù)和思考路徑數(shù)據(jù)。任務(wù)路徑數(shù)據(jù)來自對環(huán)境的觀察和實驗;思考路徑數(shù)據(jù)則涉及邏輯、思考體系和思考框架。
例如,給定做蛋炒飯的任務(wù),做這道菜的具體步驟和順序就是任務(wù)路徑數(shù)據(jù),如打雞蛋、放油、放鹽等。這些數(shù)據(jù)需要做實驗,變不出戲法。但在做蛋炒飯前,還需了解吃飯的人數(shù),該做什么口味,這些是有關(guān)任務(wù)整體規(guī)劃和決策的思考過程。也就是,為了完成這個任務(wù)該如何思考,屬于思考路徑數(shù)據(jù)。
OpenAI 的 Strawberry (或者 Q-star)項目所做的一件重要的事就是放大思考路徑數(shù)據(jù)。如果我們能獲取的路徑數(shù)據(jù)越多,搜索的范圍越廣,就越可能找到更好的解決任務(wù)的途徑。當(dāng)下大多數(shù)人關(guān)注的合成數(shù)據(jù),其主要的目的之一就是合成思考路徑數(shù)據(jù),而任務(wù)路徑數(shù)據(jù)可以通過觀察來采集。
通用智能帶來了什么變革?
通用智能帶來的本次變革,本質(zhì)上是技術(shù)方法論的轉(zhuǎn)變。同時,其代表了一場根本性和全面性的科技革命,涵蓋科學(xué)、技術(shù)、生產(chǎn)力和發(fā)展模式的全面變革。
能力提升由規(guī)�;瘮U展實現(xiàn)
從技術(shù)方法論的角度,縱觀人類技術(shù)史,迄今為止,人類建立的所有能力都是通過“工程化構(gòu)建”(Engineering by Construction)的方法來實現(xiàn)的,包括蒸汽機、飛機等重大發(fā)明。
然而,通用智能的能力不是通過簡單的工程化就能構(gòu)建而成,而是需要通過“規(guī)�;瘮U展”(Scaling)。正如大自然,自然并沒有通過工程化構(gòu)建來創(chuàng)造任何東西,而是依照內(nèi)在規(guī)律不斷進(jìn)化。宇宙、生命體和人類社會中的大規(guī)模復(fù)雜體系,都是通過規(guī)模化的成長而不是建造出來的。
這也意味著,通用智能時代開發(fā)的智能體,已不能通過簡單編寫代碼和模塊實現(xiàn),需要建立一個評估體系來定義想要的和不想要的行為。通過持續(xù)的數(shù)據(jù)輸入和優(yōu)化,才能使智能體逐漸規(guī)�;瘮U展。
根本性的、全面的科技革命
從科技革命的角度,通用智能的崛起改變的不僅是我們對智能的理解和應(yīng)用,同時也是一場從基礎(chǔ)科學(xué)到生產(chǎn)力的全面革命,將推動社會進(jìn)入一個全新的發(fā)展階段。
首先,通用智能是一門全新的科學(xué)。其研究的是通用智能的形成過程,包括原理、實現(xiàn)方法和應(yīng)用領(lǐng)域等。這門科學(xué)的研究對象不僅限于硅基,還包括碳基,甚至其他基體的智能體。目前,通用智能尚處于早期階段,如同“煉金術(shù)”,還沒有成熟的理論,只能通過不同元素排列組合的實驗進(jìn)行探索。然而,一旦我們對通用智能有了深入理解,就有機會重新構(gòu)建數(shù)學(xué)、物理,乃至人類目前所依賴的整個科學(xué)體系。
其次,通用智能是全新的技術(shù)物種。技術(shù)本質(zhì)上是人類行為的一種延伸。類似于達(dá)爾文進(jìn)化體系,技術(shù)會隨著環(huán)境和需求的變化而不斷演化。任何新技術(shù)都不是全新的發(fā)明,而是在過去的基礎(chǔ)上找到新的組合,即技術(shù)的重新組合。大模型也并非從無到有,而是基于前幾代人工智能模型體系增長而來。
同時,通用智能是一種全新的生產(chǎn)力。人類的生產(chǎn)力是階梯型的,*層是科學(xué),其上是技術(shù),再上是生產(chǎn)和流通等環(huán)節(jié)。這次底層的變革重塑的是人類生產(chǎn)力的整個堆棧。一旦具備了通用的推理能力,我們就能解決幾乎所有滿足人類需求所要解決的問題。
再次,通用智能代表了技術(shù)發(fā)展模式的轉(zhuǎn)變。正如前文所言,其能力構(gòu)建不再由線性的工程化實現(xiàn),而是通過數(shù)據(jù)驅(qū)動和規(guī)�;瘮U展來完成動態(tài)的優(yōu)化和進(jìn)化。
最后,通用智能的具象可以是一個瀏覽器(Browser),也可以是移動應(yīng)用程序、智能手機、機器人、汽車,或者是一個房間。這些通用智能系統(tǒng)可以根據(jù)人類需求定制其環(huán)境和外觀。展望未來,通用智能模型將如同今天的生命體,變得更加多樣化和復(fù)雜化,呈現(xiàn)出繁榮的景象。
如何構(gòu)建通用智能?
在理解通用智能本質(zhì)的基礎(chǔ)上,我們可以進(jìn)一步探究如何利用通用智能來創(chuàng)造新的價值。這需要我們厘清三個關(guān)鍵點:模型的范圍(端到端)、模型與環(huán)境的交互形式(具身),以及模型的核心任務(wù)或目的(生存和減熵)。
首先,要構(gòu)建通用智能,尤其是構(gòu)建任何一個產(chǎn)品,必須明確范圍。如果不做范圍內(nèi)的端到端解決方案,就無法實現(xiàn)通用智能。只有明確了這一點,才能真正理解通用智能的應(yīng)用。
過去,由于模型的容量(Capacity)不足,無法實現(xiàn)端到端的解決方案。但現(xiàn)在,盡管模型仍不*,其容量已經(jīng)足夠強大。只要數(shù)據(jù)中存在熵結(jié)構(gòu),并給模型足夠的計算資源,模型就能夠在處理過程中將這些結(jié)構(gòu)融入其激活函數(shù)的維度,并在關(guān)鍵的前饋結(jié)構(gòu)中體現(xiàn)出來。用更直白的方式描述,即數(shù)據(jù)中存在的任何有規(guī)律性(regularity)的信息,都能被模型“吃”進(jìn)。
其次,具身可以被視作通用智能的交互形式。通用智能在某種程度上是“感知-推理-行動”三位一體體系的具象化。數(shù)據(jù)作為感知的一部分,承擔(dān)獲取信息、對信息進(jìn)行處理,并與環(huán)境交互的功能。通過數(shù)據(jù)進(jìn)行計算來實現(xiàn)通用智能同樣遵循一種特定的模式:數(shù)據(jù)導(dǎo)入后進(jìn)行編碼,映射到高維度的向量空間中,然后通過解碼生成具體的行動具象。
最后,通用智能最重要的是任務(wù)和目的,是生存和減熵(壓縮)。和人一樣,技術(shù)也需要生存,要進(jìn)化、發(fā)展。如果有其他技術(shù)比現(xiàn)存技術(shù)更有效,后者就會被淘汰。因此,模型首先也需要生存,要在同樣的環(huán)境/范圍內(nèi),比潛在的替代品更優(yōu)。比如,更便宜的、功耗更低的,一樣能做推理的模型,它的生存力就更強�?梢钥吹剑�(dāng)下活躍的模型,其參數(shù)規(guī)模都相對較小,如 GPT4o mini、Mistral、DeepSeek v2 和 Qwen。當(dāng)然,模型本身也需要壓縮(減熵)得更好。
反觀 OpenAI 最初引導(dǎo)的路徑,即推理要足夠好就要做一個很大的模型然后進(jìn)行微調(diào)。昂貴的成本會導(dǎo)致模型難以在產(chǎn)業(yè)中得到應(yīng)用。如同一個人什么都學(xué)會了,進(jìn)入公司工作,卻只需完成很小的一個任務(wù)。這條路在某種意義上,只有在國家層面而非企業(yè)層面行得通。許多模型本身是無法生存的,因為構(gòu)建這些模型的人和他們的公司無法維持下去。正是由于它的模型成本太高,社會無法接受,而同時市面上又存在其他更好的替代模型。任何能生存下去的事物,都是因為它沒有替代品,沒有誰比它更適合在環(huán)境中完成任務(wù)。
關(guān)于上述三個核心要素在現(xiàn)實中的體現(xiàn),可以舉個簡單的案例。如果一家公司主營業(yè)務(wù)是醬油生產(chǎn)、制造和銷售,那么它的環(huán)境就是工廠。采購大豆、運進(jìn)工廠,經(jīng)過發(fā)酵、加工等系列生產(chǎn)制作流程,產(chǎn)出醬油再賣出去,這就是這家公司的范圍。
在上述案例中,我們需要清楚地知曉,使用模型的目的是把整個做醬油和賣醬油的過程壓縮到*。目前,我們主要依靠人腦來思考如何制作更好的醬油,賣給誰,如何提高單價,如何拉動需求增長等。未來,在這個范圍內(nèi)可以利用模型進(jìn)行各種通用推理,以實現(xiàn)業(yè)務(wù)效果的大幅提升。
總的來說,要利用好通用智能的能力,一家公司需要回答好環(huán)境中有什么數(shù)據(jù),怎么采集,以及通用智能怎么和環(huán)境做交互等問題。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...