如果有一天,AI也需要像人類一樣,坐下來(lái)參加一場(chǎng)標(biāo)準(zhǔn)的智商測(cè)試,結(jié)果會(huì)是怎樣?這聽(tīng)起來(lái)像是一個(gè)科幻小說(shuō)的情節(jié),但一個(gè)名為“Trackingai.org”的趣味項(xiàng)目已經(jīng)將它變成了現(xiàn)實(shí)。
這個(gè)項(xiàng)目沒(méi)有采用那些讓普通人眼花繚亂的技術(shù)術(shù)語(yǔ)和性能跑分,而是設(shè)計(jì)了一套參考人類智商測(cè)驗(yàn)的考卷,讓當(dāng)前全球最頂尖的那些大型語(yǔ)言模型,進(jìn)行了一場(chǎng)直接又純粹的“智商”對(duì)決。
這場(chǎng)對(duì)決的核心看點(diǎn),早已超越了單純的技術(shù)性能比較。它更像是一場(chǎng)AI界的“最強(qiáng)大腦”挑戰(zhàn)賽,試圖用一種我們最熟悉的方式,來(lái)衡量這些數(shù)字大腦到底有多“聰明”。
測(cè)試的方法有兩種。第一種是世界認(rèn)可度最高的門薩智商測(cè)試,即智商超過(guò)130即可加入由全球精英組成的門薩俱樂(lè)部。第二種是專門用來(lái)對(duì)模型性能做測(cè)試的智力問(wèn)答測(cè)試集。
在這場(chǎng)挑戰(zhàn)中,最新發(fā)布的的GPT-5 Pro,谷歌公司潛心研發(fā)的Gemini 2.5 Pro,以及由埃隆·馬斯克主導(dǎo)、以個(gè)性著稱的Grok 4,共同上演了一場(chǎng)精彩的智力大比拼。與此同時(shí),一些曾經(jīng)的王者和意想不到的“黑馬”也在這份榜單上留下了自己的印記,它們的表現(xiàn)同樣充滿了故事性和啟發(fā)性。這不僅僅是關(guān)于數(shù)字和排名的游戲,更是我們觀察AI認(rèn)知能力進(jìn)化,理解它們與人類思維異同的一個(gè)獨(dú)特窗口。
01
“御三家”的智商秀
在這場(chǎng)備受矚目的AI智商測(cè)試中,有三位“考生”無(wú)疑是全場(chǎng)的焦點(diǎn)。它們分別是OpenAI的GPT-5 Pro、谷歌的Gemini 2.5 Pro,以及xAI公司的Grok 4。這三個(gè)模型代表了當(dāng)今世界閉源商業(yè)大模型的最高水平,它們的每一次更新和發(fā)布都牽動(dòng)著整個(gè)科技界的神經(jīng)。因此,當(dāng)它們?cè)谕粋(gè)智商測(cè)試的舞臺(tái)上相遇時(shí),所有人都想知道,誰(shuí)才是那個(gè)最聰明的“大腦”。
讓我們先看看門薩組,排名最高的是谷歌的Gemini 2.5 pro,他的智商達(dá)到了137。
前文也提到了,在人類的智商評(píng)定體系中,130分以上就被認(rèn)為是“極超常”,也就是我們通常所說(shuō)的天才。而140分以上,更是被視為天才中的佼佼者。愛(ài)因斯坦的智商,后世估算大約在160分左右。
這個(gè)分?jǐn)?shù)表明,Gemini 2.5 Pro在處理復(fù)雜的邏輯推理、抽象思維和模式識(shí)別等任務(wù)時(shí),其能力已經(jīng)可以與人類社會(huì)中最頂尖的那一小部分人相媲美。它不再是一個(gè)僅僅會(huì)模仿和重復(fù)的程序,而是展現(xiàn)出了某種程度的、接近人類高階智慧的解決問(wèn)題的能力。
緊接著是OpenAI的o3,但令人匪夷所思的是,o3的性能低于o3 Pro,但是o3的智商卻比o3 Pro還高。作為GPT系列的最新成員,Chat GPT-5,它的智商只有121。
最后一位主角是埃隆·馬斯克麾下的Grok 4。Grok從一發(fā)布就以其獨(dú)特風(fēng)格和不受限制的回答方式而聞名,被認(rèn)為是一個(gè)極具個(gè)性的AI。它的智商表現(xiàn)自然也備受關(guān)注。測(cè)試結(jié)果顯示,Grok 4的智商分?jǐn)?shù)為125分。這個(gè)分?jǐn)?shù)雖然不及前面兩位選手那樣耀眼,但也已經(jīng)超過(guò)了人類的平均水平,進(jìn)入了“超常”的范疇。
在常識(shí)中,我們通常認(rèn)為最新的大模型智商應(yīng)該最高。但是Gemini 2.5 Pro是這里面誕生時(shí)間最長(zhǎng)的模型,其次是Grok 4,最后是Chat GPT-5。之所以會(huì)產(chǎn)生這樣的結(jié)果,很可能是他們的開(kāi)發(fā)者,在回答這類問(wèn)題上作出了取舍,我們可以一起來(lái)看看他們是如何回答問(wèn)題的,以便觀察他們的智力水平為何會(huì)違反常識(shí)。
以此題為例,門薩智商測(cè)試是由數(shù)道圖形推理題組成,在第18道測(cè)試題中,題目給出了一個(gè)3x3的九宮格,其中八個(gè)格子已經(jīng)填上了由不同線條組成的圖案,要求AI找出規(guī)律,并從六個(gè)選項(xiàng)中選擇一個(gè)正確的圖案填入第九個(gè)空格。根據(jù)規(guī)律,右下角的位置應(yīng)該填C。
GPT-5 Pro的回答,系統(tǒng)地觀察了九宮格中每一行和每一列的圖案變化,并指出了其中存在的邏輯遞進(jìn)關(guān)系。通過(guò)分析已有圖案的模式演變,它推斷出空格處需要一個(gè)什么樣的圖案才能同時(shí)滿足橫向和縱向的規(guī)律�;谶@種對(duì)整體格局的把握和對(duì)細(xì)節(jié)演變的推斷,它最終準(zhǔn)確地找到了那個(gè)能夠補(bǔ)全整個(gè)邏輯拼圖的正確選項(xiàng)。
Gemini 2.5 Pro的回答也同樣正確,但它找到了一條完全不同的解題路徑。它敏銳地識(shí)別出了一個(gè)清晰的“旋轉(zhuǎn)對(duì)稱”規(guī)律,指出整個(gè)九宮格的第三行,其實(shí)是第一行順時(shí)針旋轉(zhuǎn)90度得到的結(jié)果。基于這個(gè)簡(jiǎn)潔而優(yōu)雅的規(guī)則,它輕松地推導(dǎo)出了第三列空格處的圖案,也應(yīng)該是第一列對(duì)應(yīng)圖案旋轉(zhuǎn)90度的樣子,從而得出了正確的答案。這展現(xiàn)了其強(qiáng)大的模式識(shí)別能力,說(shuō)明它能夠從不同的維度發(fā)現(xiàn)問(wèn)題的內(nèi)在邏輯,找到同樣有效但思路迥異的解決方案。
Grok 4的解題過(guò)程則顯得更具探索性。它首先全面分析了行和列的各種可能性,試圖從線條的主題(橫線、豎線、交叉線)和數(shù)量等多個(gè)維度尋找規(guī)律。在經(jīng)過(guò)一番分析和排除后,它也同樣鎖定了問(wèn)題的核心——整個(gè)圖形存在一個(gè)90度的旋轉(zhuǎn)對(duì)稱關(guān)系。它明確指出第三行是第一行旋轉(zhuǎn)90度的結(jié)果,并以此為依據(jù),將第一行第三列的圖案進(jìn)行旋轉(zhuǎn),最終也準(zhǔn)確地推導(dǎo)出了正確答案C。雖然它的思考路徑看起來(lái)更曲折,但這種多角度的嘗試最終也導(dǎo)向了正確的結(jié)果,展現(xiàn)了一種雖然不那么直接、但同樣有效的邏輯推理能力。
通過(guò)這個(gè)簡(jiǎn)單的例子,我們可以看到,智商分?jǐn)?shù)不僅僅是一個(gè)冰冷的數(shù)字。它背后揭示的是不同AI在“思考”和解決問(wèn)題時(shí),所采用的路徑、邏輯的嚴(yán)密程度以及最終效果的差異。GPT-5 Pro展現(xiàn)了強(qiáng)大的抽象和系統(tǒng)化思維,Gemini 2.5 Pro表現(xiàn)出高效的模式識(shí)別能力,而Grok 4則通過(guò)一種更為探索性的分析路徑,最終也成功解決了問(wèn)題。這場(chǎng)“御三家”的智商秀,清晰地勾勒出了當(dāng)前頂級(jí)AI智能水平的梯度。
而來(lái)到數(shù)據(jù)集組,結(jié)果就又變了。這回的排名很符合常識(shí),GPT-5 Pro排名第一,Gemini 2.5 pro排名第二,o3 Pro排名第三,Grok 4排名第四。數(shù)據(jù)集組相對(duì)門薩測(cè)試來(lái)說(shuō),難度要高一些,而且測(cè)試題的數(shù)量非常多。
02
“意難平”與“小驚喜”
在這份AI智商排行榜上,除了最頂端那幾位耀眼的明星,其他一些模型的身影和它們所處的位置,同樣引人深思。它們的故事,或許更能揭示當(dāng)前人工智能發(fā)展的一些深層趨勢(shì)和挑戰(zhàn)。其中,最令人感到“意難平”的,莫過(guò)于Meta公司的Llama系列。
Llama系列,尤其是它的后續(xù)版本,曾經(jīng)是開(kāi)源大模型領(lǐng)域的一面旗幟。當(dāng)OpenAI和谷歌等巨頭在閉源模型的道路上高歌猛進(jìn)時(shí),Meta選擇將自己的強(qiáng)大模型開(kāi)放給全世界的研究者和開(kāi)發(fā)者,極大地推動(dòng)了整個(gè)AI生態(tài)的繁榮。Llama一度被視為開(kāi)源力量的希望,是能夠與頂級(jí)閉源模型一較高下的存在。然而,在這次的智商測(cè)試榜單中,Llama 4 Maverick的得分僅為98分。
98分,這個(gè)數(shù)字本身并不算低,它非常接近人類智商的平均值100分。這意味著Llama 4 Maverick已經(jīng)具備了與普通人相當(dāng)?shù)慕鉀Q問(wèn)題的能力。但問(wèn)題在于,它的競(jìng)爭(zhēng)對(duì)手們,得分是121、1125,甚至是137。在這樣一個(gè)頂尖選手的賽場(chǎng)上,僅僅達(dá)到“平均水平”是遠(yuǎn)遠(yuǎn)不夠的。昔日的開(kāi)源王者,如今在純粹的智力較量中,與閉源頂尖模型之間出現(xiàn)了肉眼可見(jiàn)的巨大差距。
Meta已經(jīng)開(kāi)始采取行動(dòng)。近期有大量報(bào)道指出,Meta正在不惜代價(jià),通過(guò)提供極具吸引力的薪酬和資源,從谷歌、OpenAI等競(jìng)爭(zhēng)對(duì)手那里積極招攬頂尖的AI研究員和工程師。這場(chǎng)“挖角”大戰(zhàn),正是Meta試圖彌補(bǔ)差距、重振旗鼓的關(guān)鍵一步。Llama的未來(lái)表現(xiàn),將在很大程度上取決于這場(chǎng)人才爭(zhēng)奪戰(zhàn)的結(jié)果。
然而,榜單也并非只有失意者,同樣存在著不容小覷的“小驚喜”。Deepseek R1的測(cè)試數(shù)據(jù)停留在5月底,這意味著它所使用的是相對(duì)較舊的版本。但在這種情況下,它的智商分?jǐn)?shù)達(dá)到了102分。
102分這個(gè)數(shù)字,本身只是略高于平均水平,但它的意義需要結(jié)合背景來(lái)看。它超過(guò)了風(fēng)頭正勁的Llama 4 Maverick。更重要的是,作為一個(gè)數(shù)據(jù)更新不算及時(shí)的模型,它所展現(xiàn)出的智力水平,已經(jīng)開(kāi)始接近那些剛剛發(fā)布、匯集了最新技術(shù)成果的頂尖模型。這匹“黑馬”的存在,傳遞出了一個(gè)非常積極的信號(hào)。
DeepSeek R1的堅(jiān)守和它所取得的成績(jī),有力地說(shuō)明了一個(gè)道理:在提升AI的“智商”方面,一味地追求最新的數(shù)據(jù)和更大的模型規(guī)模,并非是唯一的路徑。模型的架構(gòu)設(shè)計(jì)、訓(xùn)練方法和算法的優(yōu)化,同樣扮演著至關(guān)重要的角色。一個(gè)設(shè)計(jì)精良、訓(xùn)練高效的模型架構(gòu),即便沒(méi)有“吃”進(jìn)最新的知識(shí),也可能在底層的邏輯推理和問(wèn)題解決能力上,表現(xiàn)得更為出色。
這就好比一個(gè)學(xué)生,聰明與否不僅取決于他讀了多少本書,更取決于他是否掌握了高效的學(xué)習(xí)方法和清晰的思維框架。DeepSeek R1的表現(xiàn),讓我們看到了另一種可能性,即通過(guò)更聰明的算法和架構(gòu),實(shí)現(xiàn)更高的“智商性價(jià)比”。這對(duì)于資源相對(duì)有限的研究團(tuán)隊(duì)和開(kāi)源社區(qū)來(lái)說(shuō),無(wú)疑是一個(gè)巨大的鼓舞。它提醒著整個(gè)行業(yè),在追逐規(guī)模和數(shù)據(jù)的同時(shí),不應(yīng)忽視那些來(lái)自模型設(shè)計(jì)和訓(xùn)練方法本身的、更為根本的創(chuàng)新。
03
這個(gè)測(cè)試結(jié)果不用太在意
這種模擬人類智商測(cè)試的方式,其最大的意義在于它建立了一座溝通的橋橋梁。長(zhǎng)期以來(lái),評(píng)估AI模型性能的指標(biāo),如MMLU、HellaSwag、ARC等,雖然在學(xué)術(shù)界和工業(yè)界非常重要,但對(duì)于普通公眾來(lái)說(shuō),這些縮寫詞匯和它們背后的技術(shù)細(xì)節(jié),就像一堵高墻,讓人難以理解一個(gè)AI到底“聰明”在哪里。而智商這個(gè)概念,早已深入人心。
當(dāng)我們可以說(shuō)“這個(gè)AI的智商是137”時(shí),它的智能水平立刻就變得具體、可感、可以比較了。這種通俗化的度量衡,極大地降低了公眾理解AI能力的門檻,讓我們可以用一種更直觀的方式,來(lái)討論和思考人工智能的發(fā)展。它告訴我們,AI的“聰明”不再僅僅是程序員代碼跑分的結(jié)果,而是實(shí)實(shí)在在地體現(xiàn)在了解決那些需要我們動(dòng)腦筋的謎題和問(wèn)題的能力上。
大模型的智商能超過(guò)130,這不僅僅意味著AI在處理標(biāo)準(zhǔn)化測(cè)試題上的能力越來(lái)越強(qiáng),更深層次地,它標(biāo)志著AI的認(rèn)知能力正在發(fā)生質(zhì)的飛躍。它們正在從單純的信息檢索和模式匹配,進(jìn)化到能夠進(jìn)行復(fù)雜的邏輯推理、抽象思維和多步驟問(wèn)題解決。它們?cè)谀7氯祟愔腔鄣牡缆飞�,已�?jīng)走得非常遠(yuǎn),甚至在某些方面,開(kāi)始展現(xiàn)出超越普通人類的能力。
Trackingai.org也在官網(wǎng)表示,對(duì)大模型做智商測(cè)試更多是出于娛樂(lè),因?yàn)榇竽P偷闹巧蹋⒉荒芡耆韧谌祟惖闹巧獭?/p>
因?yàn)橹巧虦y(cè)試主要衡量的是其中“聚合性思維”的部分,即在給定規(guī)則和信息下,通過(guò)邏輯演繹找到唯一正確答案的能力。這恰好是當(dāng)前大型語(yǔ)言模型所擅長(zhǎng)的領(lǐng)域——它們通過(guò)對(duì)海量數(shù)據(jù)的學(xué)習(xí),精通于模式識(shí)別和邏輯關(guān)聯(lián)。
然而,人類智能還包含與之相對(duì)的“發(fā)散性思維”,即創(chuàng)造力、想象力和直覺(jué),以及更為復(fù)雜的社會(huì)情感智能和具身認(rèn)知(通過(guò)與物理世界互動(dòng)獲得的智能)。這些是當(dāng)前AI架構(gòu)難以觸及的。因此,AI的高智商,更準(zhǔn)確地說(shuō),是其作為“邏輯分析引擎”性能卓越的體現(xiàn),而非其擁有了與人類相似的完整心智。
無(wú)論如何,這場(chǎng)測(cè)試的結(jié)果都清晰地揭示了一個(gè)趨勢(shì):AI正成為人類有史以來(lái)最強(qiáng)大的認(rèn)知工具。當(dāng)一個(gè)系統(tǒng)的邏輯處理能力已經(jīng)達(dá)到甚至超越人類天才的水平時(shí),我們必須重新思考人機(jī)協(xié)作的范式。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...