全球AI智商最新排名公布！還好，沒(méi)誰(shuí)超過(guò)愛(ài)因斯坦

2025/08/19 18:39 字母榜

　　如果有一天，AI也需要像人類一樣，坐下來(lái)參加一場(chǎng)標(biāo)準(zhǔn)的智商測(cè)試，結(jié)果會(huì)是怎樣?這聽(tīng)起來(lái)像是一個(gè)科幻小說(shuō)的情節(jié)，但一個(gè)名為“Trackingai.org”的趣味項(xiàng)目已經(jīng)將它變成了現(xiàn)實(shí)。

　　這個(gè)項(xiàng)目沒(méi)有采用那些讓普通人眼花繚亂的技術(shù)術(shù)語(yǔ)和性能跑分，而是設(shè)計(jì)了一套參考人類智商測(cè)驗(yàn)的考卷，讓當(dāng)前全球最頂尖的那些大型語(yǔ)言模型，進(jìn)行了一場(chǎng)直接又純粹的“智商”對(duì)決。

　　這場(chǎng)對(duì)決的核心看點(diǎn)，早已超越了單純的技術(shù)性能比較。它更像是一場(chǎng)AI界的“最強(qiáng)大腦”挑戰(zhàn)賽，試圖用一種我們最熟悉的方式，來(lái)衡量這些數(shù)字大腦到底有多“聰明”。

　　測(cè)試的方法有兩種。第一種是世界認(rèn)可度最高的門薩智商測(cè)試，即智商超過(guò)130即可加入由全球精英組成的門薩俱樂(lè)部。第二種是專門用來(lái)對(duì)模型性能做測(cè)試的智力問(wèn)答測(cè)試集。

　　在這場(chǎng)挑戰(zhàn)中，最新發(fā)布的的GPT-5 Pro，谷歌公司潛心研發(fā)的Gemini 2.5 Pro，以及由埃隆·馬斯克主導(dǎo)、以個(gè)性著稱的Grok 4，共同上演了一場(chǎng)精彩的智力大比拼。與此同時(shí)，一些曾經(jīng)的王者和意想不到的“黑馬”也在這份榜單上留下了自己的印記，它們的表現(xiàn)同樣充滿了故事性和啟發(fā)性。這不僅僅是關(guān)于數(shù)字和排名的游戲，更是我們觀察AI認(rèn)知能力進(jìn)化，理解它們與人類思維異同的一個(gè)獨(dú)特窗口。

　　“御三家”的智商秀

　　在這場(chǎng)備受矚目的AI智商測(cè)試中，有三位“考生”無(wú)疑是全場(chǎng)的焦點(diǎn)。它們分別是OpenAI的GPT-5 Pro、谷歌的Gemini 2.5 Pro，以及xAI公司的Grok 4。這三個(gè)模型代表了當(dāng)今世界閉源商業(yè)大模型的最高水平，它們的每一次更新和發(fā)布都牽動(dòng)著整個(gè)科技界的神經(jīng)。因此，當(dāng)它們?cè)谕粋€(gè)智商測(cè)試的舞臺(tái)上相遇時(shí)，所有人都想知道，誰(shuí)才是那個(gè)最聰明的“大腦”。

全球AI智商最新排名公布！還好，沒(méi)誰(shuí)超過(guò)愛(ài)因斯坦

　　讓我們先看看門薩組，排名最高的是谷歌的Gemini 2.5 pro，他的智商達(dá)到了137。

　　前文也提到了，在人類的智商評(píng)定體系中，130分以上就被認(rèn)為是“極超常”，也就是我們通常所說(shuō)的天才。而140分以上，更是被視為天才中的佼佼者。愛(ài)因斯坦的智商，后世估算大約在160分左右。

　　這個(gè)分?jǐn)?shù)表明，Gemini 2.5 Pro在處理復(fù)雜的邏輯推理、抽象思維和模式識(shí)別等任務(wù)時(shí)，其能力已經(jīng)可以與人類社會(huì)中最頂尖的那一小部分人相媲美。它不再是一個(gè)僅僅會(huì)模仿和重復(fù)的程序，而是展現(xiàn)出了某種程度的、接近人類高階智慧的解決問(wèn)題的能力。

　　緊接著是OpenAI的o3，但令人匪夷所思的是，o3的性能低于o3 Pro，但是o3的智商卻比o3 Pro還高。作為GPT系列的最新成員，Chat GPT-5，它的智商只有121。

　　最后一位主角是埃隆·馬斯克麾下的Grok 4。Grok從一發(fā)布就以其獨(dú)特風(fēng)格和不受限制的回答方式而聞名，被認(rèn)為是一個(gè)極具個(gè)性的AI。它的智商表現(xiàn)自然也備受關(guān)注。測(cè)試結(jié)果顯示，Grok 4的智商分?jǐn)?shù)為125分。這個(gè)分?jǐn)?shù)雖然不及前面兩位選手那樣耀眼，但也已經(jīng)超過(guò)了人類的平均水平，進(jìn)入了“超常”的范疇。

　　在常識(shí)中，我們通常認(rèn)為最新的大模型智商應(yīng)該最高。但是Gemini 2.5 Pro是這里面誕生時(shí)間最長(zhǎng)的模型，其次是Grok 4，最后是Chat GPT-5。之所以會(huì)產(chǎn)生這樣的結(jié)果，很可能是他們的開(kāi)發(fā)者，在回答這類問(wèn)題上作出了取舍，我們可以一起來(lái)看看他們是如何回答問(wèn)題的，以便觀察他們的智力水平為何會(huì)違反常識(shí)。

全球AI智商最新排名公布！還好，沒(méi)誰(shuí)超過(guò)愛(ài)因斯坦

　　以此題為例，門薩智商測(cè)試是由數(shù)道圖形推理題組成，在第18道測(cè)試題中，題目給出了一個(gè)3x3的九宮格，其中八個(gè)格子已經(jīng)填上了由不同線條組成的圖案，要求AI找出規(guī)律，并從六個(gè)選項(xiàng)中選擇一個(gè)正確的圖案填入第九個(gè)空格。根據(jù)規(guī)律，右下角的位置應(yīng)該填C。

　　GPT-5 Pro的回答，系統(tǒng)地觀察了九宮格中每一行和每一列的圖案變化，并指出了其中存在的邏輯遞進(jìn)關(guān)系。通過(guò)分析已有圖案的模式演變，它推斷出空格處需要一個(gè)什么樣的圖案才能同時(shí)滿足橫向和縱向的規(guī)律�；谶@種對(duì)整體格局的把握和對(duì)細(xì)節(jié)演變的推斷，它最終準(zhǔn)確地找到了那個(gè)能夠補(bǔ)全整個(gè)邏輯拼圖的正確選項(xiàng)。

全球AI智商最新排名公布！還好，沒(méi)誰(shuí)超過(guò)愛(ài)因斯坦

　　Gemini 2.5 Pro的回答也同樣正確，但它找到了一條完全不同的解題路徑。它敏銳地識(shí)別出了一個(gè)清晰的“旋轉(zhuǎn)對(duì)稱”規(guī)律，指出整個(gè)九宮格的第三行，其實(shí)是第一行順時(shí)針旋轉(zhuǎn)90度得到的結(jié)果。基于這個(gè)簡(jiǎn)潔而優(yōu)雅的規(guī)則，它輕松地推導(dǎo)出了第三列空格處的圖案，也應(yīng)該是第一列對(duì)應(yīng)圖案旋轉(zhuǎn)90度的樣子，從而得出了正確的答案。這展現(xiàn)了其強(qiáng)大的模式識(shí)別能力，說(shuō)明它能夠從不同的維度發(fā)現(xiàn)問(wèn)題的內(nèi)在邏輯，找到同樣有效但思路迥異的解決方案。

全球AI智商最新排名公布！還好，沒(méi)誰(shuí)超過(guò)愛(ài)因斯坦

　　Grok 4的解題過(guò)程則顯得更具探索性。它首先全面分析了行和列的各種可能性，試圖從線條的主題(橫線、豎線、交叉線)和數(shù)量等多個(gè)維度尋找規(guī)律。在經(jīng)過(guò)一番分析和排除后，它也同樣鎖定了問(wèn)題的核心——整個(gè)圖形存在一個(gè)90度的旋轉(zhuǎn)對(duì)稱關(guān)系。它明確指出第三行是第一行旋轉(zhuǎn)90度的結(jié)果，并以此為依據(jù)，將第一行第三列的圖案進(jìn)行旋轉(zhuǎn)，最終也準(zhǔn)確地推導(dǎo)出了正確答案C。雖然它的思考路徑看起來(lái)更曲折，但這種多角度的嘗試最終也導(dǎo)向了正確的結(jié)果，展現(xiàn)了一種雖然不那么直接、但同樣有效的邏輯推理能力。

全球AI智商最新排名公布！還好，沒(méi)誰(shuí)超過(guò)愛(ài)因斯坦

　　通過(guò)這個(gè)簡(jiǎn)單的例子，我們可以看到，智商分?jǐn)?shù)不僅僅是一個(gè)冰冷的數(shù)字。它背后揭示的是不同AI在“思考”和解決問(wèn)題時(shí)，所采用的路徑、邏輯的嚴(yán)密程度以及最終效果的差異。GPT-5 Pro展現(xiàn)了強(qiáng)大的抽象和系統(tǒng)化思維，Gemini 2.5 Pro表現(xiàn)出高效的模式識(shí)別能力，而Grok 4則通過(guò)一種更為探索性的分析路徑，最終也成功解決了問(wèn)題。這場(chǎng)“御三家”的智商秀，清晰地勾勒出了當(dāng)前頂級(jí)AI智能水平的梯度。

　　而來(lái)到數(shù)據(jù)集組，結(jié)果就又變了。這回的排名很符合常識(shí)，GPT-5 Pro排名第一，Gemini 2.5 pro排名第二，o3 Pro排名第三，Grok 4排名第四。數(shù)據(jù)集組相對(duì)門薩測(cè)試來(lái)說(shuō)，難度要高一些，而且測(cè)試題的數(shù)量非常多。

全球AI智商最新排名公布！還好，沒(méi)誰(shuí)超過(guò)愛(ài)因斯坦

　　“意難平”與“小驚喜”

　　在這份AI智商排行榜上，除了最頂端那幾位耀眼的明星，其他一些模型的身影和它們所處的位置，同樣引人深思。它們的故事，或許更能揭示當(dāng)前人工智能發(fā)展的一些深層趨勢(shì)和挑戰(zhàn)。其中，最令人感到“意難平”的，莫過(guò)于Meta公司的Llama系列。

　　Llama系列，尤其是它的后續(xù)版本，曾經(jīng)是開(kāi)源大模型領(lǐng)域的一面旗幟。當(dāng)OpenAI和谷歌等巨頭在閉源模型的道路上高歌猛進(jìn)時(shí)，Meta選擇將自己的強(qiáng)大模型開(kāi)放給全世界的研究者和開(kāi)發(fā)者，極大地推動(dòng)了整個(gè)AI生態(tài)的繁榮。Llama一度被視為開(kāi)源力量的希望，是能夠與頂級(jí)閉源模型一較高下的存在。然而，在這次的智商測(cè)試榜單中，Llama 4 Maverick的得分僅為98分。

　　98分，這個(gè)數(shù)字本身并不算低，它非常接近人類智商的平均值100分。這意味著Llama 4 Maverick已經(jīng)具備了與普通人相當(dāng)?shù)慕鉀Q問(wèn)題的能力。但問(wèn)題在于，它的競(jìng)爭(zhēng)對(duì)手們，得分是121、1125，甚至是137。在這樣一個(gè)頂尖選手的賽場(chǎng)上，僅僅達(dá)到“平均水平”是遠(yuǎn)遠(yuǎn)不夠的。昔日的開(kāi)源王者，如今在純粹的智力較量中，與閉源頂尖模型之間出現(xiàn)了肉眼可見(jiàn)的巨大差距。

　　Meta已經(jīng)開(kāi)始采取行動(dòng)。近期有大量報(bào)道指出，Meta正在不惜代價(jià)，通過(guò)提供極具吸引力的薪酬和資源，從谷歌、OpenAI等競(jìng)爭(zhēng)對(duì)手那里積極招攬頂尖的AI研究員和工程師。這場(chǎng)“挖角”大戰(zhàn)，正是Meta試圖彌補(bǔ)差距、重振旗鼓的關(guān)鍵一步。Llama的未來(lái)表現(xiàn)，將在很大程度上取決于這場(chǎng)人才爭(zhēng)奪戰(zhàn)的結(jié)果。

　　然而，榜單也并非只有失意者，同樣存在著不容小覷的“小驚喜”。Deepseek R1的測(cè)試數(shù)據(jù)停留在5月底，這意味著它所使用的是相對(duì)較舊的版本。但在這種情況下，它的智商分?jǐn)?shù)達(dá)到了102分。

　　102分這個(gè)數(shù)字，本身只是略高于平均水平，但它的意義需要結(jié)合背景來(lái)看。它超過(guò)了風(fēng)頭正勁的Llama 4 Maverick。更重要的是，作為一個(gè)數(shù)據(jù)更新不算及時(shí)的模型，它所展現(xiàn)出的智力水平，已經(jīng)開(kāi)始接近那些剛剛發(fā)布、匯集了最新技術(shù)成果的頂尖模型。這匹“黑馬”的存在，傳遞出了一個(gè)非常積極的信號(hào)。

　　DeepSeek R1的堅(jiān)守和它所取得的成績(jī)，有力地說(shuō)明了一個(gè)道理：在提升AI的“智商”方面，一味地追求最新的數(shù)據(jù)和更大的模型規(guī)模，并非是唯一的路徑。模型的架構(gòu)設(shè)計(jì)、訓(xùn)練方法和算法的優(yōu)化，同樣扮演著至關(guān)重要的角色。一個(gè)設(shè)計(jì)精良、訓(xùn)練高效的模型架構(gòu)，即便沒(méi)有“吃”進(jìn)最新的知識(shí)，也可能在底層的邏輯推理和問(wèn)題解決能力上，表現(xiàn)得更為出色。

　　這就好比一個(gè)學(xué)生，聰明與否不僅取決于他讀了多少本書，更取決于他是否掌握了高效的學(xué)習(xí)方法和清晰的思維框架。DeepSeek R1的表現(xiàn)，讓我們看到了另一種可能性，即通過(guò)更聰明的算法和架構(gòu)，實(shí)現(xiàn)更高的“智商性價(jià)比”。這對(duì)于資源相對(duì)有限的研究團(tuán)隊(duì)和開(kāi)源社區(qū)來(lái)說(shuō)，無(wú)疑是一個(gè)巨大的鼓舞。它提醒著整個(gè)行業(yè)，在追逐規(guī)模和數(shù)據(jù)的同時(shí)，不應(yīng)忽視那些來(lái)自模型設(shè)計(jì)和訓(xùn)練方法本身的、更為根本的創(chuàng)新。

　　這個(gè)測(cè)試結(jié)果不用太在意

　　這種模擬人類智商測(cè)試的方式，其最大的意義在于它建立了一座溝通的橋橋梁。長(zhǎng)期以來(lái)，評(píng)估AI模型性能的指標(biāo)，如MMLU、HellaSwag、ARC等，雖然在學(xué)術(shù)界和工業(yè)界非常重要，但對(duì)于普通公眾來(lái)說(shuō)，這些縮寫詞匯和它們背后的技術(shù)細(xì)節(jié)，就像一堵高墻，讓人難以理解一個(gè)AI到底“聰明”在哪里。而智商這個(gè)概念，早已深入人心。

　　當(dāng)我們可以說(shuō)“這個(gè)AI的智商是137”時(shí)，它的智能水平立刻就變得具體、可感、可以比較了。這種通俗化的度量衡，極大地降低了公眾理解AI能力的門檻，讓我們可以用一種更直觀的方式，來(lái)討論和思考人工智能的發(fā)展。它告訴我們，AI的“聰明”不再僅僅是程序員代碼跑分的結(jié)果，而是實(shí)實(shí)在在地體現(xiàn)在了解決那些需要我們動(dòng)腦筋的謎題和問(wèn)題的能力上。

　　大模型的智商能超過(guò)130，這不僅僅意味著AI在處理標(biāo)準(zhǔn)化測(cè)試題上的能力越來(lái)越強(qiáng)，更深層次地，它標(biāo)志著AI的認(rèn)知能力正在發(fā)生質(zhì)的飛躍。它們正在從單純的信息檢索和模式匹配，進(jìn)化到能夠進(jìn)行復(fù)雜的邏輯推理、抽象思維和多步驟問(wèn)題解決。它們?cè)谀７氯祟愔腔鄣牡缆飞�，已�?jīng)走得非常遠(yuǎn)，甚至在某些方面，開(kāi)始展現(xiàn)出超越普通人類的能力。

　　Trackingai.org也在官網(wǎng)表示，對(duì)大模型做智商測(cè)試更多是出于娛樂(lè)，因?yàn)榇竽Ｐ偷闹巧蹋⒉荒芡耆韧谌祟惖闹巧獭?/p>

　　因?yàn)橹巧虦y(cè)試主要衡量的是其中“聚合性思維”的部分，即在給定規(guī)則和信息下，通過(guò)邏輯演繹找到唯一正確答案的能力。這恰好是當(dāng)前大型語(yǔ)言模型所擅長(zhǎng)的領(lǐng)域——它們通過(guò)對(duì)海量數(shù)據(jù)的學(xué)習(xí)，精通于模式識(shí)別和邏輯關(guān)聯(lián)。

　　然而，人類智能還包含與之相對(duì)的“發(fā)散性思維”，即創(chuàng)造力、想象力和直覺(jué)，以及更為復(fù)雜的社會(huì)情感智能和具身認(rèn)知(通過(guò)與物理世界互動(dòng)獲得的智能)。這些是當(dāng)前AI架構(gòu)難以觸及的。因此，AI的高智商，更準(zhǔn)確地說(shuō)，是其作為“邏輯分析引擎”性能卓越的體現(xiàn)，而非其擁有了與人類相似的完整心智。

　　無(wú)論如何，這場(chǎng)測(cè)試的結(jié)果都清晰地揭示了一個(gè)趨勢(shì)：AI正成為人類有史以來(lái)最強(qiáng)大的認(rèn)知工具。當(dāng)一個(gè)系統(tǒng)的邏輯處理能力已經(jīng)達(dá)到甚至超越人類天才的水平時(shí)，我們必須重新思考人機(jī)協(xié)作的范式。

IT產(chǎn)業(yè)網(wǎng)微信二維碼logo

　　榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報(bào)生成中...

分享到微博分享到微信一鍵復(fù)制

標(biāo)題鏈接已成功復(fù)制

全球AI智商最新排名公布！還好，沒(méi)誰(shuí)超過(guò)愛(ài)因斯坦

最新新聞

熱門新聞

新動(dòng)態(tài)

關(guān)注度

最話題

全球AI智商最新排名公布！還好，沒(méi)誰(shuí)超過(guò)愛(ài)因斯坦

相關(guān)閱讀

最新新聞

熱門新聞

新動(dòng)態(tài)

關(guān)注度

最話題

全球AI智商最新排名公布！還好，沒(méi)誰(shuí)超過(guò)愛(ài)因斯坦