OpenAI難現(xiàn)往日輝煌。
在GPT-4發(fā)布兩年之后,經(jīng)歷多次“跳票”的GPT-5終于在今日登場。
北京時間8月8日凌晨1點(diǎn),OpenAI舉辦了一場超過一小時的發(fā)布會,系統(tǒng)展示了GPT-5在智能水平、編程能力、任務(wù)推理等維度的性能迭代。
但相比此前GPT-3到GPT-4所帶來的全方位升級,許多人表示,這次GPT-5并沒有帶來更多的驚喜,從發(fā)布會規(guī)模、產(chǎn)品亮點(diǎn)、到性能升級,都顯得較為平庸,相較當(dāng)前主流SOTA模型,提升幅度并不顯著。
反倒是價格策略成了此次發(fā)布的最 大亮點(diǎn)。GPT-5的API調(diào)用價格僅為前幾日發(fā)布的Claude Opus 4.1的1/15,顯著低于Gemini 2.5 Pro,在當(dāng)前大模型市場上展現(xiàn)出極強(qiáng)的性價比。
近兩年,隨著AI工具開始席卷各行各業(yè),人們渴望AI能夠取代重復(fù)繁瑣的工作,也在擔(dān)憂自己是否會被AI所取代,這也是GPT-5發(fā)布前備受關(guān)注的原因之一。但就目前GPT-5的能力突破來看,人類智能在通往AGI的路上仍有很長一段路要走。
回顧過去幾年GPT的迭代歷程,不僅是眾多AI公司爭相效仿的對象,也是整個大模型行業(yè)發(fā)展的縮影。而此次GPT-5相對平庸的表現(xiàn),雖然打破了外界對大模型技術(shù)持續(xù)突破的慣性認(rèn)知,但某種程度上,也在大多數(shù)人的意料之中。
相比AI興起階段大眾對于大模型技術(shù)的過高展望,市場上有關(guān)大模型參數(shù)突破的討論正勢漸微弱。相比起技術(shù)突破,人們開始更加關(guān)心的是,AI如何更有效地滲透進(jìn)日常生活。
01
從GPT1到GPT5
GPT的未來要走向哪里?
自2018年OpenAI發(fā)布首 個大模型GPT-1以來,GPT系列已經(jīng)走過了七年。
2020年GPT3的出現(xiàn),讓大模型參數(shù)規(guī)模從15億直接拓展到了1750億,也因此通過“上下文學(xué)習(xí)”能力,擺脫了對大量標(biāo)注數(shù)據(jù)的依賴,使大模型能夠開始作為效率工具使用。
兩年后,基于GPT-3.5構(gòu)建的對話式模型ChatGPT上線,進(jìn)一步推動大模型走入C端日常,成為通用AI應(yīng)用的重要落地轉(zhuǎn)折點(diǎn)。
隨后GPT-4的全面升級,更是在實(shí)現(xiàn)萬億級模型參數(shù)的同時,讓大模型在單純文本輸出的基礎(chǔ)上,實(shí)現(xiàn)了圖像的交互提升。
此后一年里,GPT發(fā)布的多款模型,都在圍繞圖像、語音互動等多模態(tài)能力迭代; deepseek的橫空出世,將推理模型帶向了大眾視野,去年OpenAI接連發(fā)布了O1、O3系列產(chǎn)品,將復(fù)雜推理作為了性能優(yōu)勢,開始強(qiáng)調(diào)對科學(xué)、編程等專業(yè)領(lǐng)域的協(xié)助能力。
與此同時,圍繞大模型參數(shù)量的宏大敘事開始逐漸消失,轉(zhuǎn)變?yōu)閷Χ嗄B(tài)、長文本等細(xì)節(jié)能力的追求,以及對醫(yī)療、教育等落地場景的討論。正因如此,大模型產(chǎn)品形態(tài)也開始從單一模型轉(zhuǎn)向了多版本并行。
截至目前,OpenAI已構(gòu)建起由GPT系列(主打?qū)υ捊换?、O系列(聚焦復(fù)雜推理)以及圖像/視頻生成模型(支撐多模態(tài)創(chuàng)作)組成的三大產(chǎn)品矩陣。
在本次升級的GPT-5中,GPT進(jìn)一步統(tǒng)一了O系列的推理能力和GPT的快速響應(yīng),相比較deepseek在模型使用時,自主選擇是否使用深度思考模式,GPT-5的區(qū)別在于能夠自動判斷對話類型。
OpenAI核心產(chǎn)品發(fā)布時間線
除此之外,在此次發(fā)布會中,OpenAI首次同時推出了4個版本,標(biāo)準(zhǔn)版GPT-5、輕量級的GPT-5 mini與GPT-5 nano,以及面向企業(yè)與高級訂閱用戶的GPT-5 Pro(需企業(yè)授權(quán)或月付200美元)。加深了按需定制、分層定價的SaaS化路徑演進(jìn)。
這種轉(zhuǎn)變也意味著,對于AI公司來說,競爭的門檻不再僅是技術(shù)突破,還在于是否具備構(gòu)建產(chǎn)品體驗、搭建商業(yè)模型、整合跨界資源的綜合能力。
02
GPT-5難產(chǎn)真相:
大模型升級為何越來越難?
DeepSeek上線所帶來的用戶量激增,不僅向外界證明了開源模型的商業(yè)化可行性,也進(jìn)一步加深了大模型公司對“先發(fā)優(yōu)勢”的重視。當(dāng)模型性能差距趨于收斂,前期對于用戶心智的爭奪上升為第 一要義。
正因如此,隨著GPT-5問世的風(fēng)聲不斷,最近一段時間,各大廠商開始紛紛加速競跑,相繼推出新品。
字節(jié)在兩個月前將豆包更新至1.6版本,阿里也在昨日推出了Qwen3-4B-Instruct-2507與Thinking-2507雙版本,MiniMax近幾日發(fā)布了新一代語言生成模型Speech 2.5,智譜也在上月底發(fā)布旗艦?zāi)P虶LM-4.5……一場集中式更新潮,給沉靜許久的大模型賽道掀起了又一波浪潮。
但當(dāng)我們把時間拉長來看,這波密集的模型上新趨勢,距離上一次“百模大戰(zhàn)”的盛景,已經(jīng)過去了一年多。
大模型的更新趨勢正在逐漸放緩。不僅如此,相較GPT-3到GPT-4參數(shù)暴漲、多模態(tài)突破、上下文顯著增強(qiáng)的躍遷,近期多款新品的提升幅度也顯得頗為有限,大多數(shù)模型的升級和GPT-5一樣乏善可陳。
很多人把背后的原因歸結(jié)為數(shù)據(jù)瓶頸。
去年萬眾矚目的Orion,項目開發(fā)時長超過了18個月,曾經(jīng)被寄予厚望,原計劃作為GPT-5推出。結(jié)果在驗證時,性能卻遠(yuǎn)未達(dá)到預(yù)期,最終只能被降級成GPT-4.5,在今年2月默默上線。
據(jù)業(yè)內(nèi)人士稱,Orion之所以失敗,最核心的原因在于,團(tuán)隊摸到了預(yù)訓(xùn)練階段的天花板。隨著訓(xùn)練數(shù)據(jù)的不斷擴(kuò)充,高質(zhì)量網(wǎng)絡(luò)數(shù)據(jù)存量不斷減少,直接導(dǎo)致了模型訓(xùn)練效果的下降。
除此之外,隨著大模型參數(shù)量不斷增加,硬件水平所帶來的掣肘也在越發(fā)放大,據(jù)媒體報道,有開發(fā)人員透露,OpenAI在去年年底所推出的推理模型O3,之所以能夠?qū)崿F(xiàn)核心的性能提升,主要依賴于使用更多的英偉達(dá)芯片進(jìn)行開發(fā)。
更進(jìn)一步的問題在于,大眾對于AI幻覺、AI味的抵制正在呈現(xiàn)更為激進(jìn)的態(tài)勢。
GPT-5發(fā)布前夕,奧特曼曾在社交平臺分享了模型對話能力的演示。但出乎意料的是,評論區(qū)關(guān)注的焦點(diǎn)已不再是性能指標(biāo),而是GPT頻繁使用破折號的語言習(xí)慣。
此前OpenAI在今年2月推出的GPT 4.5,核心性能升級也在于提升模型情商,減少AI痕跡。與此同時,在有關(guān)GPT-5的權(quán)威測評數(shù)據(jù)中,也表示出AI事實(shí)性幻覺的大幅減少。
但正如眾多網(wǎng)友所吐槽的那樣,相比較數(shù)學(xué)能力的準(zhǔn)確度提升,GPT-5在寫作流暢度、情商表現(xiàn)上卻遠(yuǎn)不如GPT 4.5。
某種程度上來說,AI的思維機(jī)制和生成原理,注定了“事實(shí)性幻覺”始終是一種概率性存在。
Meta首席AI科學(xué)家楊立昆曾經(jīng)對當(dāng)前主流的LLM背后的自回歸模型表示質(zhì)疑,認(rèn)為其通過預(yù)測下一個詞來生成文本的模式,本質(zhì)上無法孕育出真正的智能。
這一判斷也對過去大模型訓(xùn)練逃不開的Scaling Law路線進(jìn)行了質(zhì)疑,即單純增加參數(shù)數(shù)量并不能使得AI更好的擬合人類智能。背后的原因在于,兩者在思維結(jié)構(gòu)上存在本質(zhì)不同,前者是從更大、更多的參數(shù)中,以最小的成本組織信息;而后者則為了在不確定中生存和繁衍,具有更強(qiáng)的冗余性和模糊性。
03
AI Agent落地,大模型要讓位?
一直以來,圍繞ChatGPT的訂閱收費(fèi)、API接口調(diào)用是OpenAI的重要盈利來源,但隨著今年AI Agent 的大量涌現(xiàn),大模型公司的商業(yè)化重心,開始發(fā)生了遷移。
上半年,OpenAI發(fā)布了兩款基于ChatGPT的AI Agent,一是可以代替用戶操作瀏覽器,自主執(zhí)行任務(wù)的Operator;二是可以輔助做深入研究,生成專業(yè)研究報告的Deep Research。
據(jù)The Information披露相關(guān)文件表示,OpenAI已告知投資者,預(yù)計到2025年末,AI Agent及其他新產(chǎn)品的合計銷售額將超越ChatGPT。
與此同時,對比去年全年37億美元的營收, OpenAI預(yù)計今年的營收能達(dá)到127億美元,相比去年的營收估值足足增長了2倍以上。背后最重要的驅(qū)動力之一,就是AI Agent。
事實(shí)上,AI Agent的商業(yè)化爆發(fā)并非OpenAI獨(dú)享。以輔助編程為核心的“vibe coding”編輯器Cursor便是典型代表。
憑借多行智能重構(gòu)、代碼自動補(bǔ)全和代碼庫查詢等功能,Cursor付費(fèi)用戶已超36萬,最新估值較年初激增三倍。與此同時,曾引發(fā)全網(wǎng)“賬號搶購”熱潮的Manus,盡管被曝“出逃海外”,依然反映出AI Agent在垂直細(xì)分領(lǐng)域的極高用戶粘性。
AI Agent的興起,一方面得益于大模型底層性能的持續(xù)提升,另一方面則源自各垂直領(lǐng)域?qū)Χㄖ苹悄芄ぞ叩膭傂孕枨蟆_@種需求不僅使得Agent能夠更精準(zhǔn)、高效地服務(wù)專業(yè)場景,也催生了更強(qiáng)的用戶依賴。
但需要指出的是,AI Agent在實(shí)際應(yīng)用中通常面臨更高的Tokens消耗,這對創(chuàng)業(yè)公司尤其是資金實(shí)力有限者而言是沉重的壓力。Manus的“出逃”,一定程度上折射出了初創(chuàng)團(tuán)隊在高成本運(yùn)維與現(xiàn)金流壓力下的兩難境地。
此外,AI Agent本質(zhì)上是建立在大模型基座之上的“套殼”應(yīng)用,模型能力的天花板直接限制了Agent的性能上限。相較之下,OpenAI等頭部大模型廠商在底層模型研發(fā)上擁有明顯優(yōu)勢,也因此更具主導(dǎo)權(quán)和話語權(quán),這也解釋了為何它們不會放棄AI Agent的開發(fā)與布局。
由此可見,大模型商業(yè)化正加速向細(xì)分場景和專門化應(yīng)用遷移。另一個與之相佐證的趨勢在于,OpenAI對“大模型閉源”的保守態(tài)度開始出現(xiàn)了松動。
在GPT-5發(fā)布前夕,OpenAI時隔三年再次推出了兩款開源模型:gpt-oss-120b 和 gpt-oss-20b。這一動作不僅被外界視作GPT-5發(fā)布前的技術(shù)熱身,也被認(rèn)為是在試圖回應(yīng)業(yè)界對模型開源日益高漲的呼聲。
與此同時,GPT-5調(diào)用價格也被進(jìn)一步拉低,僅為前幾日發(fā)布的Claude Opus 4.1的1/15。當(dāng)模型迭代的平臺期和Agent商業(yè)化趨勢同時出現(xiàn),從“賣模型”轉(zhuǎn)向“賣能力”,大模型公司的產(chǎn)品重心正在發(fā)生實(shí)質(zhì)性轉(zhuǎn)變。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...