沒有Benchmark的機器人領域,正在產(chǎn)生大量的“非共識”。
去年的WRC(世界機器人大會),各家比拼的還是誰能更快地讓機器人走起來,到今年連續(xù)3天都爆火的展區(qū)內,硬件本體開始分化出不同的產(chǎn)品形態(tài)服務不同場景,以吸引落地和量產(chǎn)的可能,軟件算法則在VLA、端到端模型、仿真數(shù)據(jù)訓練等方面衍生出了多條技術路線。
由于沒有統(tǒng)一的標準,各家的嘗試可以說是天馬行空,甚至彼此相互不兼容,在核心路線上分道揚鑣。
這是一件很有意思,且極為重要的事。在任何一個新興行業(yè)的初期,非共識才是推動技術探索、尋找到*真理的引擎。這是一個創(chuàng)新曲線的必經(jīng)階段:在最初的模仿和復現(xiàn)后,必然會經(jīng)歷一個劇烈的發(fā)散期,然后緩慢收斂,再發(fā)散,再收斂,循環(huán)往復。真正的答案,正是在這一次次的發(fā)散和碰撞中被淬煉出來的。
我們和一些關鍵公司聊了聊,也盤點了一些公開的“喊話”,梳理出了幾個重要的充滿密集爭論的領域,這些正在激烈碰撞的“非共識”,或許正是下一個影響機器人領域的關鍵問題。
1、一、是算法不行,還是數(shù)據(jù)不夠?
8月9日,宇樹科技王興興在接受采訪時,提到了“相比于把精力都投入到采集數(shù)據(jù)上,基礎模型的優(yōu)化是更應該關注的問題”。作為2025年最為明星的本體制造廠商,王興興的發(fā)言迅速引起了行業(yè)的討論,到底是算法不行,還是數(shù)據(jù)不夠?
1、宇樹科技:比起普遍受關注的數(shù)據(jù),*的問題是模型問題
王興興(宇樹科技創(chuàng)始人):目前機器人行業(yè)對數(shù)據(jù)關注太多,對模型關注太少。現(xiàn)在*的問題是模型問題:當前的機器人模型架構不夠好、也不夠統(tǒng)一;即使有了大量高質量的數(shù)據(jù),訓練出來的模型依舊無法真正落地。機器人領域并不像大語言模型那樣純靠數(shù)據(jù)驅動:數(shù)據(jù)再多,部署到實物機器人上時偏差仍然非常大。
2、星海圖:數(shù)據(jù)決定了能不能上90分,模型決定了90到95分。
許華哲(星海圖聯(lián)合創(chuàng)始人):當前階段,模型不夠用的主要原因,是因為數(shù)據(jù)不夠。大語言模型證明了模型架構的差異,更多是決定能力從90分到95分的區(qū)別。但是,沒有數(shù)據(jù),模型能力永遠無法從59分突破到90分。數(shù)據(jù)決定了能力的下限和基礎,是幫你完成這個關鍵跨越的核心。
3、加速進化:硬件ready以后,才能死磕具身大模型
趙維晨(加速進化副總裁):大腦的算法可能是用簡單的傳統(tǒng)一點的算法,或者分層的大腦模型,保證先在一些場景落地來獲得數(shù)據(jù)。我認為VLA一定不是最終解,這還是基于Transformer的大語言模型那一套。具身模型是基于多模態(tài)的多維物理世界,一定會有原生的模型架構。
1、二、真實數(shù)據(jù)不夠,仿真數(shù)據(jù)能不能湊?
目前,行業(yè)普遍面臨的情況是,真實物理世界的數(shù)據(jù)稀缺、自采成本高、供應商又不夠健全,有一部分模型廠商選擇了視頻數(shù)據(jù)或者仿真數(shù)據(jù)進行訓練,比如銀河通用大量采用仿真數(shù)據(jù)進行訓練;也有一部分廠商堅持真實數(shù)據(jù),表示仿真數(shù)據(jù)起到的作用并不大。仿真數(shù)據(jù)到底能不能湊?
1、銀河通用:合成數(shù)據(jù)占99%,不會的人用不好合成數(shù)據(jù)
王鶴(銀河通用創(chuàng)始人):長期看,真實數(shù)據(jù)固然重要,但在具身智能發(fā)展的初期階段,合成數(shù)據(jù)是推動產(chǎn)業(yè)發(fā)展的關鍵數(shù)據(jù)資產(chǎn),占訓練數(shù)據(jù)的絕大部分(99%以上),而真實數(shù)據(jù)則用于補充和完成“最后一公里”的訓練。不會的人用不好合成數(shù)據(jù),所以有人會說什么仿真“有毒”。做好合成數(shù)據(jù),需要廠商有比較好的圖形學、物理仿真、物理渲染和自動動作合成管線,包括驗證閉環(huán)的一系列全套的基建,需要長期的積累和核心技術know-how。
2、自變量:手部復雜操作無法通過仿真數(shù)據(jù)來進化
王潛(自變量創(chuàng)始人兼CEO):我們在這個方面探索了十幾年,基本結論是,手部復雜操作無法通過仿真數(shù)據(jù)來進化。不過,導航、走路、高級任務推理和規(guī)劃更適合用仿真數(shù)據(jù),很多團隊的機器人走路都是在虛擬世界中訓練出來,然后遷移到真實世界中。此外,手部pick and place這樣的操作用仿真數(shù)據(jù)訓練也是完全沒問題的。當然我們也在廣泛使用互聯(lián)網(wǎng)視頻數(shù)據(jù)進行預訓練,但最核心的是現(xiàn)實生活中收集到的真實數(shù)據(jù),包括機器人和人工采集的數(shù)據(jù)。
3、智源研究院:走大模型路線,更多依靠互聯(lián)網(wǎng)數(shù)據(jù)
王仲遠(智源研究院院長):智源走的是大模型的路線,更多依靠的是互聯(lián)網(wǎng)數(shù)據(jù)幫助機器人學習智能。例如,今年春節(jié),我觀察一個小女孩是怎么學習的,她刷了很多短視頻,就學會了一系列復雜的操作,再通過實踐試錯糾正,這是強化學習的本質。學習海量已有的數(shù)據(jù),再通過強化學習和少量真實世界的數(shù)據(jù)不斷訓練它的能力,不斷突破具身智能的發(fā)展上限,這和大模型發(fā)展路線不謀而合,基礎能力到一定程度后通過強化學習進一步激發(fā)它的智能。
1、三、數(shù)據(jù)飛輪的起點:一萬小時是門檻還是幻想?
另一個重要的問題是需要多少數(shù)據(jù)、如何獲取高質量數(shù)據(jù),具體的做法也觀點不一,且普遍存在焦慮。有人樂觀的認為只要給到機器人有效、高質量的一萬小時數(shù)據(jù),機器人就能實現(xiàn)能力的涌現(xiàn),因此通過自采等方式構建數(shù)據(jù)集;但也有人認為數(shù)據(jù)遷移能力太差、類型太過單一,就算100w小時,也不會有更好的結果。
1、維他動力:決定涌現(xiàn)的關鍵是數(shù)據(jù)的多樣性,而不是數(shù)量。
大模型之所以能取得突破,是因為它吸收了全互聯(lián)網(wǎng)的數(shù)據(jù),并且不分語言種類,包括圖片、視頻、音頻等。這種海量、多樣的數(shù)據(jù),他們聚集為一體的時候,就產(chǎn)生了“智能涌現(xiàn)”的現(xiàn)象。我們的看法是,必須讓機器人在物理世界中探索,才能獲得足夠多樣且持續(xù)的場景數(shù)據(jù)這其中最重要的兩個場景就是戶外和家庭環(huán)境。戶外的核心能力在于機器人的移動能力,室內的核心能力在于機器人的操作能力。所以我們*機器人會選擇四足構型,讓用戶可以帶到室外,去采集高質量、多場景的數(shù)據(jù)。
2、星海圖:高質量的一萬小時是數(shù)據(jù)飛輪的起點,但現(xiàn)在所有公司加一起也沒有。
許華哲:我認同這個一萬小時這個說法。數(shù)據(jù)飛輪的啟動,正是在“千小時”到“萬小時”這個量級的跨越中發(fā)生的。但這里必須強調,這一萬小時必須是高質量的數(shù)據(jù)。數(shù)據(jù)的“質”遠比“量”更重要。如果數(shù)據(jù)是千篇一律的,同質性太高,那么它的價值就非常有限。高質量數(shù)據(jù)意味著它必須是多元的,能夠體現(xiàn)柔性物體的操作、具備場景的泛化性。我們現(xiàn)有的1000小時數(shù)據(jù),可能篩選后只有800小時是真正可用的。當然整個行業(yè)極度缺乏數(shù)據(jù)。把所有公司的數(shù)據(jù)加在一起“也沒多少”。
3、加速進化:輪+雙臂,操作100w個小時也是不可能的
趙維晨(加速進化副總裁):相比自動駕駛的單日上億條數(shù)據(jù),目前全國具身*開源數(shù)據(jù)集規(guī)模才百萬級別(不到10tb)。怎么可能輪加雙臂,操作弄個10萬小時,100w小時就能訓練出一個多模態(tài)的具身大腦,這是不可能的,最多只能驗證早期大腦的算法和框架。我們主要靠足球場景采集真實的物理數(shù)據(jù),并結合視頻合成數(shù)據(jù),通過最新的模仿學習加強化學習實現(xiàn)視覺信號直接輸入神經(jīng)網(wǎng)絡,驅動關節(jié)運動的“小腦下意識控制”,端到端的全身運動大模型。
1
四、端到端模型、VLA+VLM、世界模型...誰才是構建機器人“大腦”的最終路徑?
我們在WRC現(xiàn)場發(fā)現(xiàn),今年已經(jīng)開始出現(xiàn)概念被濫用的現(xiàn)象,包括何為“端到端”模型,也有一些廠商將訓練后的小模型也宣稱是VLA模型,當然從外部執(zhí)行層面很難分辨真?zhèn)�,實現(xiàn)方式和理念大相徑庭。如何構建機器人的“大腦”成為當前*的技術分歧點。
1、宇樹科技:VLA+RL不是*路線,世界模型的收斂方向更快。
王興興:目前相對比較火的就是VLA模型,它是一個相對比較傻瓜式的一個架構。我個人對VLA模型還是抱一個比較懷疑的態(tài)度。個人感覺就是在未來2到5年,其實*的肯定還是一個端到端的具身智能AI模型。這個其實是大家可以多關注,以及多推動的一件事,我覺得這是最重要的一件事。
許華哲:我們現(xiàn)階段采用的是一個分層系統(tǒng),上層是負責高階任務拆解的VLM,下層是負責執(zhí)行具體動作的VLA。VLM將一個抽象指令(如“鋪床”)拆解成具體的子任務(如“拉左邊被角”),然后交由VLA來理解和執(zhí)行。這種雙系統(tǒng)的優(yōu)勢在于效率更高,并且對復雜場景的推理能力更強。但分層與端到端最終是異曲同工的。行業(yè)的*形態(tài)應該是一個統(tǒng)一的端到端模型,但其內部會自然形成功能上的分化,我們現(xiàn)在的分層系統(tǒng),是通往最終統(tǒng)一模型的必經(jīng)之路。
3、自變量:做完整端到端的統(tǒng)一大模型。
王昊:我們公司的大模型技術路線是統(tǒng)一端到端的架構,*是追求性能:任何人為的模塊劃分,其實都是對信息的一種有損的壓縮,只有端到端的模型,才能在整體感知、決策、控制鏈條上,完成統(tǒng)一的處理,突破現(xiàn)有機器人系統(tǒng)性能的上限;第二是去擁抱scaling law,只要模型的架構是統(tǒng)一并且可擴展的,那么它的能力、智能水平,就會隨著模型的參數(shù)和訓練的數(shù)據(jù)量呈指數(shù)級的增長;第三只有端的端其實才能通向真正的通用性,不管是分層還是所謂的融合系統(tǒng),通用性都會被最弱的模塊所限制,而一個端到端模型。它學習的是關于物理世界以及交互的*性原理,這種知識是普世的,所以天然就具備了模型能夠向新任務、新場景、新的意念形態(tài)去泛化的一種潛力,超越了其他所有的期待的可能的技術方案。
4、越疆機器人:相比于做大腦,更重要的是操作系統(tǒng)
越疆不只在造機器人,更構建起一個具身智能的未來操作系統(tǒng),讓每個開發(fā)者訓練專屬智能體。這一平臺的核心在于能夠把協(xié)作機械臂、輪式機器人、人形及多足機器人聯(lián)動起來,實現(xiàn)“一套系統(tǒng),多形態(tài)操控”,形成海量數(shù)據(jù)湖。
1、五、軟件定義硬件,還是硬件定義軟件?
我們發(fā)現(xiàn),行業(yè)普遍陷入一種矛盾狀態(tài):算法開發(fā)者抱怨硬件性能和一致性不足,由于上一代機器人并不是服務于AI而產(chǎn)生的,大量軟件算法廠商正在創(chuàng)造新一代的本體;而硬件廠商則認為現(xiàn)有AI模型不夠智能。這場爭論的核心是:技術突破應由硬件引領,還是由軟件定義?
1、星海圖:根據(jù)模型的特性,去考慮硬件資源的投入方向
許華哲:硬件的形態(tài)、精度、配重等具體指標,都應該根據(jù)AI模型的能力來進行針對性優(yōu)化。舉一個典型的例子:傳統(tǒng)的機械臂追求極高的硬件精度,但如果AI模型本身就能適應和糾正一定的偏差,那么硬件上就沒有必要投入過高的成本去實現(xiàn)*的精度。核心是要根據(jù)模型的特性,來決定硬件資源應該投入在哪些關鍵點上,以及哪些方面可以由AI的能力來彌補,從而實現(xiàn)整體的*性價比。
2、越疆機器人、加速進化:機器人可能會重演手機的發(fā)展路徑
越疆機器人:人形機器人不會是一個產(chǎn)品,而是一個平臺級生態(tài)系統(tǒng)。越疆的策略是“軟硬一體、通用架構、場景優(yōu)先”,即先夯實硬件基礎(模組/控制器/執(zhí)行器),同時對接主流AI“大腦”,并與真實場景客戶共同打磨解決方案。我們認為人形機器人生態(tài)的演進路徑,大概率會重演智能手機的生態(tài)發(fā)展:1)先由硬件廠商帶動產(chǎn)業(yè)熱度;2)再由“大腦”和“應用”主導行業(yè)分層;3)最終形成開放協(xié)同、模塊互換的具身智能生態(tài)。
加速進化:現(xiàn)在硬件能構建壁壘,其實是代際壁壘,或者說門檻。比如新的關節(jié)我們研發(fā)出來,關節(jié)和齒輪之間背隙只有1公分,性價比又高,這個關節(jié)應用后我們就會定義成二代機。但長期來看硬件無法構成長期壁壘,可以參考手機。硬件以外,產(chǎn)品定義和設計是可以有更大壁壘,但還是不夠。這些都是創(chuàng)業(yè)團隊早期能構建的門檻,還達不到壁壘。
3、眾擎機器人:軟件、硬件不是單向關系,共同決定機器人的價值
硬件是機器人的物理載體,為軟件運行提供基礎支撐—從關節(jié)驅動、傳感器配置到能源供給,硬件的結構設計與性能參數(shù)直接影響軟件功能的實現(xiàn)邊界。而軟件則是機器人的“智能內核”,通過算法優(yōu)化、數(shù)據(jù)處理與指令輸出,激活硬件潛能,賦予其感知、決策與執(zhí)行能力。例如,擬人步態(tài)的流暢呈現(xiàn),既需要高精度伺服電機等硬件提供動力與控制基礎,也依賴運動控制算法等軟件實現(xiàn)姿態(tài)調整與路徑規(guī)劃,二者缺一不可。
4、源絡科技:不能照搬大模型的理念,現(xiàn)在要立刻能用,長期來看要通過與物理世界交互主動學習
連文昭(源絡科技創(chuàng)始人):具身智能有兩層含義,狹義的就是智能機器人,廣義的是用具身來解決通用智能。我們主張「用具身實現(xiàn)智能」——機器人應通過與物理世界交互主動學習,而非靠語言模型的堆砌。
這要求你要務實也要有理想。在務實層面,它必須立刻能用、好用,我們不做實驗室里的玩具。我們已經(jīng)能在生命科學場景中,完成過去只有人類才能勝任的長序列、高精度操作。在理想層面,我們有自研的通用平臺:機器人通過完成真實任務,收集高質量的多模態(tài)數(shù)據(jù),反過來用于迭代高階智能模型。
未來智能體不僅能通過圖靈測試,也能通過生存測試,在物理世界中獨立生存、工作、演化,這才是真正的通用人工智能。
1、六:開源到底“開”什么,為什么?
機器人行業(yè)陸續(xù)開始復現(xiàn)語言模型的開源生態(tài)路線,但在當下這個階段,開源需要開什么,為了什么?構建生態(tài)還是商業(yè)閉環(huán)?
許華哲:我認為,目前行業(yè)內由公司主導的開源存在很多問題。核心障礙主要有兩點:
開源不徹底:很多公司只開源硬件,軟件部分僅提供能讓硬件跑起來的基礎代碼,而不開放核心的數(shù)據(jù)和模型。
開源不可用:即便開源了,很多時候也因為文檔、代碼或數(shù)據(jù)質量問題,導致其他人很難真正用起來。例如,科研領域的開源數(shù)據(jù),也常常存在標注粗糙、錯誤多等問題。
真正的開源,應該是把我們自己內部使用的、經(jīng)過驗證的數(shù)據(jù)和模型權重開出去,讓大家拿到手就能用,能在此基礎上進行微調和二次開發(fā)。我們希望通過這種方式,與行業(yè)合力構建一個真正開放、繁榮的生態(tài)。
2、自變量:具身模型依賴于硬件,模型效果很難復現(xiàn)
王潛:大家只會做模型的開源,是不會做數(shù)據(jù)開源的。所以這肯定是個偽命題。模型的開源由于有跨本體泛化的問題,也是不太能大規(guī)模用起來的。
王昊(自變量CTO):當然更多是存在這種假開源或者不徹底的開源,典型的比如開源模型,但是不開源數(shù)據(jù),模型效果很難復現(xiàn)。第二是開源數(shù)據(jù),但是質量非常差,或者規(guī)模非常小,那這就是一種技術營銷,或者是一種學術貢獻,并不是真正意義上的生態(tài)共享。第三是因為具身模型是依賴于硬件的。即使模型開源,硬件系統(tǒng)完全閉源,而且是特定的硬件系統(tǒng),其他的硬件公司可能也很難利用上這些模型。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...