8月10日,2025 世界機(jī)器人大會(huì)在北京舉行。智元機(jī)器人合伙人兼具身業(yè)務(wù)部總裁姚卯青在會(huì)議上發(fā)表了題為《通向具身智能大規(guī)模突破之路——智元的本體數(shù)據(jù)算法飛輪》的演講,系統(tǒng)闡述了智元在具身智能領(lǐng)域的探索成果與未來(lái)方向。
姚卯青介紹,上海智元機(jī)器人成立于 2023 年 2 月,自創(chuàng)立起便致力于推動(dòng) AI 與機(jī)器人的深度融合。至今,智元已取得一系列扎實(shí)成果:發(fā)布全系列多款機(jī)器人產(chǎn)品,建成規(guī)模化生產(chǎn)產(chǎn)線與機(jī)器人訓(xùn)練場(chǎng)數(shù)據(jù)采集中心,在具身智能相關(guān)算法領(lǐng)域?qū)崿F(xiàn)多項(xiàng)創(chuàng)新,并在多個(gè)實(shí)際應(yīng)用場(chǎng)景完成探索驗(yàn)證,為技術(shù)落地筑牢根基。
姚卯青強(qiáng)調(diào),機(jī)器人企業(yè)要讓軟硬件產(chǎn)品在行業(yè)有效落地,核心在于構(gòu)建 “本體 - 數(shù)據(jù) - 模型 - 場(chǎng)景” 緊密耦合的全棧布局。這四者形成相互驅(qū)動(dòng)的飛輪迭代邏輯:優(yōu)質(zhì)本體產(chǎn)生高質(zhì)量數(shù)據(jù),海量高質(zhì)量數(shù)據(jù)支撐算法持續(xù)突破,算法結(jié)合場(chǎng)景試錯(cuò)后,又為本體優(yōu)化、數(shù)據(jù)采集方向、算法迭代提供新指引。這種閉環(huán)循環(huán)不斷加速,未來(lái)智元將分享更多飛輪迭代成果。
“進(jìn)入飛輪循環(huán)的首個(gè)挑戰(zhàn)是數(shù)據(jù)。”姚卯青指出,與大語(yǔ)言模型從業(yè)者不同,機(jī)器人從業(yè)者需直面物理世界強(qiáng)交互特性,既要調(diào)試硬件,又要將模型部署到工業(yè)級(jí)系統(tǒng)測(cè)試,這使得數(shù)據(jù)需求與互聯(lián)網(wǎng)數(shù)據(jù)存在本質(zhì)差異。
“然而,現(xiàn)有互聯(lián)網(wǎng)數(shù)據(jù)對(duì)機(jī)器人訓(xùn)練遠(yuǎn)遠(yuǎn)不夠,” 姚卯青解釋道,“機(jī)器人需要大量動(dòng)作類、長(zhǎng)程規(guī)劃類數(shù)據(jù),這類數(shù)據(jù)在網(wǎng)絡(luò)上極為稀缺。” 為此,智元希望 “種下第一棵樹”,吸引更多同行加入數(shù)據(jù)建設(shè),共同形成數(shù)據(jù)海洋,目前這一探索已取得階段性成果。
為破解數(shù)據(jù)難題,智元于2024年底開源了AgiBot World百萬(wàn)真機(jī)數(shù)據(jù)集。姚卯青表示,該數(shù)據(jù)集旨在提供工業(yè)級(jí)高質(zhì)量數(shù)據(jù)支撐,包含百萬(wàn)條機(jī)器人數(shù)軌跡,每條數(shù)據(jù)都經(jīng)過多輪審核,確保場(chǎng)景貼近現(xiàn)實(shí)、任務(wù)復(fù)雜多樣。
姚卯青還表示,AgiBot World數(shù)據(jù)集只是起點(diǎn),智元在數(shù)據(jù)采集方式上有兩項(xiàng)關(guān)鍵創(chuàng)新:
對(duì)抗式采集數(shù)據(jù):在常規(guī)數(shù)據(jù)采集過程中主動(dòng)引入干擾,例如改變語(yǔ)言指令、制造視覺擾動(dòng)等,以此提升數(shù)據(jù)信息密度。實(shí)踐證明,這種方式能提供數(shù)倍于常規(guī)數(shù)據(jù)的信息量,有效加快機(jī)器人訓(xùn)練收斂速度,且已在多任務(wù)和多構(gòu)型機(jī)器人上驗(yàn)證效果。
自主進(jìn)化式的數(shù)據(jù)采集:針對(duì)機(jī)器人在真實(shí)環(huán)境中自主執(zhí)行任務(wù)時(shí)難以提前枚舉的 “長(zhǎng)尾失效” 問題,智元引入自主進(jìn)化式采集方案。 當(dāng)機(jī)器人執(zhí)行任務(wù)失效瞬間,系統(tǒng)自動(dòng)接管并打斷進(jìn)程,回退到失效前狀態(tài),再通過人工接管完成數(shù)據(jù)采集。這一方式能將難場(chǎng)景下的高價(jià)值數(shù)據(jù)補(bǔ)充到訓(xùn)練集,有效拓展數(shù)據(jù)分布邊界,依托數(shù)據(jù)擴(kuò)增提升機(jī)器人能力上限,其邏輯類似 Dagger 算法框架。
姚卯青說(shuō),圍繞數(shù)據(jù)消費(fèi),智元于今年 3 月推出具身智能基座模型GO-1 。該模型在架構(gòu)上實(shí)現(xiàn)雙重創(chuàng)新:依托 VLM 基礎(chǔ)模型和 MOE 混合專家架構(gòu),其中 “隱式動(dòng)作專家” 融合多源數(shù)據(jù)形成通用動(dòng)作表達(dá),“顯式動(dòng)作專家” 則將通用描述精準(zhǔn)落實(shí)到特定本體控制,讓機(jī)器人既能從人類視角學(xué)習(xí)動(dòng)作規(guī)律,又能掌握物理世界交互邏輯。
姚卯青指出,GO-1 模型發(fā)布后,其在生活、零售、工業(yè)三大場(chǎng)景的評(píng)測(cè)中表現(xiàn)尤為亮眼。相較于 3 月時(shí)的海內(nèi)外開源模型,成功率提升 10%-30%。同時(shí),智元發(fā)布的AgiBot World數(shù)據(jù)集,能夠很好的驗(yàn)證 Scaling Law,研究揭示了預(yù)訓(xùn)練關(guān)鍵規(guī)律:數(shù)據(jù)量、多樣性及質(zhì)量對(duì)模型性能影響顯著,且實(shí)驗(yàn)證明,單一本體預(yù)訓(xùn)練數(shù)據(jù)的后訓(xùn)練遷移效果優(yōu)于多本體數(shù)據(jù)。這表明,機(jī)器人預(yù)訓(xùn)練的核心在于數(shù)據(jù)場(chǎng)景的多樣性、質(zhì)量,以及適配的模型設(shè)計(jì)。
“除 GO-1外,智元團(tuán)隊(duì)深耕世界模型方向,秉持 “生成理解一體化” 理念。正如人類做事前會(huì)在腦海中規(guī)劃推演,機(jī)器人也需依托世界模型精準(zhǔn)推演,縮短與實(shí)際操作的差距。測(cè)試顯示,在智元自身本體的多任務(wù)測(cè)試中,GE-Act 效果優(yōu)于近期開源的 UniVLA 和 NVIDIA 的 GR00T 模型;針對(duì)跨本體遷移能力,以AgiBot World數(shù)據(jù)集訓(xùn)練的 GE-Base 模型,在 Franka 等本體上表現(xiàn)優(yōu)異,在開源 Benchmark 和真機(jī)測(cè)試中,成功率顯著高于現(xiàn)有開源模型。”姚卯青說(shuō)
姚卯青強(qiáng)調(diào),基于世界模型生成的動(dòng)作,智元機(jī)器人能完成疊衣服、組裝紙盒等復(fù)雜雙臂靈巧操作,也能在工業(yè)傳送帶上精準(zhǔn)執(zhí)行物體抓取和打包任務(wù)。值得注意的是,相較于 VLA 等短時(shí)序輸入輸出模型,具備長(zhǎng)時(shí)序推演能力的 GE-Act 在動(dòng)態(tài)場(chǎng)景抓取定位精度上優(yōu)勢(shì)明顯。
GE-Sim 以動(dòng)作序列為輸入,如同高精度仿真器,能在雜亂真實(shí)環(huán)境中渲染畫面,且具備時(shí)空一致性和語(yǔ)義合理性。對(duì)比測(cè)試顯示,其與真實(shí)機(jī)器人的推理效果高度一致,量化成功率接近。姚卯青說(shuō),依托該仿真器,可快速迭代機(jī)器人策略,極大縮短模型研發(fā)周期,減少實(shí)際評(píng)測(cè)中的復(fù)雜流程與損失。
姚卯青表示,為規(guī)范世界模型評(píng)測(cè),智元推出 GE Bench 并已在 GitHub 和 HuggingFace 開源,成為 IROS 世界模型挑戰(zhàn)賽的重要準(zhǔn)備工具。 該 Benchmark 從軌跡遵循度、語(yǔ)義合理性、因果一致性等多維度評(píng)估模型,而基于機(jī)前數(shù)據(jù)預(yù)訓(xùn)練的 GE-Base 模型,在各維度表現(xiàn)均優(yōu)于主流視頻生成類模型。
姚卯青分享了智元在機(jī)器人研發(fā)中的實(shí)踐心得:機(jī)器人本質(zhì)要回歸執(zhí)行器,優(yōu)質(zhì)執(zhí)行器是性能基礎(chǔ);傳感器雖重要,但調(diào)教與量產(chǎn)一致性是行業(yè)難題;若聚焦單一機(jī)器人類型,人形是較合理的選擇;具身智能應(yīng)是 “機(jī)器人 + AI”,需深度結(jié)合硬件本體;此外,必須追求量產(chǎn)和一致性,以減少各環(huán)節(jié)誤差。
姚卯青表示,智元計(jì)劃將上述 “苦澀教訓(xùn)” 融入飛輪迭代,并于今年下半年推出新一代機(jī)器人 AgiBot G2。該平臺(tái)采用更靈巧的本體設(shè)計(jì),對(duì)傳感器、執(zhí)行器提出更高標(biāo)準(zhǔn),搭載英偉達(dá) Thor 高算力量產(chǎn)域控制器,被定義為 “工業(yè)級(jí)交互式具身智能作業(yè)全球標(biāo)桿平臺(tái)”,引發(fā)行業(yè)廣泛關(guān)注。
姚卯青強(qiáng)調(diào),“數(shù)據(jù) - 模型 - 本體 - 場(chǎng)景” 飛輪的轉(zhuǎn)動(dòng),最終是為賦能千行百業(yè)。過去一年,智元在多場(chǎng)景取得突破:柔性制造中,用具身智能解決專業(yè)設(shè)備無(wú)法應(yīng)對(duì)的高精度、力控、泛化性操作問題;物流分揀上,具身智能通用機(jī)器人與專用設(shè)備配合,處理傳統(tǒng)視覺定位 + 規(guī)劃難以完成的雜亂物品分揀;此外,還實(shí)現(xiàn)了安檢崗點(diǎn)人力清零、電力通信機(jī)房巡檢操作等場(chǎng)景的人力替代與降本增效。
“具身智能賽道廣闊,” 姚卯青呼吁,“希望全球同行攜手,共同探索這一智能邊疆,讓技術(shù)真正創(chuàng)造價(jià)值。”
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...