1950年,圖靈在其論文《計(jì)算機(jī)器與智能》中,首次提出具身智能維形,為后來具身智能發(fā)展奠定了理論基礎(chǔ),同時他還預(yù)見了兩條可能的發(fā)展路徑。
一條是“做題家”路線——專注抽象計(jì)算,比如下棋、解數(shù)學(xué)題,現(xiàn)在的ChatGPT、AlphaGo都是這條路上的“學(xué)霸”;另一條是“實(shí)干派”路線——讓機(jī)器像嬰兒一樣,靠看、聽、摸感知世界,在互動中學(xué)習(xí),這就是今天的“具身智能”。
70多年過去,“做題家”們靠著大語言模型火出了圈,但輪到“實(shí)干派”機(jī)器人上場時,問題來了:讓ChatGPT寫篇文案不難,可讓機(jī)器人在你家客廳避開拖鞋、準(zhǔn)確撿起遙控器,難如登天。
這就陷入了“莫拉維克悖論”,實(shí)現(xiàn)邏輯推理等人類高級智慧的能力對計(jì)算機(jī)來說只需要相對較少的計(jì)算資源,而實(shí)現(xiàn)感知、運(yùn)動等低等級智慧卻需要巨大的計(jì)算資源。
畢竟,真實(shí)世界從來沒有“標(biāo)準(zhǔn)答案”——地板可能滑、光線會變化,連你隨手放的水杯都可能讓機(jī)器人“卡殼”。
具身智能必須跨越“三道關(guān)口”
具身智能的終極目標(biāo),是讓機(jī)器人像人一樣在真實(shí)世界“生存”。但這條路,比想象中難太多。特別是在理解力、聯(lián)想力和交互能力等方面,仍然未能完全滿足公眾的期望。
綜合來看,具身智能在其發(fā)展過程中面臨著多項(xiàng)挑戰(zhàn),這些挑戰(zhàn)源自于其發(fā)展過程中的復(fù)雜性和不斷變化的需求。
首先,是要搞定亂糟糟的真實(shí)世界,適應(yīng)非結(jié)構(gòu)化真實(shí)環(huán)境。傳統(tǒng)人工智能習(xí)慣了“按劇本演戲”,比如工廠流水線上,只要零件位置固定,機(jī)械臂就能精準(zhǔn)操作�?删呱碇悄軝C(jī)器人要面對的是“無劇本現(xiàn)場”,比如家里的貓突然跑過、超市貨架被顧客碰歪、工地上突然刮風(fēng)等等。
具身智能在這種環(huán)境中,信息的稀缺和場景的多變性,要求人工智能系統(tǒng)具備更加先進(jìn)和靈活的計(jì)算能力,以便能夠適應(yīng)環(huán)境的不斷變化和不確定性。這不僅是一個數(shù)據(jù)處理的問題,更是對人工智能系統(tǒng)感知和適應(yīng)能力的全面考驗(yàn)。
其次,要發(fā)展更高級的認(rèn)知策略,學(xué)會多感官聯(lián)動。人類之所以厲害,是因?yàn)槟芡瑫r用眼睛看、耳朵聽、手觸摸,把信息“揉”在一起理解世界。比如看到一杯水,摸一下就知道燙不燙,不用先去查“水溫標(biāo)準(zhǔn)”。
具身智能同樣需要模仿這種高效的多模態(tài)融合過程,以更全面地理解和適應(yīng)其所處的環(huán)境。這包括但不限于對三維空間中物體的精確識別和定位,以及對環(huán)境變化和內(nèi)在聯(lián)系的動態(tài)捕捉。
此外,具身智能還需要超越傳統(tǒng)的計(jì)算模型對靜態(tài)數(shù)據(jù)處理,發(fā)展出對事物的動態(tài)變化和相互關(guān)系的深層次理解。這不僅關(guān)系到對時間和空間信息的處理,還涉及到理解其他生物(尤其是人類)的意圖和行為動機(jī),從而實(shí)現(xiàn)更自然、更智能的人機(jī)協(xié)同。
第三,要補(bǔ)上人類同款的思考力�,F(xiàn)在的機(jī)器人,更像高級工具——你說“掃地”,它就掃;你沒說,它不會主動想到“今天該擦窗了”,問題出在元認(rèn)知能力上——即對信息處理過程本身的監(jiān)控和反思能力。簡單說,就是反思自己在做什么。人類會想“剛才記的事對不對”“這個方法好不好用”,但機(jī)器人還不會。比如你讓它“把紅色杯子放桌上”,它可能把粉色杯子當(dāng)成紅色遞過來,還自信滿滿。
更關(guān)鍵的是終身學(xué)習(xí)的能力。人類小時候?qū)W過走路,長大后學(xué)騎自行車一點(diǎn)不費(fèi)勁,可機(jī)器人換個場景就可能失憶。在工廠學(xué)會擰螺絲,到家里擰瓶蓋可能就傻眼了。想讓機(jī)器人真能獨(dú)當(dāng)一面,還得讓它們像人一樣,越用越聰明。
目前,具身智能在靈活性和應(yīng)變能力方面,尤其是在多變的實(shí)際應(yīng)用環(huán)境中,仍處于初級探索階段。要實(shí)現(xiàn)這一目標(biāo),具身智能不僅需要具備強(qiáng)大的決策和控制能力,還需對各種任務(wù)有深入的理解和精準(zhǔn)的規(guī)劃。
當(dāng)前的人工智能系統(tǒng)主要依賴于算法和數(shù)據(jù)驅(qū)動的學(xué)習(xí)方法,但在實(shí)時學(xué)習(xí)和處理大量數(shù)據(jù)方面存在局限。因此,為了更好地適應(yīng)復(fù)雜環(huán)境,具身智能需要突破這些限制,向生物體那樣的自然和連續(xù)學(xué)習(xí)模式邁進(jìn)。
撕掉“機(jī)械執(zhí)行”標(biāo)簽
如果說,具身智能是機(jī)器人的“靈魂”,那感知層就是它連接現(xiàn)實(shí)的“第一道門”。這一層的核心任務(wù),是把雜亂無章的物理世界轉(zhuǎn)化為機(jī)器能理解的數(shù)字信號,就像人類用眼睛看、耳朵聽、皮膚感知溫度一樣,它的秘訣在于多模態(tài)傳感器融合和動態(tài)環(huán)境建模兩項(xiàng)關(guān)鍵技術(shù)。
多模態(tài)傳感器融合讓機(jī)器人“五感全開”。人類通過視覺、聽覺、觸覺等多種感官認(rèn)識世界,機(jī)器人則靠“傳感器軍團(tuán)”實(shí)現(xiàn)這一點(diǎn)。
視覺上,雙目攝像頭和3D激光雷達(dá)能捕捉物體的形狀、位置甚至紋理;觸覺上,柔性電子皮膚能感知壓力和溫度,就像機(jī)器人的“指尖神經(jīng)”;力覺傳感器則能精準(zhǔn)測量關(guān)節(jié)受力,避免動作過大損壞物體。
比如特斯拉Optimus機(jī)器人,其搭載了28個關(guān)節(jié)傳感器,這些傳感器能夠精確感知機(jī)器人關(guān)節(jié)的運(yùn)動狀態(tài)和受力情況。同時,配合先進(jìn)的視覺神經(jīng)網(wǎng)絡(luò),0ptimus機(jī)器人能夠?qū)χ車h(huán)境中的物體進(jìn)行識別和定位,實(shí)現(xiàn)毫米級的物體定位精度,從而使其在復(fù)雜的環(huán)境中能夠準(zhǔn)確地執(zhí)行各種任務(wù),如抓取特定物體、避開障礙物等。
動態(tài)環(huán)境建模讓機(jī)器人“畫”出實(shí)時地圖。真實(shí)世界永遠(yuǎn)在變化:倉庫里的貨架會被移動,客廳里的拖鞋可能被踢到新位置,馬路上的行人更是隨時改變路線。這就需要機(jī)器人能“邊走邊畫地圖”,并預(yù)測障礙物的動向——這正是SLAM(同步定位與地圖構(gòu)建)技術(shù)的功勞。
比如物流倉庫的配送機(jī)器人,它能通過SLAM實(shí)時構(gòu)建三維空間模型,結(jié)合強(qiáng)化學(xué)習(xí)算法預(yù)測其他機(jī)器人或工人的行走軌跡。這項(xiàng)技術(shù)讓機(jī)器人在復(fù)雜場景中的路徑規(guī)劃成功率從75%飆升到92%,再也不會像無頭蒼蠅一樣在貨架間打轉(zhuǎn),大大提升了配送效率。
光有“感知”還不夠,機(jī)器人還得學(xué)會“思考”,這就是認(rèn)知層的任務(wù)。它接收來自感知層的原始數(shù)據(jù),經(jīng)過分析、決策,最終生成行動指令,相當(dāng)于給機(jī)器人裝上了“會推理的大腦”,它主要包括分層決策架構(gòu)和世界模型構(gòu)建兩個關(guān)鍵部分。
分層決策架構(gòu)把復(fù)雜任務(wù)拆成“積木”。面對“整理桌面”這樣的指令,人類會自然拆解為“識別物品→規(guī)劃擺放順序→動手整理”,機(jī)器人也需要類似的邏輯。以O(shè)penAI的Figure 01為例,采用了一種高效的策略控制系統(tǒng)、環(huán)境交互系統(tǒng)和行為控制系統(tǒng)的分層設(shè)計(jì)。
策略控制系統(tǒng)先“讀懂”指令,“整理桌面”意味著要把散亂的文件、杯子分類歸位。
環(huán)境交互系統(tǒng)結(jié)合感知層的數(shù)據(jù)“制定步驟”,先撿離自己最近的杯子,再疊好文件,避開桌上的筆記本電腦。
行為控制系統(tǒng)最后“翻譯”成動作,控制機(jī)械臂彎曲角度、調(diào)整移動軌跡,確保每個動作精準(zhǔn)執(zhí)行。
這種“拆解-執(zhí)行”模式,讓機(jī)器人能應(yīng)對多步驟復(fù)雜任務(wù),而不是只會做單一指令的工具人。
世界模型讓機(jī)器人像孩子一樣“積累經(jīng)驗(yàn)”。人類的智慧來自于“經(jīng)驗(yàn)歸納”——小時候摸過熱水杯,就知道燙的東西不能碰;機(jī)器人也需要通過互動建立自己的知識庫,這就是世界模型的作用。
通過模擬人類認(rèn)知發(fā)展過程,機(jī)器人在與環(huán)境的不斷交互中,逐步建立起“物體屬性-空間關(guān)系-因果邏輯”的知識庫。
就像兒童在成長過程中通過觸碰不同溫度的物體,逐漸感知到“熱”與“冷”的概念。機(jī)器人在反復(fù)抓取不同物體后,會自主總結(jié)出規(guī)律:表面光滑的玻璃杯子要輕握,棱角分明的積木可以稍用力;溫度超過70℃的物體需要戴“隔熱手套”。這種“物體屬性→行動策略”的映射,讓機(jī)器人越來越“懂”世界,遇到新物體時也能快速找到應(yīng)對方法,就像人類觸類旁通的能力。
認(rèn)知層的決策最終要靠行動落地,行動層就是機(jī)器人的“執(zhí)行終端”——它既要讓機(jī)器人動得靈活,又要保證和人類協(xié)作時的安全,它主要涉及仿生驅(qū)動技術(shù)和人機(jī)共融安全設(shè)計(jì)兩個方面。
想讓機(jī)器人像人類一樣跑跳、抓取,就得模仿生物的運(yùn)動機(jī)制。波士頓動力的Atlas機(jī)器人用液壓伺服系統(tǒng)提供強(qiáng)大動力,能完成2.5米高跳,在崎嶇地面上健步如飛;越疆Dobot的靈巧手更厲害,12個自由度的設(shè)計(jì)讓它能擰螺絲、疊紙船,操作誤差小于0.1毫米,能夠讓其在精密制造和手術(shù)領(lǐng)域大顯身手。
當(dāng)機(jī)器人走進(jìn)家庭、醫(yī)院,“不傷人”是底線。行動層的安全設(shè)計(jì)暗藏玄機(jī):力控傳感器能實(shí)時監(jiān)測接觸力度,一旦超過5N(大約相當(dāng)于拿起一個蘋果的力氣),緊急停機(jī)算法會在0.2秒內(nèi)讓機(jī)器人“凍住”;柔性外殼則像給機(jī)器人套上“防撞墊”,就算不小心碰到老人或孩子,也不會造成傷害。
從感知層的“捕捉世界”,到認(rèn)知層的“理解世界”,再到行動層的“改造世界”,這三層架構(gòu)讓機(jī)器人逐漸擺脫“機(jī)械執(zhí)行”的標(biāo)簽,向“能感知、會思考、善行動”的智能體進(jìn)化。
具身智能遭遇“成長的煩惱”
“在實(shí)驗(yàn)室是學(xué)霸,到了現(xiàn)實(shí)就變學(xué)渣”,這是當(dāng)前具身智能最突出的痛點(diǎn)。
研究數(shù)據(jù)顯示,現(xiàn)有模型在非訓(xùn)練場景中的任務(wù)完成率僅為65%。以機(jī)器人抓取任務(wù)為例,經(jīng)過大量訓(xùn)練的機(jī)器人,面對未在訓(xùn)練集中出現(xiàn)過的物體擺放角度時,抓取成功率會大幅下降。
根源在于,模型難以將特定場景下學(xué)到的知識和技能,有效遷移到全新的、多樣化的場景中,就像學(xué)生只會做例題,換個題型就束手無策。
為了打破這一困局,研究人員將希望寄托于小樣本學(xué)習(xí)與元學(xué)習(xí)技術(shù)。小樣本學(xué)習(xí)讓模型在少量樣本中快速適應(yīng)新任務(wù),元學(xué)習(xí)則專注于“學(xué)習(xí)如何學(xué)習(xí)”,幫助模型掌握新任務(wù)的學(xué)習(xí)策略。兩種技術(shù)雙管齊下,正逐步提升機(jī)器人在不同場景中的“舉一反三”能力。
即便解決了泛化問題,能耗與成本仍是橫亙在具身智能大規(guī)模應(yīng)用前的兩座大山。當(dāng)前主流人形機(jī)器人的續(xù)航普遍不足2小時,這在物流配送等需要長時間作業(yè)的場景中,意味著頻繁充電會嚴(yán)重拖慢效率。
而成本問題更讓人卻步:核心部件如伺服電機(jī)、精密減速機(jī)等大多依賴進(jìn)口,單臺機(jī)器人成本超過50萬元,讓許多企業(yè)和個人望而卻步。
破局之道已在探索中。能耗優(yōu)化方面,新型電池技術(shù)和高效能源管理系統(tǒng)的研發(fā),正致力于延長機(jī)器人續(xù)航;成本控制方面,一方面加大核心部件自主研發(fā),推動國產(chǎn)化替代,另一方面通過優(yōu)化生產(chǎn)工藝和供應(yīng)鏈,從源頭降低成本。
隨著具身智能在醫(yī)療、交通等關(guān)鍵領(lǐng)域的滲透,倫理與安全問題日益凸顯。
人機(jī)協(xié)作中的權(quán)責(zé)劃分至今模糊:醫(yī)療手術(shù)中若機(jī)器人誤操作致患者受傷,責(zé)任該歸制造商、醫(yī)生還是醫(yī)院?更復(fù)雜的是道德困境——自動駕駛汽車面臨緊急情況時,該如何做出符合倫理的決策?
這些問題的答案,藏在技術(shù)標(biāo)準(zhǔn)與法規(guī)體系的完善中。明確人機(jī)協(xié)作的權(quán)責(zé)關(guān)系,規(guī)范機(jī)器人設(shè)計(jì)、生產(chǎn)和使用的全流程,才能確保技術(shù)創(chuàng)新始終走在安全與倫理的軌道上。
三大方向改變具身智能成長軌跡
技術(shù)的突破從不因困境而止步,具身智能的未來正呈現(xiàn)三大清晰方向。
多模態(tài)大模型融合是具身智能未來發(fā)展的重要方向。以Google RT-2等端到端模型為代表,通過在互聯(lián)網(wǎng)上的海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,這些模型能夠?qū)W習(xí)到豐富的通用概念,并將其轉(zhuǎn)化為機(jī)器人的動作指令。
RT-2模型可以讓機(jī)器人理解“把紅色杯子放到桌子上”這樣的自然語言指令,并通過視覺識別找到對應(yīng)的物體,完成抓取和放置動作,大大提高了機(jī)器人與人類交互的效率和靈活性。
在面對新任務(wù)時,它們僅需少量樣本即可快速適配,展現(xiàn)出強(qiáng)大的泛化能力和語義理解能力。這種融合模式推動具身智能從“專用”走向“通用”,使機(jī)器人能夠處理更加復(fù)雜多樣的任務(wù)。
其次,輕量化硬件創(chuàng)新對于提升具身智能的性能和降低成本具有重要意義。
仿生肌肉驅(qū)動技術(shù)模仿生物肌肉的工作原理,為機(jī)器人提供更加靈活和高效的動力輸出,同時降低能耗。神經(jīng)形態(tài)林片則模擬人類大腦的神經(jīng)元結(jié)構(gòu)和工作方式,具有低功耗、高并行性的特點(diǎn),能夠顯著提高機(jī)器人的計(jì)算效率和響應(yīng)速度。
預(yù)計(jì)到2028年,隨著這些技術(shù)的不斷成熟和應(yīng)用,人形機(jī)器人的續(xù)航能力將突破6小時,成本有望降至20萬元以下。這將為人形機(jī)器人在家庭、服務(wù)等領(lǐng)域的大規(guī)模應(yīng)用奠定基礎(chǔ),使其能夠更加廣泛地融入人們的日常生活。
虛實(shí)協(xié)同進(jìn)化是具身智能發(fā)展的又一重要趨勢。通過數(shù)字孿生技術(shù),在虛擬環(huán)境中構(gòu)建與現(xiàn)實(shí)世界1:1映射的虛擬模型,機(jī)器人可以在虛擬環(huán)境中進(jìn)行百萬次的訓(xùn)練,快速學(xué)習(xí)和優(yōu)化各種技能。
之后,結(jié)合現(xiàn)實(shí)場景中的實(shí)際數(shù)據(jù)進(jìn)行微調(diào),進(jìn)一步提高機(jī)器人在真實(shí)環(huán)境中的任務(wù)執(zhí)行能力。這種虛實(shí)結(jié)合的訓(xùn)練方式使機(jī)器人習(xí)得技能的效率提升10倍以上。
例如,在工業(yè)制造中,機(jī)器人可以先在虛擬環(huán)境中進(jìn)行復(fù)雜裝配任務(wù)的模擬訓(xùn)練,優(yōu)化操作流程和動作路徑,然后在實(shí)際生產(chǎn)中準(zhǔn)確高效地完成任務(wù),減少試錯成本,提高生產(chǎn)效率和產(chǎn)品質(zhì)量。
具身智能不僅是人工智能技術(shù)邁入物理世界的重要形態(tài),更是人工智能從“云端”走向“實(shí)體”的關(guān)鍵跨越。當(dāng)智能體具備感知溫度、理解意圖、靈活應(yīng)變的能力,其角色將從“工具”轉(zhuǎn)變?yōu)?ldquo;協(xié)作伙伴”。
在這場重塑人機(jī)關(guān)系的技術(shù)革命中,具身智能正掀開“智能體物理化”的新篇章,預(yù)示著一個機(jī)器能“理解、適應(yīng)、共創(chuàng)”的未來即將到來。當(dāng)每一個深處其中的人,都從“炫技亢奮”回歸到“問題敬畏”,或許才是未來的真正起點(diǎn)。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...