日韩?v高清在线免费观看,国产成人亚洲综合无码99
首頁 > 資訊 > 數(shù)字化

大模型+自動駕駛,發(fā)展到什么階段了

2023/11/01 14:52      微信公眾號:險峰創(chuàng) 險峰


  上個月,馬斯克乘坐一輛搭載了FSD V12自動駕駛系統(tǒng)的Model S,進行了一場45分鐘直播,雖然中間也出現(xiàn)了一些小插曲(比如差點闖了紅燈),但整體效果依然非常驚艷。

  視頻中,這輛Model S能夠輕松繞過障礙物,識別道路各種標志,按照馬斯克的說法,這些操作從頭到尾都是通過端到端AI神經(jīng)網(wǎng)絡實現(xiàn)的,而非預先編程。

  特斯拉的進展會給國內(nèi)智駕行業(yè)帶來哪些啟發(fā)?我們距離自動駕駛的終局還有多遠?本期險峰主題沙龍,我們將和幾位行業(yè)專家與初創(chuàng)公司CEO,一起聊聊大模型+自動駕駛的未來。

  我們請到了:

  楊   洋  覺非科技智能駕駛副總裁

  安向京  行深智能創(chuàng)始人

  柴思遠  智譜AI解決方案總監(jiān)

  溫力成  上海人工智能實驗室研究員

  我們聊到了:

  特斯拉的巨大成功,會讓純視覺顛覆掉激光雷達嗎?

  國內(nèi)廠家和特斯拉的差距有多少?未來能否追得上?

  大模型上車,還有哪些障礙?

  大模型對汽車智能化的影響,會有什么機會點?

  特斯拉會是自動駕駛的終局嗎?

  本次活動由險峰投資人徐真主持,為了保證內(nèi)容質(zhì)量,我們對嘉賓進行了匿名整理,并打亂了發(fā)言順序,請勿對號入座。

  也歡迎更多朋友加入險峰社群,一起探討大模型+自動駕駛的新方向。

  01、特斯拉的巨大成功,會讓純視覺顛覆掉激光雷達嗎?

  險峰:先聊一個老生常談的問題,當初特斯拉選擇了純視覺路線,是因為激光雷達的成本太高,但是國內(nèi)廠商普遍還是選擇了攝像頭+激光雷達的組合,那么這次FSD V12的成功,會不會讓國內(nèi)廠家也放棄掉激光雷達的路線?

  A:我覺得一定會,因為特斯拉已經(jīng)把這條路走通了,大家沒有不跟的道理。

  這和GPT的發(fā)展邏輯類似:今年國內(nèi)大語言模型創(chuàng)業(yè)如火如荼,很多大廠紛紛下場,立下flag要做一款能對標GPT4的產(chǎn)品,因為人家OpenAI已經(jīng)把東西做出來了,已經(jīng)驗證的東西,你再去做就非常work,但這也意味著之前那些老的技術(shù)路線很快會被放棄掉,同樣的道理,對應到未來自動駕駛也是一樣的。

  B:首先明確一點,純視覺方案是*夠用的,其實人類自己也沒進化出激光雷達,人眼本質(zhì)就是先感知周圍的2D圖像,經(jīng)過人腦處理后進行3D深度估算,最后對路況做出判斷,所以只靠雙目視覺完全可以滿完駕駛需求。

  但是,作為一個消費者,因為現(xiàn)在還沒有一種*的 L4 到 L5 級別的自動駕駛方案,那么比較高檔的車型上,配一些激光雷達作為冗余備份,這個需求也是客觀存在的。

  舉個例子,之前特斯拉出現(xiàn)一些撞車的事故,比如前面有一輛翻倒的白色貨車,AI就認為那是天空了,這種錯誤我們?nèi)搜垡矔�,但如果有激光雷達,可能就會避免掉。

  所以,激光雷達并不是說一定要有或者沒有,主要是看用戶需求,是更關(guān)注成本,還是更關(guān)注安全。

  C:作為企業(yè),我平時對激光雷達接觸比較多,首先從實際應用的角度,激光雷達確實能解決一些純視覺解決不了的問題,比如夜晚低光照,或者逆光炫光的環(huán)境,純視覺都有天然的劣勢,這時激光雷達就是一個很好的補充。

  回到現(xiàn)實來說,我們也和多家主機廠深入交流過:大家之所以不愿意選擇激光雷達,確實是因為成本太高,但是真正用過之后,工程師都說特別爽,實際效果上看還是有它存在的價值。

  當然,因為成本高,現(xiàn)在也出現(xiàn)了一些激光雷達的替代方案,比如4D毫米波,其實就是介于傳統(tǒng)毫米波和激光雷達之間的產(chǎn)物;另外,純視覺方案是不是就一定沒問題,我認為現(xiàn)在判斷也還太早,可能還需要經(jīng)歷更復雜的場景、更多的里程之后再觀察。

  D:就我的理解,大模型的核心能力是通過Transformer建立起各數(shù)據(jù)之間的關(guān)聯(lián),剛才幾位老師也就提到,純視覺*的缺點,它是一個二維的傳感器,而激光雷達是三維的,但本質(zhì)上,二維場景和三維場景是有關(guān)聯(lián)的。

  那我們是不是能通過大模型,把2D和3D數(shù)據(jù)關(guān)聯(lián)起來,讓它從某種意義上更深度的理解駕駛場景,產(chǎn)生一些不一樣的涌現(xiàn)?我覺得可以拭目以待,如果這一天真的到來,可能2D視覺也好、3D激光雷達也好、 4D毫米波也好,這些數(shù)據(jù)本質(zhì)上是同一個數(shù)據(jù),無論用哪一個數(shù)據(jù),或許都可以能解決自動駕駛的問題。

  我想到另一個問題,現(xiàn)在各主機廠都是拼傳感器數(shù)量,我有多少顆激光雷達、攝像頭、毫米波雷達;更多的傳感器數(shù)量自然也意味著對算力的要求更高,是100、200還是500TOPS,但是事實上,特斯拉已經(jīng)用實踐證明,對算力需求可能并不需要那么高。

  我們總是認為,未來汽車會越來越智能,但是大模型驅(qū)動下的自動駕駛,是不是會讓汽車越來越不智能?比如現(xiàn)在的算力分布,一部分在云端,一部分在車端,那么未來隨著大模型的發(fā)展,云端算力越來越高,車端反而就不需要太智能,汽車只要忠實地執(zhí)行云端的指令,可能就已經(jīng)足夠了,這是我的看法,謝謝。

  02、國內(nèi)廠家和特斯拉的差距有多少?未來能否追得上?

  A:從這次FSD V12 的表現(xiàn),結(jié)合我對國內(nèi)主機廠的一些了解,這個差距可能會在一到兩年左右,能否追的上主要是看兩個方面:

  首先是算法層面,我們知道特斯拉用的芯片算力只有144TOPS(萬億次操作每秒),國內(nèi)廠商至少都是 500 甚至上千TOPS,所以特斯拉對算力的利用效率是非�?植赖�,這是*個需要追趕的。

  此外,過去數(shù)年里,已經(jīng)有數(shù)百萬輛特斯拉汽車在收集真實環(huán)境里的道路數(shù)據(jù),數(shù)據(jù)的積累是第二個需要追趕的,當然大模型在這里面也可以發(fā)揮一定的作用,比如在虛擬世界進行更好的仿真模擬,減少這種數(shù)據(jù)采集的周期。

  03、大模型上車,還有哪些障礙?

  A:首先肯定是算力,現(xiàn)在市場上可以部署大模型的算力平臺非常少,國內(nèi)的一些頭部主機廠也在積極布局,但目前看就只有英偉達和特斯拉,其他的算力平臺暫時還沒有投入使用。

  這里所說的算力不是車端算力,而是云端服務器算力,這是大模型部署的前提,現(xiàn)在訓練一個文本大語言模型,就已經(jīng)需要上萬張的A100卡,如果再把圖像信息也加進來,對算力的要求只多不少;比如說像wayve ,我了解到他們是跟微軟的 Azure 合作,用了很多張卡,訓練了很久才得到的結(jié)果。

  第二點就是時間,比如傳統(tǒng)的圖像訓練,可能有個百萬幀級別,就能訓練出一個小模型,但如果是大模型再涉及到多模態(tài)的話,背后是要有數(shù)千萬幀的訓練量;這其中還有一個問題是,業(yè)界對于這種多模態(tài)的大模型訓練,包括文本和視頻的對齊,其實都還在探索的階段,沒有一條像GPT一樣很明確的路,說你按照這條路走,就一定會得到涌現(xiàn)能力,只能是靠不斷嘗試。

  所以無論算力還是時間,背后都代表著需要大量的資金,需要非常有實力的玩家才能去做這件事情。

  04、大模型+智能化對汽車的影響,會有什么機會點?

  A:一個方向是大模型帶來車內(nèi)交互方式的改變。其實現(xiàn)在的智能座艙本質(zhì)還是手機的延續(xù),但是我們的雙手要開車,所以車內(nèi)場景天然適合語音交互而不是觸屏,那怎樣把語音跟多模交互結(jié)合起來,再加入一些手勢識別、眼球識別,最后把這些信息轉(zhuǎn)換成車可以識別的指令,這是未來多模態(tài)大模型可以期待的事情。

  從我們自己看來,目前整個生態(tài)和技術(shù)已經(jīng)到了一個快爆發(fā)的階段,可能只差一個類似iPad上《水果忍者》這樣的殺手級應用,由此帶來一些基于車用大模型的應用層開發(fā),對這個生態(tài)我還是非�?春玫�。

  另一個方向可能暫時還沒有被太多人關(guān)注,就是當車輛完成智能化之后,里面很多的算力,其實是可以作為一個算力中心或者網(wǎng)關(guān)來使用的,比如現(xiàn)在英偉達的顯卡很貴,那是不是可以把車上這些算力利用起來,用分布式計算替代一部分云計算,可能也是一個方向,需要有人搭建一些基礎設施和技術(shù)工具來解決。

  險峰:這里稍微補充一下險峰的觀點,我們對自動駕駛還是比較樂觀的,覺得未來一定會有新的機會出現(xiàn)。

  其實剛才大家的討論,都基于一個認知:即一定要用大模型的方式去訓練自動駕駛算法,因此才需要算力、數(shù)據(jù)等大量資源的支撐。但就像當年在漸進式從L2到L4、一步式直接到L4的討論一樣,未來我們是否可以先用一些專用小模型去解決部分特殊場景?它可能不像大模型需要那么高成本,但可以先跑起來去解決現(xiàn)實問題。

  整個自動駕駛算法訓練、測試的鏈路非常長,如果能在其中一些環(huán)節(jié)降低成本,企業(yè)其實就可以獲得營收,這可能是一家初創(chuàng)公司相對低投入、比較好切入的點。

  其實特斯拉強就強在,能把學術(shù)上的東西實際地做出來應用到車上,雖然工程化問題是自動駕駛邁不過的一道坎,但現(xiàn)在說已經(jīng)到算法的終局形態(tài)也為時尚早,路線雖然在收斂、但也一直在迭代,永遠期待有更優(yōu)解。

  05、特斯拉會是自動駕駛的終局嗎?

  險峰:從發(fā)展歷程來看,特斯拉2020年引入BEV,21年引入Transformer,再到今天它展示的 FSD V12,特斯拉一直在把學術(shù)最前沿的東西不斷地工程化,到今天它基本已經(jīng)摸到了自動駕駛的及格線,甚至是到了七八十分的水平,那么特斯拉下一代的world model,會是自動駕駛的一個*解決方案嗎?大家對對此怎么看?我們不妨來暢想一下。

  A:我覺得汽車的智能化,核心不僅僅是省掉了一個駕駛員,而是讓運輸載具實現(xiàn)了信息化。比如一些封閉廠區(qū)內(nèi),無人載具可以和工廠的TMS或者MES 系統(tǒng)深度地融合,直接成為它的一部分,以前你需要調(diào)配一些第三方物流,現(xiàn)在完全不需要,運力會變成像交流電,插上插座就能用一樣方便。

  從這個角度上來講,未來的無人駕駛會導致汽車的形態(tài)發(fā)生分化,會根據(jù)不同場景誕生出很多不同的物種,而不是像現(xiàn)在一樣,只有乘用車、商務車、貨運車之分;比如未來廠區(qū)里的運輸車,會和公路上跑的運輸車完全不一樣,不僅是外觀不同,能力也完全不同,所以我不認為特斯拉的路線會是一個*解決方案,它會是一個思路、一個方法論,但未來肯定還會有別的方案不斷加入到系統(tǒng)中來。

  B:我也覺得,現(xiàn)在談終局可能還有點早,就像剛才主持人說的,特斯拉能夠比我們超前兩到三年,探索出行業(yè)大方向可能是什么,推動整個行業(yè)加速往終局的方向上走,這些貢獻我覺得怎么夸都不為過,但要真正實現(xiàn) L4 甚至 L5 的*模式,肯定也需要靠整個行業(yè)一起的努力和貢獻。

  C:太遠的終局確實不好判斷,我覺得首先能確定的是,大模型*的推理能力,一定是能夠應用到自動駕駛中的,包括它能給你一些更好的決策,并且還能給你解釋出原因,這個目前已經(jīng)有一些公司在做了;但大模型的學習效率和速度也還需要迭代,比如現(xiàn)在整個云端要很大算力、很多算據(jù),這還是一個成本很高的事情,還有很大的優(yōu)化空間,解決了這些問題之后,才有可能讓大模型給每個人提供一些個性化的服務,比如更個性化的交互,或者你更喜歡的駕駛風格等等。

  D:特別同意剛才嘉賓的一句話——自動駕駛終局的本質(zhì),是“如何讓機器人理解我們所處的真實世界”,包括特斯拉的world model,也都是在目前自動駕駛的范式之外,探索有沒有更好地去推理和理解這個世界的方式。

  所以,如果未來有一套算法,能夠讓通用的機器人非常好地去理解我們的世界的時候,自動駕駛這件事也就迎刃而解了。

  這方面,我覺得不是學界在引領(lǐng)業(yè)界,而是反過來,業(yè)界在領(lǐng)導學界,因為業(yè)界才能接觸到真實情況下駕駛的一手資料和數(shù)據(jù),從而能發(fā)現(xiàn)一些我們在實驗室里模擬不了的東西,所以,自動駕駛終局需要學界和業(yè)界共同去努力,不斷加強溝通,對此我個人還是非常樂觀的,希望這一天盡早到來。

IT產(chǎn)業(yè)網(wǎng)微信二維碼logo

  榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復制
標題鏈接已成功復制

最新新聞

熱門新聞