[No.L001]
2019年03月14日,F(xiàn)acebook Reality Labs(FRL)匹茲堡團隊的研究總監(jiān)亞瑟·謝赫(Yaser Sheikh)致力于為人們帶來更好的新聯(lián)結(jié)方式。他說道:“我們中的大多數(shù)人,包括我自己,都不是住在我們長大的地方。我的一生都是從一個城市搬到另一個城市,而每一次我都需要離開對我非常重要的親朋好友。”
專注于彼此的聯(lián)結(jié)促使謝赫領(lǐng)銜了一個名為Codec Avatars的項目:旨在克服人與人之間,以及人與機會之間的物理距離挑戰(zhàn)。借助突破性的3D捕獲技術(shù)和人工智能系統(tǒng),Codec Avatars可以幫助人們在未來快速輕松地創(chuàng)建逼真的虛擬化身,令虛擬現(xiàn)實中的社交聯(lián)系變得如同現(xiàn)實世界般自然和常見。盡管虛擬角色多年來一直是游戲和應(yīng)用的主要元素,但謝赫相信準確逼真的虛擬表示(能夠完美捕捉苦笑或皺眉的虛擬角色)將會改變一切。
Facebook堅信增強現(xiàn)實和虛擬現(xiàn)實將成為未來五十年里我們工作,娛樂和聯(lián)結(jié)的主要方式,就如同個人計算機和智能手機在過去四十五年里(并正繼續(xù))改變了世界一樣。為了向AR/VR信眾展示Facebook的實驗室,并說明Facebook正在如何構(gòu)建未來,F(xiàn)acebook Reality Labs(FRL)計劃在未來一年時間里陸續(xù)公布一系列的博文,而每篇博文都圍繞不同的FRL團隊展開,介紹他們正在開拓的,能夠把我們引領(lǐng)至未來的新技術(shù)。
本文是FRL新博文系列的第一篇,其介紹了FRL匹茲堡團隊的Codec Avatar研究。下面是映維網(wǎng)的具體整理:
目前,創(chuàng)建逼真化身需要捕獲大量高質(zhì)量的個人音頻和視頻。
Codec Avatars是一個正在積極進行中的研究項目,但它可以徹底改變我們未來通過VR頭顯和AR眼鏡與他人聯(lián)結(jié)的方式。它不僅僅關(guān)乎尖端圖形畫面或高級運動追蹤,其重點是為了在虛擬現(xiàn)實中實現(xiàn)人與人之間自然而輕松的互動。對于這一點,挑戰(zhàn)在人造環(huán)境中創(chuàng)建真實的交互。
1. 社交臨場感
如果遠程呈現(xiàn)可以令你感覺自己仿佛置身于另一個地方,社交臨場感則能夠幫助你與他人分享這種感受。謝赫談到衡量成功的兩個簡單而重要的方法。他解釋說:“我們將其通俗地形容為通過‘自我測試’和‘母親測試’。你必須喜愛自己的虛擬化身,而你的母親同樣需要喜愛你的虛擬化身,只有這樣才能令你感覺虛擬現(xiàn)實就如同現(xiàn)實生活一樣舒適。這是一個非常高的標準。”
當你第一次接聽視頻電話時,沒有人必須要告訴你為何這項技術(shù)非常重要。它能夠提升彼此的聯(lián)結(jié)程度,這意味著你可以穿著睡衣工作。對于從視頻通話到虛擬化身通話的跳躍,這將帶來真正的社交臨場感,有點像是在‘星際迷航’的全息甲板中與某人交談,你可以在模擬環(huán)境中閑逛,就如同身臨其境一樣。幫助Codec Avatars以真實和舒適的方式運行,這是匹茲堡團隊多年來一直致力于解決的巨大設(shè)計挑戰(zhàn)。我們正在積極地努力實現(xiàn)這一目標。”
一名研究被試和一位Facebook員工正通過VR討論高溫瑜伽(通過相應(yīng)的虛擬化身)。匹茲堡團隊已經(jīng)取得了實質(zhì)性進展,但他們正在努力為虛擬化身的口舌增加細節(jié)以提高表達質(zhì)量,并確保虛擬化身之間能夠?qū)崿F(xiàn)逼真的眼神交流。
Codec Avatars的研究工作是實現(xiàn)親民,實用,并可用于未來頭顯的真實社交臨場感的重要里程碑。“現(xiàn)在,接近度決定了我們與誰建立關(guān)系。增強現(xiàn)實和虛擬現(xiàn)實的真正前景是,無論身處何方,它都可以允許我們花時間與任何人建立有意義的關(guān)系。”謝赫如是說道。這是人與人聯(lián)結(jié)的未來,并使得它成為了Facebook核心使命的重要組成部分,亦即幫助建立社區(qū)和允許人們更緊密地聯(lián)結(jié)在一起。
2. 匹茲堡的建立
消除人與人之間的物理距離是一項需要長期承諾的重大任務(wù)。在2014年秋天,謝赫遇到了Oculus Research的首席科學家邁克爾·亞伯拉什。當時,謝赫正領(lǐng)導著卡內(nèi)基梅隆大學機器人研究所的3D捕捉實驗室:Panoptic Studio。兩人就在匹茲堡建立一個新研究設(shè)施進行了討論,并最終把社交臨場感作為首要目標。他們的第一項任務(wù)是:組建一支由跨學科工程師,技術(shù)人員和科學家組成的多學科團隊,從而“構(gòu)建未來”。謝赫于2015年加入Facebook,并自此一直在領(lǐng)導匹茲堡團隊。
Facebook Reality Labs在美國各地都設(shè)有辦事處,包括華盛頓州雷德蒙德,加利福尼亞州索薩利托,以及賓夕法尼亞州匹茲堡。從機器學習和材料科學到光學和觸覺,每個地點都在負責解決將AR和VR打造成為下一個計算平臺所面臨的挑戰(zhàn)。FRL研究科學家史蒂芬·隆巴迪(Stephen Lombardi)說道:“FRL是實用性研究工作機構(gòu)的圣杯。我們擁有驚人的資源和支持,而且我能夠與非常聰明的人才一起工作。與獨自一人相比,這允許我實現(xiàn)更多的成就。”
對于FRL的技術(shù)項目經(jīng)理丹妮爾·別爾科(Danielle Belko)來說,她在匹茲堡實驗室的工作始于謝赫的一個大膽提議。他詢問說,丹妮爾是否喜歡“分析尚未發(fā)明的系統(tǒng)的數(shù)據(jù),是按照前所未有的規(guī)模進行分析,并努力實現(xiàn)人們認為不可能做到的事情。”于是,她報名加入。丹妮爾說道:“我有語言學和娛樂技術(shù)的背景,所以我非常著迷于人與人的溝通方式。所以這是一個非常棒的機會,我不能夠錯過。”
FRL的研究科學家杰森·薩拉吉(Jason Saragih)則是直接通過FRL的大門來追逐自己對計算機視覺的熱愛。他說道:“我涉足計算機視覺和圖形方面的人體建模已有十多年時間,我認為AR和VR是這種技術(shù)的終極工具。隆巴迪表示贊同,“FRL正在對沉浸式平臺的未來進行大量投資。為這一愿景做出貢獻令人感到興奮,特別是現(xiàn)在我們正在利用計算機視覺,機器學習和尖端圖形技術(shù)來制作逼真的虛擬化身。”
FRL匹茲堡的總經(jīng)理查克·胡佛(Chuck Hoover)一支希望能夠?qū)崿F(xiàn)宏大的未來。他說道:“這是一種令我無比興奮的深遠影響。我們可以住在任何地方,并完全消除通勤嗎?分離生活的社交方面與物理依賴有可能改變世界。能夠為這一浪潮貢獻力量,并且是從這一早期階段就開始貢獻力量,我感到非常振奮。”
Codec Avatars將會對社交和文化產(chǎn)生巨大的影響,而在匹茲堡工作同時存在其他優(yōu)勢,例如探索世界上最先進的硬件系統(tǒng)。FRL研究科學家余守壹表示:“我們逐漸明白,我們擁有世界上最先進的掃描設(shè)備。我們開始掃描人們的鞋子,玩具,干冰,燃燒的蠟燭,以及我們能想到的任何東西。”掃描日常物品聽起來十分隨機,但這一切都是為了構(gòu)建一種更好的算法,以便未來的硬件可以輕松渲染最復雜的虛擬化身。
3. 傳神的虛擬化身
傳神的虛擬化身是科幻作品中的流行概念,比如說電影《創(chuàng):戰(zhàn)紀》。當然,電影中軟件程序員發(fā)現(xiàn)計算機正在一點一點地重構(gòu)自己的畫面并沒有發(fā)生在FRL匹茲堡。你不會突然之間被機器吸進里面,而且虛擬化身看起來不會像是常見2D游戲中的角色。但概念相似:系統(tǒng)能夠以數(shù)字方式將你從一個位置傳送至另一個位置,并令你感覺一切都仿如真實。
要實現(xiàn)栩栩如生的虛擬化身,關(guān)鍵是身體細節(jié),包括我們每天都認為是理所當然的微妙細節(jié)。這是解開難題的關(guān)鍵部分。余守壹解釋說:“要一切正常運作。我們必須捕捉所有這些微妙的暗示。這既有挑戰(zhàn)性又十分令人振奮,因為我們正努力讓你成為你自己。”
自逼真虛擬化身項目于2016年首次在F8開發(fā)者大會進行亮相后,F(xiàn)acebook Reality Labs的研究人員已經(jīng)取得了重大進展。與早期版本的虛擬化身相比,現(xiàn)在的研究成果已經(jīng)可以實現(xiàn)清晰的細節(jié),如頭發(fā)和牙齒。
視覺特效行業(yè)多年來一直致力于實現(xiàn)栩栩如生的虛擬化身,但需要真人演員的參與。這是一個手動的過程,需要你花費數(shù)月的制作時間。人造現(xiàn)實中的虛擬人物實時交互是一個未知的領(lǐng)域,所以FRL的研究團隊需要一種新的方法。
Facebook研發(fā)虛擬角色已有多年時間。在2016 F8大會,F(xiàn)acebook首席技術(shù)官邁克·斯科洛普夫為Facebook Spaces展示了新的虛擬化身系統(tǒng),取代了原來漂浮的藍色頭部,同時采用了新的面部特征和唇部動作。在第二年,他首次亮相了FRL匹茲堡的努力。在一個簡短的演示中,我們看到了兩個映射團隊成員的逼真數(shù)字角色。
繼那之后,F(xiàn)RL團隊不斷取得進展。謝赫說道:“我們已經(jīng)完成了兩個捕獲設(shè)施,一個用于面部,一個用于身體。每一個都旨在重建身體結(jié)構(gòu),并以前所未有的細節(jié)水平測量身體運動。在達到這些里程碑后,團隊就能夠捕獲數(shù)據(jù)并構(gòu)建自動化管道,從而創(chuàng)建逼真的虛擬化身。“隨著最近在機器學習方面的突破,這種超逼真的虛擬化身可以以動畫方式進行實時制作。
Codec Avatars不是FRL追求逼真虛擬化身的唯一手段。FRL索薩利托的另一支團隊正在探索能夠與任何虛擬環(huán)境進行交互的基物(基于物理)虛擬化身。這項研究結(jié)合了生物力學,神經(jīng)科學,運動分析,以及基物模擬等領(lǐng)域的基礎(chǔ)研究。就如同Codec Avatars一樣,所述的技術(shù)仍然依賴于實時數(shù)據(jù)捕獲,但它并非是由實時傳感器數(shù)據(jù)驅(qū)動神經(jīng)網(wǎng)絡(luò),而是驅(qū)動一個受人體解剖學啟發(fā)的基物模型。
4. 構(gòu)建Codec Avatars
如果你要復刻兩人聊天時的微妙細節(jié),你首先需要理解人類的互動方式。然后,你需要以計算機系統(tǒng)能夠理解的方式進行打包。這聽起來可能很簡單,但即使是基本的對話都需要一個復雜的信號網(wǎng)絡(luò),需要所有信號協(xié)同工作以在彼此之間傳達意義。這種信號由語音,肢體語言,語言線索等組成,而Codec Avatars將其打包成可量化的數(shù)據(jù),并用于渲染逼真的虛擬人類。如前所述,目標是創(chuàng)建出與真實互動無法區(qū)分的虛擬互動。
FRL研究科學家托馬斯·西蒙(Tomas Simon)解釋說:“基石是衡量標準。逼真感是由精確的數(shù)據(jù)所驅(qū)動,而這需要優(yōu)秀的測量。因此,構(gòu)建逼真虛擬化身的關(guān)鍵是找到一種方法來測量人類表達中的物理細節(jié),如人們瞇眼睛或皺鼻子的方式。”
Facebook Reality Labs的捕獲系統(tǒng)能夠每秒采集180Gb的數(shù)據(jù)。專有的算法隨后利用相關(guān)數(shù)據(jù)來創(chuàng)建個人的獨特虛擬化身。匹茲堡團隊的目標是,其構(gòu)建的模型能夠在未來允許人們只需數(shù)張圖片即可快速輕松地創(chuàng)建自己的虛擬化身。
在匹茲堡實驗室,Codec Avatars通過兩個主要的功能來測量人類表達:編碼器和解碼器。首先,編碼器通過頭顯攝像頭和麥克風系統(tǒng)來捕捉用戶正在做的事情及位置。完成捕獲后,編碼器就會獲取信息并整合一個唯一的代碼,一個人體和環(huán)境狀態(tài)的數(shù)字表示。接下來,解碼器將所述代碼轉(zhuǎn)換為音頻和視覺信號,而接收者則將其看作是發(fā)送者肖像和表達的完美表示。
Codec Avatars代表著社交臨場感的重大飛躍。它利用了今天正發(fā)生在匹茲堡實驗室的事情(通過一小群被試來構(gòu)建一個物理特征數(shù)據(jù)庫),并為未來的消費者提供了一種無需捕獲工作室和太多數(shù)據(jù)即可創(chuàng)建虛擬化身的方法。薩拉吉表示:“這是自動生成真實個人數(shù)字化身的首批方法之一。它提供了一種可以廣泛擴展的虛擬面對面交流方式。感覺對方就在你面前的虛擬交互是實現(xiàn)我們最終目標的重要一步,亦即聯(lián)結(jié)彼此。”
普通的1000萬像素智能手機攝像頭利用數(shù)百萬個光傳感器來生成逼真圖像。借助捕獲的數(shù)據(jù)和修圖軟件,智能手機可以自動調(diào)整環(huán)境光線,視場和其他參數(shù),從而為你提供最佳的照片。建立Codec Avatars同樣是物理數(shù)據(jù)和復雜軟件的結(jié)合,但涉及的要素遠比比一般的Instagram帖文更多。
Codec Avatars需要捕捉你的三維輪廓,包括你移動方式的所有細微之處,以及能夠令朋友和家人瞬間識別你的特質(zhì)。另外,要令數(shù)十億人每天都利用Codec Avatars,你需要令它們變得簡單而且自然。面對這一挑戰(zhàn),F(xiàn)RL創(chuàng)建兩個世界級的捕捕獲工作室:一個用于面部,另一個則面向全身。兩個工作室都搭載了數(shù)百個高分辨率攝像頭,并以每秒1Gb的速度捕獲數(shù)據(jù)。
余守壹說道:“作為解釋說明,具有512Gb磁盤空間的筆記本電腦只需三秒鐘就會耗盡空間。我們的捕獲過程持續(xù)大約15分鐘。大量的攝像頭確實挑戰(zhàn)了捕捉硬件的極限,但挑戰(zhàn)極限允許我們采集最好的數(shù)據(jù)以創(chuàng)建當今世界最逼真的虛擬化身之一。”例如,其中一個工作室包含1700個麥克風,用于在3D中重建聲場并實現(xiàn)真正的沉浸式音頻。
FRL的方法是利用捕獲的數(shù)據(jù)來訓練AI系統(tǒng),令其只需數(shù)張圖片或視頻即可快速輕松地構(gòu)建你的Codec Avatar。但由于人類特質(zhì)的多樣性,他們面臨一項相當巨大的挑戰(zhàn),而團隊才剛剛起步。余守壹指出:“這教會我需要意識到每個人都有其獨特之處。我們捕獲過有著夸張發(fā)型的人,穿戴腦電圖帽的人。我們也掃描過戴耳環(huán),鼻環(huán)等等不同的人。”
在FRL匹茲堡工作甚至產(chǎn)生過意義重大的時刻。別爾科回憶說:“亞瑟的父母曾來過,并為其孫子孫女,及未來的曾孫錄制了一段信息。這倆基本上是創(chuàng)建了一個交互式時間膠囊。我從未真正想過遠程呈現(xiàn)可以幫助后代與過去建立聯(lián)系,但你能想象未來能夠看到已不在人世的親朋發(fā)來的信息嗎?”
5. 動畫化虛擬化身
這兩個捕獲工作室對FRL匹茲堡的努力非常重要,但它們龐大且不切實際。研究團隊的目標是,未來某個時刻能夠通過輕量級頭顯實現(xiàn)相同的結(jié)果。然而,今天匹茲堡團隊不得不自行構(gòu)建市場所不存在的捕獲解決方案,于是他們發(fā)明了一系列配備攝像頭,加速度計,陀螺儀,磁力計和麥克風的頭戴式捕獲系統(tǒng)(Head Mounted Capture systems;HMCs),從而捕獲完整的人類表達范圍。當用戶在虛擬環(huán)境中相互交談時,所述的HMCs將動畫化Codec Avatars。
真實人類與虛擬化身的并排比較。左側(cè)是真人,右側(cè)則是虛擬化身。與其他虛擬化身不同,Codec Avatars完全是自動生成。
構(gòu)建HMCs并非易事。傳感器需要嵌入至人們感覺舒適的頭顯之中。照亮臉部會導致令人不快的用戶體驗,因此匹茲堡實驗室的HMCs選擇了人眼看不到的紅外線。FRL研究科學家赫南·柏蒂諾(Hernan Badino)指出:“如果虛擬體驗要變得與物理面對面體驗別無二致,我們需要具備全面的感知能力,同時確保頭顯不會限制用戶的姿態(tài)和表達。”
軟件同等重要,而FRL團隊已經(jīng)制定了一套程序來處理來自HMCs的數(shù)據(jù)。柏蒂諾解釋說:“研究人員可能希望從設(shè)備中獲取非常具體的圖像,或者對捕獲系統(tǒng)進行完全控制以測試特定的假設(shè)。我們團隊開發(fā)的軟件使得我們能夠靈活控制捕獲系統(tǒng),從而允許我們專注于研究特定方面。軟件同時含有一系列用于在實驗室內(nèi)部署頭顯的工具,如校準,數(shù)據(jù)診斷和分析工具。”
6. 安全第一
在現(xiàn)實生活中與他人交談時,信任是一個關(guān)鍵組成要素,所以虛擬現(xiàn)實不應(yīng)該有任何不同。FRL的系統(tǒng)需要提供人們可以立即信任的逼真虛擬化身,而其中重要的一點就是準確地捕獲微妙的表情。謝赫說道:“要令社交引人入勝,唯一有效的證據(jù)是真實。一種隱含的信任是,你能夠從另一個人身上獲得‘真正的’信息。”
為用戶提供一種快速輕松的虛擬化身構(gòu)建方法只是其中一個挑戰(zhàn)。確保人(及其虛擬化身)保持安全則是另外一個拼圖。為了應(yīng)對這一潛在的問題,匹茲堡團隊結(jié)合了用戶身份驗證,設(shè)備身份驗證和硬件加密。但一切都始于正確處理數(shù)據(jù)。別爾科指出:“這對我們所有人來說都非常重要。在開始任何采集工作之前,我們需要確保我們擁有一個強大的系統(tǒng)來處理和存儲數(shù)據(jù)。”
團隊敏銳意識到的一項技術(shù)是“DeepFakes”(一種AI換臉技術(shù)),亦即通過AI和現(xiàn)有的圖像與素材來制作以假亂真的畫面(如令未曾出演的某人成為某部影片的女主角)。這項技術(shù)在未來只會不斷提升,因此你很難區(qū)分真實事件與基于DeepFakes技術(shù)的人工事件。謝赫認為:“Deepfakes對我們的遠程呈現(xiàn)項目構(gòu)成了生存威脅,因為信任與溝通有著內(nèi)在的聯(lián)系。如果你在通話時聽到母親的聲音,你不會懷疑其話語的真實性。盡管她的聲音是由一個嘈雜麥克風進行感知,被壓縮,經(jīng)過無數(shù)英里的傳輸,在遠處進行重建,并由一個不完美的揚聲器播放,但你依然有這種信任。”
FRL匹茲堡正在考慮采取措施來保護虛擬化身的數(shù)據(jù)安全。例如,他們正在探索通過真實賬戶來保護未來的虛擬化身。胡佛回答說:“如何結(jié)合真實身份將是其中的關(guān)鍵要素,我們已經(jīng)討論了未來設(shè)備的數(shù)種安全和身份驗證選項。這種技術(shù)要登陸消費者頭顯尚需多年的時間,但FRL已經(jīng)在研究可能的解決方案。”
研究人員同時定期與隱私,安全和IT專家進行交流審核,以確保其遵循協(xié)議并實施最新,最嚴格的安全措施。胡佛解釋道:“我們已經(jīng)考慮過這項技術(shù)的所有可能用例。我們已經(jīng)意識到風險,并且經(jīng)常討論這項技術(shù)可能產(chǎn)生的積極影響和消極影響。作為一個實驗室,我們對開發(fā)這項技術(shù)感到興奮,但前提是它是以正確的方式開發(fā)出來。每個人都知道這項研究的重要性,以及人們信任它的重要性。”
7. 與任何地方的任何人聯(lián)結(jié)
想象一下,你戴上頭顯后并能傳送至千里之外的教室,辦公室,或生日聚會。所有人都能馬上認出這就是你本人。你的相貌,行為和聲音都如同現(xiàn)實世界一般。這不僅僅是為了方便。無論是因為各種情非得已的原因,還是說單純出于距離考慮,栩栩如生的虛擬化身都可以出現(xiàn)在你肉身所無不能到達的地方。這有助于解決當今人們在維持長距離關(guān)系和尋找社區(qū)時所面臨的諸多挑戰(zhàn)。
重點不是取代物理聯(lián)結(jié),而是在人們無法親臨現(xiàn)場時為其提供新的交互工具,例如電話機和視頻通話的發(fā)明。當然,在逼真虛擬化身準備好迎來黃金時期之前,F(xiàn)RL尚有大量的工作要做,他們面前依然擺著一系列的問題。當你為人們構(gòu)建一種允許其進行遠距離逼真互動的全新方式時(仿佛彼此都存在于相同的空間中),在它能夠拿出臺面之前你需要解決大量的問題并實現(xiàn)無數(shù)的突破。
但這種真實的親密感正是FRL匹茲堡團隊所致力于通過Codec Avatars實現(xiàn)的目標。謝赫表示:“我們擁有推進新概念的資源。再加上如果你能夠匯集各種專業(yè)人才以全面解決這些巨大的設(shè)計挑戰(zhàn),你將可以大大加速前所未見的創(chuàng)新到來。”
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...