[No.L001]
2018年12月24日,3D音頻是為VR內(nèi)容提供沉浸感和臨場感的一個(gè)關(guān)鍵因素,所以我們有必要理解3D音頻格式,以及它們對音頻內(nèi)容創(chuàng)建和渲染的應(yīng)用。下面我們來看一下三種3D音頻格式,并分析Ambisonics對VR音頻的重要性。
1. 多聲道
在基于聲道的聲音表達(dá)中,信息單元是揚(yáng)聲器。每個(gè)聲道與揚(yáng)聲器相關(guān)聯(lián),系統(tǒng)在幾個(gè)揚(yáng)聲器上混合各種聲道來實(shí)現(xiàn)聲音表達(dá)。聲道越多,空間音效感就越強(qiáng)�;诼暤赖穆曇舯磉_(dá)是過去50年,甚至更久遠(yuǎn)時(shí)所采用的傳統(tǒng)聲音表達(dá)方式。立體聲,5.1,7.1格式是基于聲道的水平表示。通過增加額外的過頂揚(yáng)聲器可以實(shí)現(xiàn)3D,如11.1格式(在7.1聲道的基礎(chǔ)上再增加4個(gè)天花板揚(yáng)聲器)。
多聲道音頻表達(dá)的一個(gè)主要缺點(diǎn)是,它依賴于揚(yáng)聲器設(shè)置,并且每個(gè)設(shè)置類型需要一個(gè)混合,而基于Object和Ambisonics的內(nèi)容則獨(dú)立于揚(yáng)聲器設(shè)置。
2. 基于Object的聲音表達(dá)
在基于Object的聲音表達(dá)中,信息單元是聲源。場景由幾個(gè)聲源及有關(guān)其位置和渲染環(huán)境等信息組成。系統(tǒng)通過在用戶位置計(jì)算所有聲源的組合來實(shí)現(xiàn)3D音頻渲染。但它同時(shí)需要使用大量的CPU資源。場景越復(fù)雜(聲源數(shù)量)和越逼真(混響精度),需要的CPU資源就越多。
3. Higher Order Ambisonics (HOA)
與上述兩種聲音表達(dá)形式不同,Ambisonics格式不依賴于單個(gè)聲源的描述,它能夠再現(xiàn)用戶位置的生成聲場。我們將用于描述聲場的數(shù)學(xué)形式稱為球面調(diào)和函數(shù),而信息單位則是球面表示的組分?jǐn)?shù)(或階數(shù))。組分越多或者階數(shù)越高,你獲得的聲場空間呈現(xiàn)精度就越高。
這并不是什么新概念,它在過去幾十年間一直用于專業(yè)音效社區(qū)。他們將這種音域的獨(dú)立表達(dá)稱為B格式,而它實(shí)際上是第一階的Higher Order Ambisonics。
4. Ambisonics對VR而言是非常有吸引力的解決方案
谷歌和索尼等VR行業(yè)的主要廠商都在擁抱Higher Order Ambisonics(HBO)這個(gè)概念,并正在開發(fā)相應(yīng)的商業(yè)應(yīng)用,如將HOA作為默認(rèn)音頻格式的YouTube360。這種選擇的背后存在幾個(gè)原因,最重要的是以下幾點(diǎn):
它提供了最佳的3D音頻逼真感與計(jì)算資源平衡。對于B格式(第一階表達(dá))的4聲道,你可以逼真地再現(xiàn)一個(gè)3D聲場,而Object的4通道或4揚(yáng)聲器設(shè)置很難做到這一點(diǎn)。
它是一種層次結(jié)構(gòu),具備獨(dú)特的可擴(kuò)展性。你可以選擇相應(yīng)的空間精度水平來匹配平臺資源,如CPU負(fù)載和帶寬等等。當(dāng)你希望提供高端PC或標(biāo)準(zhǔn)智能手機(jī)的內(nèi)容,或者當(dāng)你有可變帶寬來傳輸內(nèi)容時(shí),這非常方便。與基于Object的聲音表達(dá)相比,如果你沒有足夠的資源來處理完整內(nèi)容,唯一可用的選項(xiàng)是不處理其中一些對象,而這會導(dǎo)致聲場的完整性發(fā)生變化(缺少信息) 。
對于錄制的3D音頻內(nèi)容而言,Ambisonics是再現(xiàn)這種音效的最佳格式,因?yàn)檎鎸?shí)的音頻世界最好是選擇聲場來表達(dá),而非聲音對象的組合或揚(yáng)聲器位置。
這對頭部追蹤十分友好。在球面調(diào)和函數(shù)域中,頭部運(yùn)動將建模為聲場的旋轉(zhuǎn),而這是非常簡單的操作。
它獨(dú)立于揚(yáng)聲器設(shè)置:一個(gè)內(nèi)容可以解碼成任何揚(yáng)聲器布局。
與基于Object的聲音表達(dá)不同,Ambisonics保留了內(nèi)容的完整性。當(dāng)內(nèi)容由聲音對象,位置和聲學(xué)參數(shù)組成時(shí),最終用戶體驗(yàn)取決于根據(jù)所有這些信息重建聲場的算法。在Ambisonics中,最終的用戶體驗(yàn)是烘培至內(nèi)容之中。
5. 總結(jié)
我們相信多聲道將逐漸成為不太適合VR音頻需求的傳統(tǒng)格式,而基于Obeject和Ambisonics才是VR所需的格式。我們對未來的看法是:
內(nèi)容創(chuàng)建階段將主要采用聲音對象,將其作為交互式聲場創(chuàng)建的便捷方式,并將略微使用Ambisonics“導(dǎo)入”現(xiàn)實(shí)錄音。
諸如VR 360度這樣的“錄制”內(nèi)容渲染將越來越多地選擇Ambisonics格式,因?yàn)槠淇蓴U(kuò)展的特性使其非常適合廣泛的平臺。YouTube選擇Ambisonics已經(jīng)說明了這一點(diǎn)。
對于VR游戲等交互式內(nèi)容的渲染,基于Object的3D音頻格式非常有意義。但對于由眾多聲音對象組成的復(fù)合聲場而言,其渲染需要大量的計(jì)算,并需要大眾市場所不一定能提供的資源。就這個(gè)問題,我們可以將基于Object的全部或部分表達(dá)轉(zhuǎn)換為Ambisonics,并利用渲染的可擴(kuò)展性來適配CPU資源。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...