12月22日,以“數(shù)字文化 智能視聽”為主題的2024(GIAC)智能視聽大會在青島舉行,旨在打造全國數(shù)字文化產(chǎn)業(yè)的協(xié)同創(chuàng)新平臺,以智能視聽賦能文化產(chǎn)業(yè)高質(zhì)量發(fā)展。微博COO、新浪移動CEO王巍受邀參加本次大會,并分享了AIGC時代下,視頻大模型的發(fā)展現(xiàn)狀以及面臨的挑戰(zhàn)。
視頻大模型的應(yīng)用潛力巨大,這一領(lǐng)域已成為國內(nèi)外諸多平臺著重發(fā)力、激烈爭奪的AI應(yīng)用方向之一。
在這樣的背景下,王巍表示,視頻生成已進入多強競爭時期。“在國際范圍,有Google的Veo 2、OpenAI的Sora等,這些頭部玩家在視頻生成領(lǐng)域具有較大影響力。在國內(nèi),快手可靈、字節(jié)即夢等產(chǎn)品實力也很強勁”,王巍表示,就目前實際情況而言,國內(nèi)視頻大模型所呈現(xiàn)出的效果和質(zhì)量并不遜色于國外頭部公司產(chǎn)品。
為了能夠生成更高質(zhì)量的視頻內(nèi)容,當下視頻大模型的研發(fā)重心聚焦于構(gòu)建一系列便捷高效的視頻內(nèi)容編輯工具,拓展視頻創(chuàng)作的無限可能。
王巍介紹,“OpenAI發(fā)布的Sora提供了很多編輯工具,譬如re-cut功能,它允許用戶找到視頻中最滿意的幾幀,以此為核心向前后方向延伸以完成新視頻的生成。這些AI視頻編輯功能的不斷涌現(xiàn),為視頻創(chuàng)作增添了更多創(chuàng)意元素。”
王巍還以電影制作模式為例,分享了視頻大模型驅(qū)動下,將來可能呈現(xiàn)的智能視聽形式:人類創(chuàng)作者確定主題和故事梗概,GPT生成電影分鏡頭腳本,視頻生成工具Sora根據(jù)腳本自動生成分鏡頭視頻內(nèi)容……這些包括視頻大模型在內(nèi)的人工智能應(yīng)用未來會貫穿整個視頻內(nèi)容制作過程。
雖然視頻大模型在當下取得了突破性進步,但其發(fā)展之路仍面臨諸多亟待解決的問題與挑戰(zhàn)。“譬如目前視頻大模型生成的視頻內(nèi)容往往逼真度欠佳,細節(jié)處理的不到位,在生成長視頻時也有些力不從心”,對此,王巍表示,新浪在AI技術(shù)的使用上,會根據(jù)視頻類型做區(qū)分。
“今年我們舉辦了新浪新聞探索大會,開場的探索主題視頻就是我們完全利用視頻大模型制作的,畫面流暢自然,效果非常好”。但在一些需要真人參與的視頻節(jié)目中,AI技術(shù)應(yīng)用還有改進空間。王巍繼續(xù)舉例介紹,新浪新聞的真人秀訪談欄目《熱浪之外》,需要嘉賓之間有一些互動,視頻大模型可以生成人物與場景融合的遠景視頻,但對于手部姿態(tài)、面部表情等細節(jié)的生成還不太成熟,因此這類欄目還是主要由真人拍攝來完成,AI可以輔助剪輯包裝。”
王巍指出,這些問題嚴重影響了視頻大模型的應(yīng)用效果,需要在后續(xù)的研究中不斷探索改進,以突破現(xiàn)有困境。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...