国产三级AⅤ在在线观看,公侵犯人妻一区二区三区,好妈妈大豆行情网站
首頁 > 資訊 > 評論

OpenAI發(fā)布Sora大模型,數(shù)據(jù)是最關鍵的涌現(xiàn)因素?

2024/02/23 14:51      DoNews


  近日,美國人工智能公司OpenAI發(fā)布了“文生視頻”大模型Sora。它能夠根據(jù)文本描述生成長達60秒連貫流暢的的視頻,同時保持視頻中出現(xiàn)的人物、景色的連貫性,其中既能實現(xiàn)多角度鏡頭的自然切換,還包含復雜的場景和生動的角色表情,展現(xiàn)出令人驚嘆的視頻生成效果。

  隨著模型的發(fā)布,業(yè)內圍繞技術的猜想隨即展開。有人認為Sora創(chuàng)新的模型架構為大模型的發(fā)展開辟了新道路,也有人認為Sora的推出讓通用人工智能到來的日期大大提前,還有市場人士表示Sora的爆紅與OpenAI高超的營銷密不可分�?梢灶A見的是,Sora的橫空出世,無疑將促使人工智能引領新一輪行業(yè)變革。

  還有業(yè)內人士指出,AI視頻生成的難點在于,一方面視頻是連續(xù)的多幀圖像,并且要有邏輯性,并非簡單的圖片組合;另一方面是帶來模型復雜度提升、計算難度和成本的提升。此外,文生視頻需要大量的“文本-視頻”配對數(shù)據(jù),而目前缺乏多樣化的數(shù)據(jù)集,且數(shù)據(jù)標注的工作量較大。因而此前視頻大多為5-15秒,而Sora將視頻時長提升至1分鐘,支持生成多個鏡頭,同時基本維持了角色和視覺風格的一致性,并能在一定程度上“理解”現(xiàn)實世界。

  在Sora的技術報告中,完全沒有討論訓練來源和構建,這可能意味著數(shù)據(jù)很可能是Sora成功的最關鍵因素。很多人好奇Sora的數(shù)據(jù)來自哪里,當前的猜測有:游戲引擎、電影、紀錄片、電影長鏡頭等。例如,PyTorch創(chuàng)始人Soumith Chintala從視頻推測Sora是由游戲引擎驅動的,并為游戲引擎生成組件和參數(shù)。紐約大學助理教授謝賽寧推測,整個Sora模型可能有30億個參數(shù)。

  文生視頻模型需要大量的視頻數(shù)據(jù)進行訓練,包含各種場景、人物、動作、物品等,以幫助模型學習視頻的生成規(guī)律和運動軌跡等重要元素。在訓練數(shù)據(jù)層面,云測數(shù)據(jù)認為數(shù)據(jù)標注的質量與效率、行業(yè)知識經驗豐富程度和數(shù)據(jù)的隱私安全,是發(fā)揮著訓練數(shù)據(jù)價值的重要維度,影響著模型的效果。

  有科技大咖指出,Sora可能使用了虛幻引擎5合成的游戲視頻訓練數(shù)據(jù),從視頻的色彩、細節(jié)來看這個判斷有一定的可信度。這樣看來OpenAI手里已經掌握了一批高質量視頻訓練數(shù)據(jù),同時找到了新的高效數(shù)據(jù)合成方法。此外,在訓練方法、模型架構、算力需求等方面,Sora也進行了創(chuàng)新,將ChatGPT、DALL·E 3等模型融合在一起。

  目前Sora的訓練數(shù)據(jù)源是業(yè)界普遍的關注重點,但OpenAI一如既往遵循“ClosedAI”原則,并沒有透露相關信息。

IT產業(yè)網微信二維碼logo

  榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復制
標題鏈接已成功復制

最新新聞

熱門新聞