2025 世界人工智能大會(WAIC)期間,智象未來(HiDream.ai)聯(lián)合創(chuàng)始人兼首席技術官姚霆發(fā)表主題演講,系統(tǒng)闡釋了多模態(tài)智能體在內(nèi)容創(chuàng)作領域的技術突破與商業(yè)化實踐。作為聚焦多模態(tài)生成的 AI 創(chuàng)新企業(yè),智象未來期待通過探索多模態(tài)大模型的有效落地形式, “讓創(chuàng)作回歸靈感,讓時間忠于故事” ,推動內(nèi)容創(chuàng)作從工具效率提升向生產(chǎn)力革命跨越。
AI技術的爆發(fā)式發(fā)展,正從實驗室快速走向產(chǎn)業(yè)應用。智象未來始終以“解決真實創(chuàng)作痛點”為導向,在商業(yè)化落地中探索出一條“技術筑基、場景破局、價值閉環(huán)”的路徑。智象未來認為,真正的AI商業(yè)化不是單點技術的炫耀,而是從模型能力到服務形態(tài),再到最終成果的全鏈路賦能。
智象未來持續(xù)致力于從技術到價值的產(chǎn)品化思路,在這一過程中,智象構(gòu)建了“MaaS-SaaS-RaaS”的遞進商業(yè)化體系
MaaS(Model as a Service) 是根基。打造百億級多模態(tài)基礎模型,支持圖像、視頻、音頻、文本等多模態(tài)的生成與理解。
SaaS(Software as a Service) 是橋梁�;诨A模型,開發(fā)面向垂直場景的產(chǎn)品,建設個人創(chuàng)作者平臺和社區(qū),將技術能力轉(zhuǎn)化為開箱即用的服務,降低創(chuàng)作門檻。
RaaS(Result as a Service) 是終局。通過商業(yè)視頻營銷服務、新媒體創(chuàng)作智能體,直接為客戶交付“可落地的成果”,讓AI真正成為創(chuàng)作的“生產(chǎn)力工具”而非“技術概念”。
這種 “模型支撐服務,服務落地場景” 的邏輯,已在實際應用中驗證:智象多模態(tài)生成平臺已服務于影視制作、產(chǎn)品營銷、文旅互娛等領域,實現(xiàn)從技術研發(fā)到商業(yè)價值的閉環(huán)。
多模態(tài)技術突破:從 “能生成” 到 “生成優(yōu)”
技術實力是商業(yè)化的底氣。智象多模態(tài)模型以“高維理解、精準生成”為核心,構(gòu)建了覆蓋圖像、視頻、編輯的全棧能力矩陣。
技術層面,智象多模態(tài)基礎模型歷經(jīng)三次重要迭代,構(gòu)建起 “理解深、控制準、畫質(zhì)高” 的核心優(yōu)勢。模型從 2023 年 8 月的 1.0 版本(擴散模型 DiT,實現(xiàn)多模態(tài)對齊),到 2024 年 6 月 2.0 版本(擴散自回歸模型 DiT+AR,強化時空建模),再到 2024 年 12 月 3.0 版本(MoE 多場景學習,記憶增強),持續(xù)突破生成技術瓶頸。
這些能力轉(zhuǎn)化為三大核心價值:語義一致性(如 IP 故事活化時保持風格統(tǒng)一)、精準可控性(支持個性化定制與元素自由調(diào)整)、影視級畫質(zhì)(4K 分辨率、長時序穩(wěn)定輸出),為專業(yè)創(chuàng)作提供技術保障。
在圖像生成領域,HiDream 系列開源模型表現(xiàn)亮眼,累計下載量超 60 萬次,被 Diffusers庫、ComfyUI 、Recraft等主流工具集成。智象多模態(tài)全系列模型均在國際權(quán)威榜單排名前列。HiDream-I1 全面開源后24小時內(nèi)即登頂 Artificial Analysis 榜單,成為首個問鼎榜首的中國自研模型,Hugging Face實時排名全球第一,下載量與點贊數(shù)持續(xù)攀升。此外,智象大模型家族已實現(xiàn)文本、圖像、視頻的聯(lián)合建模,其視頻生成產(chǎn)品支持4K高清畫質(zhì)、全局 / 局部可控及劇本多鏡頭生成,被行業(yè)專家評價為「重新定義 AIGC 的美學標準」。同時,結(jié)合其開源的交互式編輯模型HiDream-E1,用戶通過自然語言指令即可完成圖像生成及編輯,直接降低創(chuàng)作門檻,助力全球開發(fā)者與創(chuàng)作者實現(xiàn)“所想即所得”。
7月,繼問鼎圖像生成開源模型競技場榜單后,最新開源模型HiDream E1.1再次強勢躋身Artificial Analysis圖像編輯智能體榜單第一梯隊,作為領先的開源圖像編輯模型,性能全面超越Flux.1 Kontext等主流模型,支持自然語言驅(qū)動的圖像編輯 —— 用戶通過文字指令即可完成背景替換、顏色修改、局部重繪等操作。
在視頻生成領域,模型支持文生視頻、圖生視頻、首尾幀生成,可精準復刻國漫、吉卜力等風格,實現(xiàn)鏡頭運動與畫面運動的聯(lián)合學習。通過擴散自回歸模型(DiT+AR),我們解決了視頻生成中“時空一致性”難題,讓生成內(nèi)容更貼近真實物理世界的規(guī)律。
在創(chuàng)作工具箱層面,AI口播、視頻模板、運動筆刷、虛擬換衣、圖像超分等功能,形成了“生成-編輯-優(yōu)化”的完整閉環(huán),滿足從個人創(chuàng)作者到企業(yè)客戶的全場景需求。
產(chǎn)品形態(tài):agent驅(qū)動的“創(chuàng)作革命”,重構(gòu)內(nèi)容創(chuàng)作全流程
在產(chǎn)品形態(tài)上,智象以 “智能體” 為核心形態(tài),構(gòu)建覆蓋圖像生成、視頻創(chuàng)作、營銷傳播的工具鏈。
作為面向短視頻二創(chuàng)的智能體,vivago agent以“多模態(tài)輸入、智能拆解、交互式生成”為核心優(yōu)勢。用戶只需提供圖像、視頻、音頻、文本等素材(例如咖啡館的logo、照片、宣傳語),即可自動分析需求、拆解任務(分鏡設計、劇本生成、素材檢索),調(diào)用圖像/視頻生成模型補全內(nèi)容,并通過智能剪輯工具整合輸出。它不僅能理解“棕色線條勾勒的火焰+波浪logo”的視覺特征,還能捕捉“靜謐奢華的吧臺場景”的氛圍,讓短視頻創(chuàng)作從“從零開始”變?yōu)?ldquo;按需生成”。
智象未來即將正式發(fā)布長視頻編輯智能體-HiClip。針對長視頻“內(nèi)容過載、分發(fā)低效、回報周期長”的痛點,HiClip通過多模態(tài)語義理解,精準解構(gòu)內(nèi)容核心(如提取高光片段、生成音頻摘要),實現(xiàn)“一次創(chuàng)作、全域適配”的二次傳播。無論是影視片段的高光剪輯,還是教育課程的知識點拆解,HiClip都能讓長視頻內(nèi)容煥發(fā)新的流量生命力。
產(chǎn)品化落地實現(xiàn)了創(chuàng)作方面的互補:vivago agent 聚焦短視頻二創(chuàng),通過模板檢索、智能剪輯、多模態(tài)生成,幫助用戶快速制作個性化內(nèi)容,解決傳統(tǒng)模板化創(chuàng)作的同質(zhì)化問題;HiClip則針對長視頻 “內(nèi)容過載、分發(fā)低效” 的痛點,以多模態(tài)語義理解解構(gòu)長視頻核心信息,實現(xiàn)高光片段提取、跨平臺適配剪輯,激發(fā)長視頻二次傳播價值。
生態(tài)共創(chuàng):鏈接全產(chǎn)業(yè)鏈的價值網(wǎng)絡
AI的價值,在于連接與賦能;技術與產(chǎn)品的落地,離不開生態(tài)的協(xié)同支撐。目前,智象未來正攜手跨境、互聯(lián)網(wǎng)、影視、新媒體、文旅等多領域伙伴,構(gòu)建覆蓋多領域的生態(tài)網(wǎng)絡,形成 “技術-場景-生態(tài)” 的共贏格局。
讓每個創(chuàng)作者都能更好釋放創(chuàng)意潛力,是智象的始終堅持。讓AI 真正 “理解創(chuàng)作、輔助創(chuàng)作”,讓內(nèi)容產(chǎn)業(yè)的生產(chǎn)力革新正加速到來。智象未來期待以多模態(tài)智能體為支點,與行業(yè)伙伴共同探索“技術為筆,創(chuàng)意為墨”的新可能——讓每個創(chuàng)作者都能聚焦靈感,讓每個故事都能抵達更遠的地方。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...