7月24日,火山引擎正式發(fā)布豆包·同聲傳譯模型 Seed LiveInterpret 2.0,現(xiàn)已全量上線火山方舟平臺(tái)。只需開(kāi)口說(shuō)話,你的“同款”聲音就能同時(shí)開(kāi)口說(shuō)外語(yǔ);演講過(guò)程中,雙語(yǔ)字幕與你的聲音同步生成。
豆包·同聲傳譯模型2.0是首個(gè)延遲&準(zhǔn)確率接近人類水平的產(chǎn)品級(jí)中英語(yǔ)音同傳系統(tǒng),在中英同傳翻譯質(zhì)量達(dá)到業(yè)界 SOTA 的同時(shí),實(shí)現(xiàn)了極低的語(yǔ)音延遲水平和“0樣本聲音復(fù)刻”。這意味著,國(guó)際會(huì)議、跨境談判等場(chǎng)景的實(shí)時(shí)交互體驗(yàn)將得以大幅提升,跨語(yǔ)言交流再也不怕生硬!
豆包·同聲傳譯模型2.0像一位思維超敏捷的“同傳專家”,基于端到端理解和生成框架,面向中英文,可實(shí)時(shí)接收多人語(yǔ)音輸入,并在“聽(tīng)”的過(guò)程中同步理解、復(fù)刻聲音,并輸出語(yǔ)音和譯文,以極低延遲實(shí)現(xiàn)高質(zhì)量語(yǔ)音翻譯,真正實(shí)現(xiàn)了“邊聽(tīng)邊說(shuō)”。相比傳統(tǒng)機(jī)器同傳系統(tǒng),豆包·同聲傳譯模型2.0具備以下優(yōu)勢(shì):
極低的語(yǔ)音延遲,溝通無(wú)斷點(diǎn):采用全雙工語(yǔ)音理解生成框架,翻譯延遲可低至2-3秒,較傳統(tǒng)機(jī)器同傳系統(tǒng)降低超60%,實(shí)現(xiàn)了真正的“邊聽(tīng)邊說(shuō)”翻譯。
0樣本聲音復(fù)刻,音色無(wú)縫跨越:無(wú)需提前錄制,一邊說(shuō)話一邊采樣,即可實(shí)現(xiàn)“0樣本”聲音復(fù)刻,讓同一個(gè)人同音色開(kāi)口說(shuō)外語(yǔ),給現(xiàn)場(chǎng)的聽(tīng)眾更還原更沉浸的體驗(yàn)。
智能平衡節(jié)奏,對(duì)話超自然:可根據(jù)語(yǔ)音清晰度、流暢度、復(fù)雜程度,調(diào)整輸出節(jié)奏,并適配不同語(yǔ)言特性。面對(duì)超長(zhǎng)信息,依然能保證傳譯語(yǔ)音節(jié)奏的自然流暢。
近期,豆包·同聲傳譯模型已在多個(gè)權(quán)威國(guó)際會(huì)議中應(yīng)用。在2025中關(guān)村論壇年會(huì)上,為多場(chǎng)重量級(jí)會(huì)議提供頂流 AI 同傳服務(wù),助力中外學(xué)者無(wú)縫暢聊,獲央視點(diǎn)贊!在2025全球數(shù)字經(jīng)濟(jì)大會(huì)上,同樣實(shí)現(xiàn)了外籍嘉賓發(fā)言的同步音色復(fù)刻翻譯,參會(huì)者無(wú)需戴耳機(jī),看屏幕字幕就能輕松 get 內(nèi)容,實(shí)現(xiàn)“低延遲、高準(zhǔn)確、聽(tīng)得懂”。
除了大型國(guó)際會(huì)議,豆包·同聲傳譯模型還可以在更多生活場(chǎng)景發(fā)揮價(jià)值。例如,TikTok 主播用母語(yǔ)直播時(shí),實(shí)時(shí)將內(nèi)容翻譯成外語(yǔ)并復(fù)刻主播聲音,讓外國(guó)觀眾聽(tīng)懂并信任,加速生意達(dá)成;在出境旅游方面將作為“隨行翻譯”,通過(guò)豆包實(shí)時(shí)翻譯導(dǎo)游所講內(nèi)容,讓語(yǔ)音溝通不再阻礙探索世界的腳步;幫助記者快速準(zhǔn)確獲取外文資訊與采訪內(nèi)容,輔助寫(xiě)稿,提升新聞時(shí)效性與準(zhǔn)確性。
目前,豆包·同聲傳譯模型 Seed LiveInterpret 2.0已在火山方舟開(kāi)放使用,并即將在8月上線 Ola Friend 耳機(jī),為用戶帶來(lái)更加靈活的使用方式和體驗(yàn)。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...