百度近日正式推出了其蒸汽機(jī)2.0大模型,這一創(chuàng)新技術(shù)標(biāo)志著全球首個支持中文音視頻一體化生成的大模型的問世。蒸汽機(jī)2.0在原有圖像生成視頻的基礎(chǔ)上,新增了“有聲版”,實現(xiàn)了環(huán)境音效、人聲對白及嘴型同步的全方位支持,真正做到了畫面與聲音的同步生成。
該模型的最大亮點(diǎn)在于其“形神音容”一體化生成能力,將以往需要分別完成的視頻畫面、配音效與對白同步三個步驟,整合為一次生成完成,極大地提升了效率。這一突破性的技術(shù)革新,被形象地比喻為“三步并一步”。
在價格方面,蒸汽機(jī)2.0 Turbo有聲版的定價為每5秒1.4元,據(jù)百度透露,這一價格相較于行業(yè)平均成本,大約低了三成,顯示出其強(qiáng)大的競爭力。
從技術(shù)細(xì)節(jié)上看,蒸汽機(jī)2.0模型引入了更為復(fù)雜的鏡頭語言,如“繞鏡”等動態(tài)運(yùn)鏡方式,同時配合大規(guī)模提示詞理解能力的升級,使得用戶即使輸入簡短的自然語言,也能生成畫面流暢、鏡頭調(diào)度自然的視頻內(nèi)容。這一改進(jìn),無疑為用戶提供了更加便捷和高效的使用體驗。

在聲音方面,蒸汽機(jī)2.0模型不僅同步生成環(huán)境聲與人聲,還努力做到人物動作與唇形的精準(zhǔn)匹配。該模型支持“多人對話、嘴型對齊、角色情緒同步”等多模態(tài)生成任務(wù),背后由“多模態(tài)潛在空間規(guī)劃”機(jī)制支撐,能在建模階段統(tǒng)一規(guī)劃角色身份、語氣、對話內(nèi)容與視覺呈現(xiàn),確保生成的視頻內(nèi)容整體感強(qiáng)、敘事一致。
百度還特別強(qiáng)調(diào)了蒸汽機(jī)2.0在中文場景下的適配能力,包括中文發(fā)音結(jié)構(gòu)的唇形匹配、語境識別與本地化音色模擬,使得生成的中文視頻內(nèi)容在語境下具備更高的擬真度。
在實際體驗中,蒸汽機(jī)2.0展現(xiàn)了其多樣化的生成能力。無論是沖浪者與巨浪共舞的震撼場景,還是海底世界美麗魚群的細(xì)膩描繪,蒸汽機(jī)2.0都能以逼真的畫面和流暢的動作呈現(xiàn)。同時,在創(chuàng)意簡單表達(dá)、極速生成的Lite版本中,雖然背景人物動作偶爾有些僵硬,但整體畫面氛圍和細(xì)節(jié)處理仍令人印象深刻。

在有聲版體驗中,蒸汽機(jī)2.0對于音效和對話的生成也展現(xiàn)出了不俗的實力。盡管在初次嘗試中,模型對于提示詞的理解存在些許偏差,但在調(diào)整提示詞后,模型能夠準(zhǔn)確地還原角色的臺詞、音色和語氣,同時嘴型同步效果也十分清晰,聲音生成與畫面的銜接自然流暢。
百度蒸汽機(jī)2.0的推出,無疑為音視頻生成領(lǐng)域帶來了新的突破。雖然聲音生成的準(zhǔn)確性和口型協(xié)調(diào)仍有待進(jìn)一步提升,但其在“形神音容”一體化生成方向上邁出的這一步,無疑為未來的技術(shù)發(fā)展奠定了堅實的基礎(chǔ)。
本文鏈接:http://www.yifxia.cn/showinfo-26-178080-0.html百度蒸汽機(jī)2.0有聲版體驗:鐘馗開口,音畫同步效果初顯
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com