近期,通義萬相宣布了一項重大開源成果——Wan2.2-S2V音頻驅動視頻模型。這一創新技術僅需一張圖片和一段音頻,便能生成具有自然面部表情、精準口型同步以及流暢肢體動作的數字人視頻,質量堪比電影級別。更令人矚目的是,其生成的視頻時長可達分鐘級別,為數字人直播、影視后期及AI教育領域帶來了視頻創作效率的革命性提升。
Wan2.2-S2V的應用范圍廣泛,不僅能夠驅動真實人物、卡通角色、動物形象,還能生成數字人視頻。無論是肖像、半身還是全身圖片,只需上傳一段音頻,模型便能令圖片中的主體生動地進行對話、歌唱或表演,展現出極高的靈活性和適應性。
通義團隊依托通義萬相的通用視頻生成技術,結合文本引導的全局運動控制和音頻驅動的局部精細動作,成功實現了復雜場景下音頻到視頻的轉換。通過引入AdaIN和CrossAttention兩種調控機制,進一步提升了音頻控制的精準度和動態表現,使生成的視頻更加栩栩如生。
在視頻生成時長方面,Wan2.2-S2V單次即可產出分鐘級的視頻內容,極大地滿足了長時間視頻制作的需求。這一突破得益于其采用的層次化幀壓縮技術,有效減少了歷史幀的Token數量,將歷史參考幀的長度擴展至73幀,確保了長視頻生成的穩定性和連貫性。
Wan2.2-S2V還支持文本控制功能,用戶可以通過輸入指令對視頻畫面進行個性化調整,包括鏡頭運動、角色軌跡規劃以及實體間的互動設計,使得視頻內容更加豐富多變,視覺體驗更為立體。
為了滿足不同分辨率場景的視頻生成需求,Wan2.2-S2V采用了多分辨率訓練技術,并支持多分辨率推理。無論是適合移動設備的豎屏短視頻,還是適合大屏播放的橫屏影視劇,都能輕松應對,展現出強大的通用性和實用性。
目前,用戶已經可以通過Github、HuggingFace和魔搭社區下載Wan2.2-S2V模型,并通過阿里云百煉API調用,或直接訪問通義萬相官網進行體驗。這一開源成果的發布,無疑將為視頻創作領域注入新的活力,推動相關行業的快速發展。
舉報 0收藏 0打賞 0評論 0分享 0 更多>同類資訊螞蟻森林9年成績單:6億余棵樹綠動全國,捐資超45億助力生態建設08-27抖音2025年中反詐成績單:日均攔截700萬詐騙信息,曝光多款假冒App08-27Marshall新推派對神器BROMLEY 750,環繞立體聲燃爆各種場景08-27NVIDIA Blackwell Ultra GPU升級:PCIe 6.0助力,性能飆升50%,功耗高達1400W08-27微軟WinUI開源計劃逐步推進,第三階段開放第三方代碼貢獻08-27谷歌強化Android安全:2026年起所有應用需開發者實名驗證安裝08-27華為海思芯片技術侵權案終審:14人獲刑,商業秘密保護再升級08-27
小米HyperOS 3明日發布,首批測試機型開放報名,打造更順心系統今天,小米澎湃官方正式宣布,小米HyperOS 3來了,即將在明天,也就是8月28日15:00發布,據介紹,目前HyperOS 3 Beta版的首批測試已經開放,機型符號要求的用戶已經能夠在小米社區開始報名,…08-27
山東科嘉電氣DC240V至750V直流變換器:高效節能,賦能通信與軌道交通山東科嘉電氣的 DC240V 轉 DC750V 高壓直流供電直流電源變換器是一款專為通信基站、數據中心、工業自動化及軌道交通等領域設計的高效電力轉換設備,具備 高轉換效率、高穩定性、多重保護機制、模塊化設…08-27
吱吱企業通訊:重塑跨部門協作,筑牢企業通訊安全防線吱吱企業通訊憑借其“私有化部署+全鏈路加密”雙重機制,為企業構建了一套“溝通便捷、通訊安全”的數字化通訊解決方案。三、強化內部風控,為企業數據上把“雙保險” 吱吱巧妙平衡“通訊與安全”,精心研發了多重風險預…08-27
逆市飛揚!僅兩家航司A380航班量超越疫情前水平航空數據分析公司Cirium數據顯示,今年全球航空公司計劃使用超大型客機執飛的航班僅為89939架次。有兩家航空公司卻逆勢而上,今年計劃執飛的空客A380航班數量已超過2019年,分別是英國航空與全日空航空。…08-27
智慧火電“透視眼”,實時監控與預測維護引領行業新變革這不僅實現了從鍋爐、汽輪機到升壓站等關鍵設備的部件級精細建模(精度可達部件級),更重要的是將實時運行數據(如溫度、壓力、流量)映射到三維模型中,以三維熱力圖、彩色云圖等形式直觀呈現設備狀態(如管壁溫度、氧化皮…08-27
物聯網連接新選擇:NB-IoT、Cat.1、eSIM各領風騷成本平衡:模組成本較Cat.4降低30%-50%,功耗低于4G但高于NB-IoT,適合對實時性有要求但無需高速傳輸的場景。隨著物聯網設備連接需求從“規模擴張”轉向“價值深化”,企業需根據設備生命周期、數據傳…08-27
Marshall首款派對神器BROMLEY 750震撼發布,售價7999元Bromley750售價為7999人民幣,將于9月23日在Marshall全球官網開售,于9月30日10點在Marshall中國官方商城上線。 Bromley 750專為室內外多場景打造,IP54級防塵防…08-27
宇樹科技IPO前夕遭專利訴訟狙擊,神秘原告曾頻訴銀行引關注而起訴宇樹科技也并非是周建軍涉及的唯一專利訴訟,天眼查顯示,建林電氣共有49起司法案件,90%身份為原告,涉訴最多案由為侵害發明專利糾紛,被告方多為銀行。 2021年,雷軍的順為資本才進入宇樹科技,領投千萬…08-27點擊查看更多 +全站最新
紅米Note 15R悄然上架,價格定位讓人捉摸不透
榮耀2025年底新品大爆發:Magic 8系列三款旗艦及小平板齊來襲
華為Mate XTs官宣:搶跑iPhone 17系列,9月4日率先發布
iQOO小屏旗艦2026年將襲:6.31英寸+雙旗艦芯,中端市場新戰火
Vivo X300系列將10月發布,全球首搭聯發科天璣9500處理器
vivo Y500深度體驗:續航王者,耐用新標桿引領入門機潮流熱門內容
小米HyperOS 3明日發布,首批測試機型開放報名,打造更順心系統
山東科嘉電氣DC240V至750V直流變換器:高效節能,賦能通信與軌道交通
吱吱企業通訊:重塑跨部門協作,筑牢企業通訊安全防線
逆市飛揚!僅兩家航司A380航班量超越疫情前水平
智慧火電“透視眼”,實時監控與預測維護引領行業新變革
物聯網連接新選擇:NB-IoT、Cat.1、eSIM各領風騷
本文鏈接:http://www.yifxia.cn/showinfo-16-179232-0.html通義萬相開源音頻驅動視頻模型,高效生成自然流暢的數字人長視頻
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com