中國首個Sora級視頻大模型Vidu發(fā)布

中國首個Sora級視頻大模型Vidu發(fā)布

yujing 2025-03-27 微博 18 次瀏覽 0個評論

在2024中關(guān)村論壇年會未來人工智能先鋒論壇上,清華大學聯(lián)合生數(shù)科技27日正式發(fā)布中國首個長時長、高一致性、高動態(tài)性視頻大模型——Vidu。

該模型采用團隊原創(chuàng)的Diffusion與Transformer融合的架構(gòu)U-ViT,支持一鍵生成長達16秒、分辨率高達1080P的高清視頻內(nèi)容。

4月27日,在2024中關(guān)村論壇年會未來人工智能先鋒論壇上,清華大學聯(lián)合生數(shù)科技正式發(fā)布Vidu?! ≈行律缬浾?陳溯 攝

據(jù)介紹,Vidu不僅能夠模擬真實物理世界,還擁有豐富想象力,具備多鏡頭生成、時空一致性高等特點。Vidu是自Sora發(fā)布之后全球率先取得重大突破的視頻大模型,性能全面對標國際頂尖水平,并在加速迭代提升中。

在當天的論壇上,清華大學教授、生數(shù)科技首席科學家朱軍表示,與Sora一致,Vidu能夠根據(jù)提供的文本描述直接生成長達16秒的高質(zhì)量視頻。除了在時長方面的突破外,Vidu在視頻效果方面實現(xiàn)顯著提升,主要體現(xiàn)在模擬真實物理世界、多鏡頭語言、時空一致性高、理解中國元素等方面。

4月27日,在2024中關(guān)村論壇年會未來人工智能先鋒論壇上,清華大學聯(lián)合生數(shù)科技正式發(fā)布Vidu。Vidu在視頻效果方面實現(xiàn)顯著提升,能夠生成特有的中國元素,例如熊貓、龍?!≈行律缬浾?陳溯 攝

“值得一提的是,Vidu采用的是‘一步到位’的生成方式?!敝燔姳硎荆cSora一樣,文本到視頻的轉(zhuǎn)換是直接且連續(xù)的,在底層算法實現(xiàn)上是基于單一模型完全端到端生成,不涉及中間的插幀和其他多步驟的處理。

朱軍表示,Vidu的快速突破源自于團隊在貝葉斯機器學習和多模態(tài)大模型的長期積累和多項原創(chuàng)性成果。其核心技術(shù)U-ViT架構(gòu)由團隊于2022年9月提出,早于Sora采用的DiT架構(gòu),是全球首個Diffusion與Transformer融合的架構(gòu),完全由團隊自主研發(fā)。

自今年2月Sora發(fā)布推出后,團隊基于對U-ViT架構(gòu)的深入理解以及長期積累的工程與數(shù)據(jù)經(jīng)驗,在短短兩個月進一步突破長視頻表示與處理關(guān)鍵技術(shù),研發(fā)推出Vidu視頻大模型,顯著提升視頻的連貫性與動態(tài)性。

“Vidu的命名不僅諧音‘Vedio’,也蘊含‘We do’的寓意?!敝燔姳硎?,模型的突破是一個多維度、跨領(lǐng)域的綜合性過程,需要技術(shù)與產(chǎn)業(yè)應用的深度融合,希望與產(chǎn)業(yè)鏈上下游企業(yè)、研究機構(gòu)加強合作,共同推動視頻大模型進展。

中國首個Sora級視頻大模型Vidu發(fā)布

轉(zhuǎn)載請注明來自濟南富森木工刀具制造有限公司 ,本文標題:《中國首個Sora級視頻大模型Vidu發(fā)布》

百度分享代碼,如果開啟HTTPS請參考李洋個人博客
每一天,每一秒,你所做的決定都會改變你的人生!

發(fā)表評論

快捷回復:

驗證碼

評論列表 (暫無評論,18人圍觀)參與討論

還沒有評論,來說兩句吧...

Top
 各國最新災情  最新封路通路  疫情最新公布  涼山疫情最新  最新的疫病  紹興最新通知  催眠最新小說  最新清明放假  最新墨西哥  捷達最新標志  口罩最新資訊  家具最新流行  垢母最新  最新銅報價  杭州防汛最新  羅馬最新戰(zhàn)況  最新利率信息  最新疫情故事  阿骨朵最新  目前最新臺風  最新惡搞大片  最新公主號  最新期權(quán)平臺  西昌最新病例  最新情話思念  軍人公墓最新  葉榮最新  渭南最新復工  湖人隊比賽最新  最新同名庫