平發(fā)集團
搜索

我國自研視頻大模型面向全球上線(xiàn)

發(fā)表時(shí)間:2024-08-02 08:54作者:記者 魏夢(mèng)佳來(lái)源:新華社

輸入文字描述或上傳圖片,就能生成一段逼真視頻。近日,我國自主研發(fā)的通用視頻大模型Vidu(www.vidu.studio)面向全球正式上線(xiàn)。據悉,這款視頻大模型開(kāi)放文生視頻、圖生視頻兩大核心功能,提供4秒和8秒兩種時(shí)長(cháng)選擇,分辨率最高達1080P,生成一段4秒的視頻片段經(jīng)實(shí)測僅需30秒。

Vidu由清華大學(xué)聯(lián)合北京生數科技有限公司共同研發(fā),于今年4月在2024中關(guān)村論壇年會(huì )上首次發(fā)布。清華大學(xué)人工智能研究院副院長(cháng)、北京生數科技首席科學(xué)家朱軍介紹,Vidu具有“長(cháng)時(shí)長(cháng)、高一致性、高動(dòng)態(tài)性”的特點(diǎn),可根據文字和圖片生成高清視頻,且能保持高流暢、高動(dòng)態(tài)的畫(huà)面效果。截至目前,Vidu可支持一次性生成最長(cháng)32秒的視頻。

“Vidu能模擬真實(shí)物理世界,生成細節復雜且符合物理規律的場(chǎng)景,例如合理的光影效果、細膩的人物表情等,還能創(chuàng )造出具有深度和復雜性的超現實(shí)主義內容?!敝燔娬f(shuō),對于科幻、西部、浪漫、動(dòng)畫(huà)等多類(lèi)型電影,Vidu能生成符合對應風(fēng)格的畫(huà)面片段,還能生成影視級特效畫(huà)面,如煙霧、特效光影等效果。

據介紹,在動(dòng)態(tài)性方面,Vidu可生成復雜動(dòng)態(tài)鏡頭,支持大幅度、精準的動(dòng)作生成,能在畫(huà)面里實(shí)現遠景、近景、中景、特寫(xiě)等不同鏡頭的切換,能直接生成長(cháng)鏡頭、追焦、轉場(chǎng)等效果。

記者從北京生數科技有限公司獲悉,除文生視頻和圖生視頻的兩大基礎功能外,為了給用戶(hù)提供更多樣化和個(gè)性化的視頻創(chuàng )作體驗,Vidu還上線(xiàn)“動(dòng)漫風(fēng)格”和“角色一致性”兩大新功能。在“圖生視頻”板塊中,利用“角色一致性”功能,用戶(hù)可上傳人像圖或自定義的角色圖,通過(guò)文字描述就可指定圖中角色在任意場(chǎng)景中做任意動(dòng)作。該功能簡(jiǎn)化了視頻制作流程,也提升了創(chuàng )作自由度。

據悉,操作Vidu無(wú)須申請,用戶(hù)直接使用郵箱注冊即可上手體驗。Vidu的技術(shù)突破源于研發(fā)團隊在機器學(xué)習和多模態(tài)大模型方面的長(cháng)期積累,其核心技術(shù)架構由團隊在2022年就提出并持續開(kāi)展自主研發(fā)。