自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI 再不發(fā)布 Sora,就晚了 原創(chuàng)

發(fā)布于 2024-6-20 13:44
瀏覽
0收藏

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

變天了!還記得OpenAI剛推出Sora時給人的驚艷感,但在文生視頻領(lǐng)域,Sora想一家獨(dú)大也沒有那么簡單。如今,越來越多表現(xiàn)不俗的替代方案已經(jīng)出現(xiàn)。

繼Luma AI的Dream Machine首次亮相之后,Runway ML最近推出的Gen-3 Alpha也令人印象深刻。與此同時,快手推出了Kling(可靈),這一模型能夠以每秒30幀的速度生成1080p高清分辨率的視頻。

OpenAI 再不發(fā)布 Sora,就晚了-AI.x社區(qū)圖片

Gen-3 Alpha經(jīng)過視頻和圖像的訓(xùn)練,將為Runway的文字轉(zhuǎn)視頻、圖像轉(zhuǎn)視頻及文字轉(zhuǎn)圖像工具提供支持。它還將增強(qiáng)現(xiàn)有的控制模式,如運(yùn)動畫筆、高級攝像機(jī)控制和導(dǎo)演模式,并支持即將推出的工具,以便更精確地控制結(jié)構(gòu)、風(fēng)格和動態(tài)。

正如OpenAI與好萊塢的合作一樣,Runway也與頂級娛樂和媒體公司合作,開發(fā)Gen-3 Alpha的定制版本。這種Gen-3模型的定制化使得對風(fēng)格和角色一致性的控制更加靈活,可以滿足特定的藝術(shù)和敘事需求。

與OpenAI不同的是,Runway已經(jīng)宣布Gen-3 Alpha很快將向所有人開放。

“Gen-3 Alpha僅用四個月便迅速逼近Sora的水平,這意味著Omni也可能在9月前被迎頭趕上。Anthropic甚至可能在GPT-5發(fā)布之前就推出他們的自主AI系統(tǒng)。OpenAI面臨著要么加快其戰(zhàn)略步伐,要么接受退居第二的現(xiàn)實(shí)選擇?!盭平臺的一位用戶寫道。

1.Sora明顯滯后

Sora的一大劣勢在于,目前它還無法生成具有持續(xù)表情和角色特征的逼真人像。

例如,在Shy Heads使用Sora制作的短片《氣球頭》中,為了克服Sora的局限性,他們將人物的臉替換成了氣球。該短片的創(chuàng)作者Walter Woodman提到,他們使用Premiere和After Effects進(jìn)行了影片編輯。

然而,Gen-3 Alpha擅長生成表現(xiàn)力豐富的人類角色,能夠展示廣泛的動作、手勢和情感。

正如下面這個示例。提示詞是:一位原本憂郁的中年禿頂男子,當(dāng)一頂卷曲的假發(fā)和墨鏡突然落在他頭上時,變得開心起來。(Prompt: A middle-aged sad bald man becomes happy as a wig of curly hair and sunglasses fall suddenly on his head.)

OpenAI 再不發(fā)布 Sora,就晚了-AI.x社區(qū)

值得注意的是,Adobe最近宣布正在探索與領(lǐng)先的AI供應(yīng)商建立合作,包括OpenAI的Sora、RunwayML和Pika等。

此外,Gen-3 Alpha從設(shè)計之初就瞄準(zhǔn)創(chuàng)意應(yīng)用,這使得它能夠理解并生成多種風(fēng)格和藝術(shù)指令。

除了Gen-3 Alpha之外,Luma AI聲稱其Dream Machine與Sora不同,能夠理解世界物理原理及現(xiàn)實(shí)世界中的事物運(yùn)作方式。另一個有趣的特點(diǎn)是,它能將現(xiàn)有圖像擴(kuò)展成視頻。

“哇,來自@LumaLabsAI的新模型,將圖像延伸成視頻,真是非同凡響。我直覺上認(rèn)為這很快就會成為可能,但親眼見到并思考其未來迭代的潛力仍是另一回事?!鼻癘penAI研究員,大神Andrej Karpathy說道。

OpenAI 再不發(fā)布 Sora,就晚了-AI.x社區(qū)

梗圖被續(xù)寫,逐漸變成視頻。上述示例:災(zāi)難女孩(Disaster Girl)

另一個關(guān)鍵區(qū)別在于其視頻的超逼真質(zhì)量。Luma所采用的人工智能算法會仔細(xì)分析并增強(qiáng)每個細(xì)節(jié),從紋理到光照,確保最終輸出效果幾乎與現(xiàn)實(shí)世界的鏡頭難以區(qū)分。不過,Dream Machine也存在一些限制,例如形變、在視頻中插入文字以及相機(jī)運(yùn)動方面的處理。

另一方面,中國的可靈模型能夠生成長達(dá)兩分鐘、分辨率為1080p、每秒30幀的視頻。該模型以其逼真的輸出效果和對現(xiàn)實(shí)世界物理精確模擬而著稱,尤其擅長于3D人臉和身體重建,使得生成的內(nèi)容更加栩栩如生、富有表現(xiàn)力。

2.OpenAI 在GPU方面具有優(yōu)勢 

Luma AI 成功的一個重要因素是AWS,它為公司提供了急需的GPU資源。

AWS的數(shù)據(jù)和機(jī)器學(xué)習(xí)服務(wù)副總裁Swami Sivasubramanian表示:“很高興看到AWS H100訓(xùn)練基礎(chǔ)設(shè)施如何幫助Luma AI團(tuán)隊(duì)減少基礎(chǔ)模型的訓(xùn)練時間,并支持Dream Machine的發(fā)布?!?/p>

然而,在公開上線后不久,網(wǎng)站就因巨大的訪問需求而難以應(yīng)對。在這方面,OpenAI顯示出其優(yōu)勢。

作為ChatGPT的開發(fā)者,OpenAI能夠利用微軟Azure,獲得最新的NVIDIA GPU資源。在微軟Build大會上,CEO薩提亞·納德拉宣布,他們將成為首批使用NVIDIA最先進(jìn)的Blackwell GPU的云服務(wù)提供商之一。

OpenAI最近還與甲骨文(Oracle)建立了合作伙伴關(guān)系,以獲取更多的計算能力。

3.OpenAI 是否會真正推出產(chǎn)品? 

與Luma AI相關(guān)的還有另一個有趣的故事。在Google I/O大會上,谷歌介紹了其視頻生成模型Veo。然而,出于安全考慮,谷歌尚未發(fā)布該模型。

現(xiàn)為Luma AI研究科學(xué)家的Dan Kondratyuk此前曾在谷歌工作,他稱自己離開谷歌是因?yàn)楣緵]有推出任何產(chǎn)品。

他在X平臺上發(fā)帖說:“我離開谷歌加入了Luma。我曾是早期參與開發(fā)Veo團(tuán)隊(duì)的一員,但我知道它很長一段時間內(nèi)都不會面向大眾發(fā)布,就像Sora一樣。除非有像Luma這樣的公司迫使他們出手,至少我希望如此(給我權(quán)限吧)”。

與此同時,OpenAI采取了一種策略,即宣布產(chǎn)品來搶奪谷歌的風(fēng)頭,但實(shí)際上并未交付。例如,當(dāng)谷歌推出Gemini 1.5時,OpenAI在同一天宣布了Sora。在2024年Google I/O大會前一天,OpenAI宣布了GPT-4o。然而,其語音功能至今仍不可用。

OpenAI 再不發(fā)布 Sora,就晚了-AI.x社區(qū)圖片

X平臺上甚至專門有人發(fā)帖調(diào)侃OpenAI在演示與發(fā)布階段截然不同的產(chǎn)品表現(xiàn)

另一方面,谷歌也和OpenAI一樣,加入了搶先宣布產(chǎn)品的競賽。

最近,該公司推出了其視頻轉(zhuǎn)音頻(V2A)模型,該模型能為任意視頻生成音頻。有趣的是,這個模型可以與Veo配合使用,為視頻片段配上富有戲劇性的配樂、逼真的音效或與視頻角色及基調(diào)相匹配的對話。

OpenAI應(yīng)該趁早發(fā)布Sora,因?yàn)楦偁幉粫p弱。

好萊塢演員艾什頓·庫徹最近贊揚(yáng)了OpenAI的Sora,稱創(chuàng)作者將能夠利用它來渲染整部電影?!拔矣幸粋€測試版,它相當(dāng)驚人,”他說道。

在最近接受《華爾街日報》采訪時,首席技術(shù)官M(fèi)ira Murati表示,OpenAI很可能在今年晚些時候讓Sora向公眾開放。

但事實(shí)如何,或許我們還需要靜心以待。

參考鏈接:??https://analyticsindiamag.com/openai-should-release-sora-before-its-too-late/??  

本文轉(zhuǎn)載自??51CTO技術(shù)棧??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦