OpenAI推出文本到視頻AI生成器Sora
OpenAI推出了Sora,加入了文本到視頻的人工智能內(nèi)容生成競賽。Sora可以根據(jù)用戶的提示生成長達一分鐘的視頻。
該公司展示了幾段用Sora制作的令人印象深刻的視頻,包括一名女子走在東京的街道上,以及淘金熱時代加利福尼亞的歷史鏡頭。
目前推出的是面向公眾的Sora預(yù)覽版,但也可供特定群體使用,比如安全專家和創(chuàng)作者。該公司允許某些個人接觸,以獲得關(guān)于如何推進該模型以對創(chuàng)意專業(yè)人士最有幫助的反饋??傮w發(fā)布日期尚未公布。
該公司表示:“我們正在與‘紅隊’合作,‘紅隊’是錯誤信息、仇恨內(nèi)容和偏見等領(lǐng)域的專家,他們將對該模型進行對抗性測試?!薄拔覀冞€在開發(fā)一些工具來幫助檢測誤導(dǎo)性內(nèi)容,比如檢測分類器,它可以分辨出視頻是何時由Sora生成的。”
OpenAI并不是第一家推出這類技術(shù)的公司。Meta、谷歌和其他幾家公司已經(jīng)或正在推出各自版本的同類產(chǎn)品。市場上一些最流行的解決方案包括Stability AI, Runway, Pika和Google Lumiere。然而,行業(yè)分析人士指出,Sora的視頻質(zhì)量比大多數(shù)競爭對手都要好。也許,這就是為什么Sora的演示引起了如此多的熱議和炒作。
根據(jù)OpenAI的說法,與其他模型相比,Sora的優(yōu)勢在于它具有驚人的真實感,并且能夠從簡短的提示中生成更長的視頻片段。Sora基于對語言的深刻理解,使其能夠理解提示并生成角色和情感。
Sora演示展示了它從幾個單詞生成視頻的能力,然而,它沒有顯示它從單個圖像或一系列畫面生成視頻的能力。
Sora的推出令人興奮,但也引發(fā)了一些擔憂。這種技術(shù)可以用來制造深度偽造和傳播錯誤信息。我們可以預(yù)期Sora對內(nèi)容有一些限制,包括不合適的真人或使用平臺創(chuàng)建包含色情或暴力的內(nèi)容。
DALL-E團隊的首席研究員兼負責人Aditya Ramesh說:“解決錯誤信息的辦法需要我們在一定程度上采取緩解措施,但也需要社會和社交媒體網(wǎng)絡(luò)的理解來適應(yīng)?!?/span>
對Sora的另一個擔憂是,它可能侵犯他人的版權(quán)作品。雖然OpenAI聲稱訓(xùn)練數(shù)據(jù)來自授權(quán)或公開可用的內(nèi)容,但對于什么是“公開可用”總是存在一些模糊。如果OpenAI不能解決這個問題,他們可能會面臨許多針對他們的訴訟。
Sora在精確模擬復(fù)雜場景的物理效果方面也存在一些問題。例如,它可能會混淆提示的空間細節(jié)。
Sora將賦予普通用戶使用文本制作人工智能視頻的能力。雖然文本到視頻技術(shù)在威脅到影視制作行業(yè)之前還有很長的路要走,但這些可能也會導(dǎo)致娛樂行業(yè)重大顛覆。
目前,OpenAI還沒有想得那么遠。該公司將專注于通過拒絕不適當?shù)膬?nèi)容和錯誤信息,并根據(jù)C2PA準則(C2PA是一個開放的技術(shù)標準,它允許發(fā)布者、公司和其他人在媒體中嵌入元數(shù)據(jù),以驗證其來源和相關(guān)信息。C2PA不僅適用于人工智能生成的圖像,相機制造商、新聞機構(gòu)和其他機構(gòu)也采用了同樣的標準來證明媒體內(nèi)容的來源和歷史或出處。)對Sora制作的視頻進行標記,確保其后續(xù)改善平臺的基本安全功能。