自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="rlzrd"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Meta、谷歌、特斯拉，競(jìng)爭(zhēng)對(duì)手聯(lián)合起來吐槽OpenAI！Sora不懂物理世界，它只是GPT3！

原創(chuàng) 精選

作者：言征 2024-02-20 18:51:54

昨天，Meta與Open AI的Sora一起發(fā)布了一個(gè)新的人工智能模型，名為視頻聯(lián)合嵌入預(yù)測(cè)架構(gòu)（V-JEPA）。V-JEPA通過分析視頻中對(duì)象之間的交互，提高了機(jī)器對(duì)世界的理解。該模型延續(xù)了Meta副總裁兼首席人工智能科學(xué)家Yann LeCun的愿景，即創(chuàng)造與人類學(xué)習(xí)相似的機(jī)器智能。

編輯 | 言征

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

上周，OpenAI的第一個(gè)視頻生成模型Sora在互聯(lián)網(wǎng)上瘋傳。然而，與此同時(shí)，來自競(jìng)爭(zhēng)對(duì)手公司的一批人工智能專家和研究人員迅速剖析和批評(píng)了Sora的Transformer模型，引發(fā)了一場(chǎng)物理辯論。

人工智能科學(xué)家Gary Marcus也位列其中，他不僅批評(píng)Sora生成視頻的準(zhǔn)確性，而且更是直接把矛頭指向用于視頻合成的生成式AI模型。

圖片

1、OpenAI的競(jìng)爭(zhēng)對(duì)手聯(lián)合起來了！

Sora的擴(kuò)散模型結(jié)構(gòu)引來了Meta和谷歌相關(guān)研究人員的懷疑，他們認(rèn)為這個(gè)模型并未真正理解物理世界。

LeCun認(rèn)為，僅從提示生成看起來逼真的視頻并不意味著系統(tǒng)理解物理世界。他指出，生成與從世界模型中進(jìn)行的因果預(yù)測(cè)非常不同。看似合理的視頻空間非常大，視頻生成系統(tǒng)只需要成功生成一個(gè)樣本即可。

LeCun也有自己的方案——Meta的最新AI模型V-JEPA（視頻聯(lián)合嵌入預(yù)測(cè)架構(gòu)），與Sora不同，JEPA不是生成性的，而是在表示空間中做出預(yù)測(cè)。這是為了讓V-JEPA的自監(jiān)督模型看起來比Sora的擴(kuò)散Transformer模型更優(yōu)越。

研究員同時(shí)也是企業(yè)家的Eric Xing支持LeCun的觀點(diǎn)，他說：“一個(gè)能夠基于理解進(jìn)行推理的代理模型必須超越LLM或DM?！?/p>

Gemini Pro 1.5發(fā)布的時(shí)機(jī)再好不過了。Sora制作的視頻是在Gemini 1.5 Pro上運(yùn)行的，模特批評(píng)視頻中的不一致之處，認(rèn)為“這不是真實(shí)的場(chǎng)景”。馬斯克緊隨其后。他稱特斯拉的視頻生成能力在預(yù)測(cè)精確物理方面優(yōu)于OpenAI。

圖片

雖然專家們很快就否定了生成模型的能力，但對(duì)模型背后“物理”的理解卻被忽視了。

2、Transformer真懂物理？

Sora使用了類似于GPT模型的Transformer架構(gòu)，OpenAI相信該基礎(chǔ)將“理解和模擬真實(shí)世界”，這將有助于實(shí)現(xiàn)AGI。雖然不被稱為物理引擎，但虛幻引擎5生成的數(shù)據(jù)可能被用于訓(xùn)練Sora的底層模型。

NVIDIA的高級(jí)研究科學(xué)家Jim Fan通過解釋數(shù)據(jù)驅(qū)動(dòng)的物理引擎，澄清了OpenAI的Sora模型。他說：“Sora通過大量視頻的梯度下降，在神經(jīng)參數(shù)中隱含地學(xué)習(xí)物理引擎?！彼麑ora稱為可學(xué)習(xí)的模擬器或世界模型。范還表達(dá)了他對(duì)Sora簡(jiǎn)化論觀點(diǎn)的反對(duì)?！拔铱吹揭恍┞曇舴磳?duì)：‘Sora不是在學(xué)習(xí)物理，它只是在操縱2D中的像素’。我恭敬地不同意這種簡(jiǎn)化主義的觀點(diǎn)。這類似于說，‘GPT-4不是在學(xué)習(xí)編碼，它只是對(duì)字符串進(jìn)行采樣’。好吧，transformer所做的只是操縱整數(shù)序列（令牌ID）.神經(jīng)網(wǎng)絡(luò)所做的只是操縱浮點(diǎn)數(shù)。這不是正確的論點(diǎn)，”他說。

3、Sora仍處于GPT-3時(shí)刻

Perplexity創(chuàng)始人Aravind Srinivas最近一直在社交媒體上發(fā)聲，他也發(fā)言支持LeCun。他說：“現(xiàn)實(shí)是Sora雖然令人驚嘆，但還沒有準(zhǔn)備好準(zhǔn)確地模擬物理。”

有趣的是，OpenAI自己在任何人指出之前就已經(jīng)指出了模型的局限性。該公司博客稱，Sora可能很難準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理特性，因?yàn)樗赡軣o法理解因果關(guān)系的具體實(shí)例。它也可能與提示的空間細(xì)節(jié)混淆，例如遵循特定的相機(jī)軌跡等。

Fan還將Sora比作2020年的“GPT-3時(shí)刻”，當(dāng)時(shí)該模特需要“大量的提示和標(biāo)注”。然而，這是“第一次令人信服地證明了上下文學(xué)習(xí)是一種新興的特性”。

當(dāng)前的限制不會(huì)影響生成的輸出質(zhì)量。去年8月，當(dāng)OpenAI收購了數(shù)字產(chǎn)品公司Global Illumination，該公司創(chuàng)建了開源游戲Biomes（類似于《我的世界》）時(shí)，視頻生成和通過自動(dòng)代理構(gòu)建模擬模型平臺(tái)的范圍是一些猜測(cè)。

現(xiàn)在，隨著Sora的發(fā)布，顛覆電子游戲行業(yè)的可能性只會(huì)升級(jí)。如果Sora處于GPT-3時(shí)刻，那么它的GPT-4時(shí)刻又該如何理解？在那之前，懷疑論者將繼續(xù)辯論，并可能相互給彼此上一兩堂課。

圖片

4、Meta LeCun力挺的答案

昨天，Meta與Open AI的Sora一起發(fā)布了一個(gè)新的人工智能模型，名為視頻聯(lián)合嵌入預(yù)測(cè)架構(gòu)（V-JEPA）。V-JEPA通過分析視頻中對(duì)象之間的交互，提高了機(jī)器對(duì)世界的理解。該模型延續(xù)了Meta副總裁兼首席人工智能科學(xué)家Yann LeCun的愿景，即創(chuàng)造與人類學(xué)習(xí)相似的機(jī)器智能。

去年發(fā)布的I-JEPA的第五次迭代已經(jīng)從比較圖像的抽象表示而不是像素本身，并將其擴(kuò)展到視頻。它通過從圖像到視頻的學(xué)習(xí)來推進(jìn)預(yù)測(cè)方法，除了空間信息外，還引入了時(shí)間（基于時(shí)間）動(dòng)力學(xué)的復(fù)雜性。

V-JEPA預(yù)測(cè)視頻中缺失的部分，而無需重新創(chuàng)建每個(gè)細(xì)節(jié)。它從未標(biāo)記的視頻中學(xué)習(xí)，這意味著它不需要經(jīng)過人類分類的數(shù)據(jù)就可以開始學(xué)習(xí)。

這種方法使V-JEPA更高效，需要更少的資源進(jìn)行訓(xùn)練。該模型特別善于從少量信息中學(xué)習(xí)，與舊模型相比，速度更快，資源密集度更低。

該模型的開發(fā)包括屏蔽大部分視頻。這種方法是讓V-JEPA根據(jù)有限的上下文進(jìn)行猜測(cè)，幫助其理解復(fù)雜的場(chǎng)景，而不需要詳細(xì)的數(shù)據(jù)。V-JEPA關(guān)注的是視頻中發(fā)生的事情的總體概念，而不是具體的細(xì)節(jié)，比如樹上單個(gè)樹葉的運(yùn)動(dòng)。

V-JEPA在測(cè)試中顯示出了有希望的結(jié)果，在測(cè)試中，它使用了通常需要的一小部分?jǐn)?shù)據(jù)，優(yōu)于其他視頻分析模型。這種效率被視為人工智能向前邁出的一步，使其可以在不進(jìn)行廣泛再培訓(xùn)的情況下將模型用于各種任務(wù)。

未來，Meta計(jì)劃將擴(kuò)展V-JEPA的功能，包括添加聲音分析和提高其理解較長(zhǎng)視頻的能力。

這項(xiàng)工作支持Meta更廣泛的目標(biāo)，即推進(jìn)機(jī)器智能，使其更像人類一樣執(zhí)行復(fù)雜任務(wù)。V-JEPA是根據(jù)知識(shí)共享非商業(yè)許可證提供的，允許世界各地的研究人員探索和建立這項(xiàng)技術(shù)。

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

Meta OpenAI 特斯拉

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="hv9oc"></cite>

<cite id="hv9oc"><track id="hv9oc"></track></cite>

<ruby id="hv9oc"><button id="hv9oc"></button></ruby>

<sub id="hv9oc"></sub>