自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Yann LeCun:生成模型不適合處理視頻,AI得在抽象空間中進(jìn)行預(yù)測

人工智能 新聞
在 2024 世界經(jīng)濟論壇的一次會談中,圖靈獎得主、Meta 首席 AI 科學(xué)家 Yann LeCun 被問到了這個問題。

在互聯(lián)網(wǎng)文本數(shù)據(jù)即將枯竭之際,很多 AI 研究者將目光轉(zhuǎn)向了視頻。但如何讓 AI 理解視頻數(shù)據(jù)成了新的難題。

在 2024 世界經(jīng)濟論壇的一次會談中,圖靈獎得主、Meta 首席 AI 科學(xué)家 Yann LeCun 被問到了這個問題。他認(rèn)為,雖然這個問題還沒有明確的答案,但適合用來處理視頻的模型并不是我們現(xiàn)在大范圍應(yīng)用的生成模型。而且新的模型應(yīng)該學(xué)會在抽象的表征空間中預(yù)測,而不是在像素空間中。

一起參與討論的還有斯坦福大學(xué)教授、Coursera 聯(lián)合創(chuàng)始人 Daphne Koller。她的研究領(lǐng)域主要是人工智能及其在生物醫(yī)學(xué)科學(xué)中的應(yīng)用。她指出了理解因果關(guān)系對于構(gòu)建未來AI系統(tǒng)的重要性。

以下是視頻的文字版本:   

主持人:我在世界經(jīng)濟論壇中參與過一些討論。他們說,我們的數(shù)據(jù)快用完了,真的嗎?網(wǎng)絡(luò)上沒有那么多了?

Daphne Koller:是真的。

主持人:但是自動駕駛汽車可能提供更多數(shù)據(jù)。Yann,你覺得呢?

Yann LeCun:我完全同意 Daphne 的觀點。當(dāng)然,如果我們致力于 LLM,或者說是自回歸 LLM,我們可以看到它們的發(fā)展正趨向極致。毫無疑問,數(shù)據(jù)資源正變得越來越少,我們基本上已經(jīng)使用了互聯(lián)網(wǎng)上所有的公共數(shù)據(jù)。小型 LLM 使用十萬億 token 進(jìn)行訓(xùn)練。以每個詞大約 2 字節(jié)計算,我們用于訓(xùn)練的數(shù)據(jù)總量大約是 2*1013 字節(jié),用普通人的閱讀速度來說,讀完這些數(shù)據(jù)需要 15 萬到 20 萬年。

想象一下,一個孩子通過眼睛看到了多少東西。比如一個四歲的孩子,我們來試著量化一下 Ta 生活中所看到的信息量:每秒視神經(jīng)傳輸大約 20 兆字節(jié)的數(shù)據(jù),在孩子的頭四年的生活中,醒著的時間有 16000 小時,每小時 3600 秒,計算可以得出有一千兆字節(jié)的信息量。由此可以看出,一個四歲的孩子所看到的信息總量,是最大的大模型所消化的數(shù)據(jù)量的 50 倍。

四歲的孩子比我們擁有的最大的 LLM 要聰明得多。Ta 積累的知識量看似更少,但這是因為形式不同。實際上,對于這個孩子來說,Ta 對世界如何運作有著很豐富的認(rèn)知,而我們今天還不能用 LLM 做到這一點。我們還需要發(fā)明一些新的科學(xué)方法和技術(shù),來讓未來的 AI 系統(tǒng)像孩子一樣,能夠利用這些看到的信息。這將需要一些科學(xué)和技術(shù)上的突破,可能會在一年、三年、五年、十年后發(fā)生,很難說出準(zhǔn)確的時間,因為這是個挑戰(zhàn)。

主持人:確認(rèn)一下我是否理解了你的意思??色@得的文本數(shù)據(jù)量會增長,但并不是無限的。而我們能輸入到這些機器中的視覺數(shù)據(jù)量卻是巨大的,遠(yuǎn)遠(yuǎn)超過文本數(shù)據(jù)。

Yann LeCun:我剛才提到的 16000 小時的視覺內(nèi)容,相當(dāng)于 YouTube 上 30 分鐘的上傳量。這意味著,我們擁有的數(shù)據(jù)遠(yuǎn)遠(yuǎn)超過我們能處理的量。問題在于,我們?nèi)绾巫寵C器從視頻中學(xué)習(xí)呢?我們并不知道。

主持人:那么如果下一步是要處理視頻輸入,需要什么樣的新架構(gòu)呢?顯然大型語言模型并不是好的選擇,它的構(gòu)建方式并不適合處理視頻,那我們現(xiàn)在需要構(gòu)建什么?

Yann LeCun:大型語言模型或者一般的 NLP 系統(tǒng),通常是用這種方法訓(xùn)練的。拿一段文本,然后故意刪掉一些地方,接著用一個巨大的神經(jīng)網(wǎng)絡(luò)來重建文本,也就是預(yù)測那些被刪掉的詞,也就是通過刪掉一些詞來「破壞」文本。像 ChatGPT 和 Lama 這樣的模型都是這樣訓(xùn)練的。你只需刪掉最后一個詞就能訓(xùn)練它們。從技術(shù)上講實際上更復(fù)雜,不過大體就是這么個意思,訓(xùn)練這個系統(tǒng)來重建輸入中缺失的信息。

一個顯而易見的想法就出現(xiàn)了,為什么我們不用圖片來試試呢?拿一張圖片,通過移除一小部分來損壞圖像,然后訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)來恢復(fù)它。但這并不奏效,或者說效果并不好。這方面已經(jīng)有很多嘗試,但都不太成功。對于視頻也是一樣。

我已經(jīng)研究視頻預(yù)測九年了。我一直在嘗試預(yù)測,就是向系統(tǒng)展示一段視頻,然后訓(xùn)練它預(yù)測接下來會發(fā)生什么。如果系統(tǒng)能做到這點,它可能就能理解世界的一些基本規(guī)律,就像文本系統(tǒng)試圖預(yù)測下一個詞一樣。它得能理解句子的含義,但這也做不到。

主持人:你的意思是,你拍了一段視頻,你讓視頻里的人拿著筆把手舉高,然后放開,我就能預(yù)測筆會掉下來。但現(xiàn)在機器并不能做到這一點?

Yann LeCun:主要的問題在于,你的筆有一些特殊的擺放方式。當(dāng)你把它丟下去的時候,它會沿著特定的軌跡下落。我們大多數(shù)人無法準(zhǔn)確預(yù)測軌跡是什么,但可以預(yù)測物體會掉下來。嬰兒大概要花九個月的時間,才能理解沒有支撐的物體會掉下來。這種直覺上的物理知識,嬰兒九個月就能學(xué)會,那我們怎樣讓機器也做到這一點呢?

主持人:等一下,我想問個可能有點傻的問題。如果想要這些技術(shù)有效果,并持續(xù)革新,那就需要它們能夠理解視頻,畢竟數(shù)據(jù)都在視頻里。但我們自己都不完全理解視頻,這個矛盾該如何解決呢?

Yann LeCun:其實目前還沒有真正的解決辦法。但目前最有希望的,至少是能用于圖像識別的東西,說出來可能會讓大家驚訝,并不是生成式的。

所以最有效的模型不是生成圖像的,不是重建,也不是直接預(yù)測。它做的是在一個抽象的表征空間中進(jìn)行預(yù)測,就像我無法準(zhǔn)確預(yù)測你手中的筆會如何掉落一樣。但我可以預(yù)測它將會掉落。在某種抽象的層面上,一支筆具體在哪里以及它的確切擺放方式和其他具體細(xì)節(jié),我都可以做出預(yù)測。

所以,我們需要在抽象表征空間中預(yù)測,而不是具體的像素空間。這就是為什么像素空間的預(yù)測都失敗了,因為它太復(fù)雜了。

Daphne Koller:但是這不僅僅是關(guān)于視頻的問題。我認(rèn)為嬰兒學(xué)到的另一件事是因果的概念。他們通過對世界的干預(yù),并觀察發(fā)生的事情來學(xué)習(xí)的。而我們的 LLM 還沒有做到這一點。它們完全是預(yù)測性引擎,只是在建立關(guān)聯(lián),沒有真正理解因果關(guān)系。而理解因果關(guān)系,對于人類與物質(zhì)世界的交互極為重要,尤其是在我們嘗試將數(shù)字信息與實體世界聯(lián)系起來的時候。這是當(dāng)前模型中缺失的一項很重要的能力。這種能力在實際應(yīng)用的模型中缺失,在計算機進(jìn)行常識推理的能力中也是缺失的。當(dāng)我們嘗試將其應(yīng)用于其他領(lǐng)域,無論是制造業(yè)、生物學(xué)還是任何與物理世界互動的領(lǐng)域時,這種能力也都是缺失的。

Yann LeCun:在具身系統(tǒng)中,它實際上是有效的。有些系統(tǒng)是建立在對世界的模型上的。比如,這里有一個表示在時間點 t 的世界狀態(tài)的模型,這里是我可能會采取的行動。想一想,在時間點 t+1 世界的狀態(tài)會是什么?這就是所謂的世界模型。如果你有了這種世界模型,你就可以規(guī)劃一系列行動來達(dá)到一個特定目標(biāo)。

目前,我們還沒有任何基于這一原理的 AI 系統(tǒng),除了非常簡單的機器人系統(tǒng)。它們的學(xué)習(xí)速度并不快。因此,一旦我們能夠擴展這種模型的規(guī)模,我們就能擁有能理解世界、理解物理世界的系統(tǒng)。它們可以規(guī)劃,可以推理,可以理解因果關(guān)系。因為它們知道一個行動可能產(chǎn)生什么效果。它將以目標(biāo)為導(dǎo)向。我們可以利用這種規(guī)劃給它們設(shè)定目標(biāo),這就是人工智能系統(tǒng)的未來架構(gòu)。在我看來,一旦我們搞清楚怎么實現(xiàn)這一切,就不會有人還愿意用目前的方式。


責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2022-11-07 10:20:20

useEffects

2024-10-06 13:00:05

2013-08-16 10:00:45

VMwareOpenStack

2015-03-12 13:39:48

Hadoop場景大數(shù)據(jù)

2021-01-31 18:52:36

Rust開發(fā)Web API

2019-02-01 11:14:34

AI 行業(yè) 人工智能

2009-01-15 18:30:11

服務(wù)器虛擬化VMware

2018-07-29 07:58:34

物聯(lián)網(wǎng)IOT物聯(lián)網(wǎng)產(chǎn)品

2019-09-15 17:43:14

JSON HTTP物聯(lián)網(wǎng)技術(shù)

2010-07-20 09:56:53

VDI部署

2022-07-12 14:04:19

Kafka

2012-03-13 15:28:47

Kindle Fire傲游

2013-08-13 14:33:17

程序員

2013-12-09 10:16:03

Android firAndroid開發(fā)移動創(chuàng)業(yè)

2016-11-04 09:41:48

容器Docker

2009-01-08 17:15:29

服務(wù)器虛擬化高性能計算

2019-08-26 00:37:19

WiFi 65GWi-Fi

2015-07-23 11:26:35

虛擬化負(fù)載類型

2012-06-25 14:09:58

2022-07-25 17:48:37

AI開源代碼
點贊
收藏

51CTO技術(shù)棧公眾號