自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

美國(guó)教授用2歲女兒訓(xùn)AI模型登Science!人類幼崽頭戴相機(jī)訓(xùn)練全新AI

人工智能 新聞
為訓(xùn)練AI模型,紐約州立大學(xué)的一名教授Brenden Lake,竟讓自己不到2歲女兒頭戴相機(jī)收集數(shù)據(jù)!要知道,Meta訓(xùn)Llama 3直接用了15萬(wàn)億個(gè)token,如果Lake真能讓AI模型學(xué)習(xí)人類幼崽,從有限的輸入中學(xué)習(xí),那LLM的全球數(shù)據(jù)荒豈不是解決了?

絕了,為了訓(xùn)練AI模型,一位紐約州立大學(xué)的教授,竟然把類似GoPro的相機(jī)綁在了自己女兒頭上!

雖然聽(tīng)起來(lái)不可思議,但這位教授的行為,其實(shí)是有據(jù)可循的。

圖片

要訓(xùn)練出LLM背后的復(fù)雜神經(jīng)網(wǎng)絡(luò),需要海量數(shù)據(jù)。

目前我們訓(xùn)練LLM的過(guò)程,一定是最簡(jiǎn)潔、最高效的方式嗎?

肯定不是!科學(xué)家們發(fā)現(xiàn),蹣跚學(xué)步的人類兒童,大腦就像海綿吸水一樣,能迅速形成一個(gè)連貫的世界觀。

圖片

雖然LLM時(shí)有驚人的表現(xiàn),但隨著時(shí)間的推移,人類兒童會(huì)比模型更聰明、更有創(chuàng)造力!

兒童掌握語(yǔ)言的秘密

如何用更好的方法訓(xùn)練LLM?

科學(xué)家們苦思不得其解之時(shí),人類幼崽讓他們眼前一亮——

他們學(xué)習(xí)語(yǔ)言的方式,堪稱是語(yǔ)言習(xí)得的大師。

圖片

咱們都知道這樣的故事:把一個(gè)幼年的孩子扔進(jìn)一個(gè)語(yǔ)言文化完全不同的國(guó)家,不出幾個(gè)月,ta對(duì)于當(dāng)?shù)卣Z(yǔ)言的掌握可能就接近了母語(yǔ)水平。

而大語(yǔ)言模型,就顯得相形見(jiàn)絀了。

首先,它們太費(fèi)數(shù)據(jù)了!

如今訓(xùn)模型的各大公司,快把全世界的數(shù)據(jù)給薅空了。因?yàn)長(zhǎng)LM的學(xué)習(xí),需要的是從網(wǎng)絡(luò)和各個(gè)地方挖掘的天文數(shù)字級(jí)的文本。

要讓它們掌握一門語(yǔ)言,需要喂給它們數(shù)萬(wàn)億個(gè)單詞。

圖片

Brenden Lake和參與這項(xiàng)研究的NYU學(xué)者

其次,興師動(dòng)眾地砸了這么多數(shù)據(jù)進(jìn)去,LLM也未必學(xué)得準(zhǔn)確。

許多LLM的輸出,是以一定準(zhǔn)確度預(yù)測(cè)下一個(gè)單詞。而這種準(zhǔn)確度,越來(lái)越令人不安。

形成鮮明對(duì)比的是,要學(xué)會(huì)流利使用一門語(yǔ)言,兒童可不需要這么多經(jīng)驗(yàn)。

紐約州立大學(xué)研究人類和AI的心理學(xué)家Brenden Lake,就盯上了這一點(diǎn)。

他決定,拿自己1歲9個(gè)月的女兒Luna做實(shí)驗(yàn)。

圖片

過(guò)去的11個(gè)月里,Lake每周都會(huì)讓女兒戴一個(gè)小時(shí)的相機(jī),以她的角度記錄玩耍時(shí)的視頻。

通過(guò)Luna相機(jī)拍攝的視頻,Lake希望通過(guò)使用孩子接觸到的相同數(shù)據(jù),來(lái)訓(xùn)練模型。

圖片

把GoPro綁在蹣跚學(xué)步的女兒身上

雖然目前語(yǔ)言學(xué)家和兒童專家對(duì)于兒童究竟如何習(xí)得語(yǔ)言,并未達(dá)成一致,但Lake十分確信:使LLM更有效率的秘訣,就藏在兒童的學(xué)習(xí)模式里!

因此,Lake開(kāi)展了這樣一項(xiàng)研究項(xiàng)目:研究?jī)和趯W(xué)習(xí)第一句話時(shí)所經(jīng)歷的刺激,以此提高訓(xùn)練LLM的效率。

為此,Lake的團(tuán)隊(duì)需要收集來(lái)自美國(guó)各地的25名兒童的視頻和音頻數(shù)據(jù)。

這就有了文章開(kāi)頭的一幕——他們把類似GoPro的相機(jī)綁在了這些孩子的頭上,包括Lake的女兒Luna。

圖片

Lake解釋道,他們的模型試圖從孩子的角度,將視頻片段和孩子的照顧者所說(shuō)的話聯(lián)系起來(lái),方式類似于OpenAI的Clip模型將標(biāo)注和圖像聯(lián)系起來(lái)。

Clip可以將圖像作為輸入,并根據(jù)圖像-標(biāo)注對(duì)的訓(xùn)練數(shù)據(jù),輸出一個(gè)描述性標(biāo)注作為建議。

論文地址:https://openai.com/index/clip/

另外,Lake團(tuán)隊(duì)的模型還可以根據(jù)GoPro鏡頭的訓(xùn)練數(shù)據(jù)和照顧者的音頻,將場(chǎng)景的圖像作為輸入,然后輸出語(yǔ)言來(lái)描述這個(gè)場(chǎng)景。

而且,模型還可以將描述轉(zhuǎn)換為以前在訓(xùn)練中看到的幀。

乍一聽(tīng),是不是還挺簡(jiǎn)單的?就是讓模型像人類兒童一樣,學(xué)會(huì)將口語(yǔ)和在視頻幀中所觀察到的物體相匹配。

但具體執(zhí)行起來(lái),還會(huì)面臨很多復(fù)雜的狀況。

比如,孩子們并不一定總是看著被描述的物體或動(dòng)作。

甚至還有更抽象的情況,比如我們給孩子牛奶,但牛奶是裝在不透明的杯子里,這就會(huì)導(dǎo)致關(guān)聯(lián)非常松散。

因而,Lake解釋說(shuō):這個(gè)實(shí)驗(yàn)并不是想證明,我們是否可以訓(xùn)練模型將圖像中的對(duì)象與相應(yīng)的單詞相匹配(OpenAI已經(jīng)證明了這一點(diǎn))。

相反,團(tuán)隊(duì)想要做的是,希望知道模型是否可以只用兒童可用的稀疏數(shù)據(jù)級(jí)(稀疏到難以置信的程度),就能真的學(xué)習(xí)識(shí)別物體。

可以看到,這和OpenAI、谷歌、Meta等大公司構(gòu)建模型的思路完全相反。

要知道,Meta訓(xùn)練Llama 3,用了15萬(wàn)億個(gè)token。

如果Lake團(tuán)隊(duì)的實(shí)驗(yàn)成功,或許全世界共同面臨的LLM數(shù)據(jù)荒,就有解了——因?yàn)槟菚r(shí),訓(xùn)練LLM根本就不需要那么多的數(shù)據(jù)!

圖片

也就是說(shuō),新的思路是,讓AI模型從有限的輸入中學(xué)習(xí),然后從我們看到的數(shù)據(jù)中推廣出來(lái)。

我認(rèn)為我們的關(guān)注點(diǎn),不該局限在從越來(lái)越多的數(shù)據(jù)中訓(xùn)練越來(lái)越大的LLM。是的,你可以通過(guò)這種方式讓LLM具有驚人的性能,但它已經(jīng)離我們所知道的人類智能奇妙之處越來(lái)越遠(yuǎn)……

早期實(shí)驗(yàn)已經(jīng)取得成功

早期的實(shí)驗(yàn)結(jié)果,已經(jīng)證明了Lake團(tuán)隊(duì)的思路可能是對(duì)的。

今年2月,他們?cè)?jīng)用了61小時(shí)的視頻片段訓(xùn)出一個(gè)神經(jīng)網(wǎng)絡(luò),紀(jì)錄一個(gè)幼兒的經(jīng)歷。

研究發(fā)現(xiàn),模型能夠?qū)⒈辉囌f(shuō)出的各種單詞和短語(yǔ),與視頻幀中捕獲的體驗(yàn)聯(lián)系起來(lái)——只要呈現(xiàn)要給單詞或短語(yǔ),模型就能回憶起相關(guān)圖像。這篇論文已經(jīng)發(fā)表于Science。

圖片

論文地址:https://www.science.org/doi/10.1126/science.adi1374

Lake表示,最令人驚喜的是,模型竟然能夠概括出未訓(xùn)練的圖像中的對(duì)象名稱!

當(dāng)然,準(zhǔn)確性未必很好。但模型本來(lái)也只是為了驗(yàn)證一個(gè)概念而已。

項(xiàng)目尚未完成,因?yàn)槟P瓦€沒(méi)有學(xué)到一個(gè)兒童會(huì)知道的一切。

畢竟,它只有60小時(shí)左右的帶標(biāo)注的演講,這僅僅是一個(gè)兒童在兩年內(nèi)所習(xí)得經(jīng)驗(yàn)的百分之一。而團(tuán)隊(duì)還需要更多的數(shù)據(jù),才能搞清什么是可學(xué)習(xí)的。

而且Lake也承認(rèn),第一個(gè)模型使用的方法還是有局限性——

僅分析與照顧者話語(yǔ)相關(guān)的視頻片段,僅僅是鏡頭以每秒5幀的速度轉(zhuǎn)化為圖像,只憑這些,AI并沒(méi)有真正學(xué)會(huì)什么是動(dòng)詞,什么是抽象詞,它獲得的僅僅是關(guān)于世界樣子的靜態(tài)切片。

因?yàn)樗鼘?duì)之前發(fā)生了什么、之后發(fā)生了什么、談話背景都一無(wú)所知,所以很難學(xué)習(xí)什么是「走」「跑」「跳」。

但以后,隨著建模視頻背后的技術(shù)越來(lái)越成熟,Lake相信團(tuán)隊(duì)會(huì)構(gòu)建更有效的模型。

如果我們能夠建立一個(gè)真正開(kāi)始習(xí)得語(yǔ)言的模型,它就會(huì)為理解人類的學(xué)習(xí)和發(fā)展開(kāi)辟重要的應(yīng)用程序,或許能幫我們理解發(fā)育障礙,或兒童學(xué)習(xí)語(yǔ)言的情況。

最終,這樣的模型還可以用來(lái)測(cè)試數(shù)百萬(wàn)種不同的語(yǔ)言治療法。

話說(shuō)回來(lái),孩子究竟是如何通過(guò)自己的眼睛和耳朵,扎實(shí)地掌握一門語(yǔ)言的呢?

圖片

讓我們仔細(xì)看看Lake團(tuán)隊(duì)發(fā)在Science上的這篇文章。

將單詞和實(shí)物、視覺(jué)圖像聯(lián)系起來(lái)

人類兒童如何褪去對(duì)這個(gè)世界的懵懂無(wú)知,習(xí)得知識(shí)?這個(gè)「黑箱」的奧秘,不僅吸引著教育學(xué)家們的不斷求索,也是困于我們每個(gè)人心底關(guān)于個(gè)體智慧來(lái)處的追問(wèn)。

韓國(guó)科幻作家金草葉在《共生假說(shuō)》中寫下這樣的設(shè)想:人類兒童在幼年時(shí)期所展示出的智慧其實(shí)承載著一個(gè)失落的外星文明,他們選擇用這樣的方式和人類共生,可是時(shí)間只有短短的五年,在人類長(zhǎng)大擁有真正牢固的記憶之后,便把幼年時(shí)期這段瑰麗的記憶抹去了。

也時(shí)常有網(wǎng)友會(huì)在網(wǎng)上分享出,那些「忘記喝孟婆湯」的人類幼崽故事。

關(guān)于謎一樣的幼年時(shí)期,那是我們很難說(shuō)清也難以回返的神秘之地,是一種「鄉(xiāng)愁」。就像金草葉寫下的」不要離開(kāi)。不要帶走那個(gè)美麗的世界。在我長(zhǎng)大之后,也請(qǐng)留在我身邊。

幼兒究竟是如何將新單詞和特定的物體,或視覺(jué)概念聯(lián)系起來(lái)的?

比如,聽(tīng)到「球」這個(gè)詞時(shí),兒童是如何想到有彈性的圓形物體的?

圖片

為此,Lake的團(tuán)隊(duì)給一個(gè)兒童戴上了頭戴式攝像機(jī),追蹤了ta從6到25個(gè)月期間的成長(zhǎng)過(guò)程,記錄了一個(gè)61小時(shí)的視覺(jué)語(yǔ)言數(shù)據(jù)流。

在這個(gè)兒童1.5年的剪輯數(shù)據(jù)集(包括60萬(wàn)個(gè)視頻幀和37500條轉(zhuǎn)錄話語(yǔ)配對(duì))上,研究者訓(xùn)練出了一個(gè)模型,即兒童視角對(duì)比學(xué)習(xí)模型CVCL。

圖片

這個(gè)模型實(shí)例化了跨情景的聯(lián)想學(xué)習(xí)形式,確定了單詞和可能的視覺(jué)指示物之間的映射。

這個(gè)模型協(xié)調(diào)了兩個(gè)神經(jīng)網(wǎng)絡(luò)、視覺(jué)編碼器和語(yǔ)言編碼器的對(duì)比目標(biāo),以自監(jiān)督的方式進(jìn)行訓(xùn)練(即僅使用兒童視角的錄音,不使用外部標(biāo)簽),對(duì)比目標(biāo)將視頻幀的嵌入(向量)和時(shí)間上同時(shí)出現(xiàn)的語(yǔ)言話語(yǔ)結(jié)合在一起(處理同時(shí)出現(xiàn)的視頻幀和語(yǔ)言話語(yǔ)的嵌入)

當(dāng)然,這個(gè)名為SAYCam-S的數(shù)據(jù)集是有限的,因?yàn)樗徊东@了孩子大約1%的清醒時(shí)間,錯(cuò)過(guò)了很多他們的經(jīng)歷。

但是盡管如此,CVCL依然可以從一個(gè)兒童的有限經(jīng)歷中,學(xué)習(xí)到強(qiáng)大的多模態(tài)表征!

團(tuán)隊(duì)成功地證明了,模型獲取了兒童日常經(jīng)歷中存在許多的指涉映射,因而能夠零樣本地概括新的視覺(jué)指涉,并且調(diào)整其中的視覺(jué)和語(yǔ)言概念系統(tǒng)。

評(píng)估習(xí)得的詞義映射

具體來(lái)說(shuō),在訓(xùn)練完成后,團(tuán)隊(duì)評(píng)估了CVCL和各種替代模型所學(xué)習(xí)的單詞指涉映射的質(zhì)量。

結(jié)果顯示,CVCL的分類準(zhǔn)確率為61.6%。

而且圖2D顯示,對(duì)于其中22個(gè)概念中的11個(gè)概念,CVCL的性能和CLIP的誤差在5%以內(nèi),但CLIP的訓(xùn)練數(shù)據(jù),卻要多出幾個(gè)數(shù)量級(jí)(4億個(gè)來(lái)自網(wǎng)絡(luò)的圖像-文本對(duì))。

圖片

研究結(jié)果顯示,許多最早的單詞所指映射,可以從至少10到100個(gè)自然出現(xiàn)的單詞-所指對(duì)中獲得。

泛化新的視覺(jué)范例

另外,研究者還評(píng)估了CVCL學(xué)到的單詞,是否可以推廣到分布外的視覺(jué)刺激上。

圖3A顯示,CVCL也同時(shí)表現(xiàn)出了對(duì)這些視覺(jué)概念的一些了解,總體準(zhǔn)確率在34.7%。

圖片

顯然,這個(gè)任務(wù)需要更大的概念集,以及額外難度的分布外泛化。

圖片

左邊是兩個(gè)隨機(jī)選擇的訓(xùn)練案例,右邊是四個(gè)測(cè)試案例,下面的百分比代表模型識(shí)別此張圖像的準(zhǔn)確度和性能,選取案例從左到右分別是兩個(gè)最高值、中值和最低值。可以看出,當(dāng)測(cè)試案例和訓(xùn)練案例在色彩、形狀方面相似度更高時(shí),模型識(shí)別的準(zhǔn)確度也更高

多模態(tài)一致性很好

最后,研究者測(cè)試了CVCL的視覺(jué)和語(yǔ)言概念系統(tǒng)的一致性。

例如,如果相比于「球」, 「汽車」的視覺(jué)嵌入和詞嵌入都與「路」更相似,這就表明多模態(tài)對(duì)齊的效果很好。

下圖顯示出,CVCL視覺(jué)和語(yǔ)言系統(tǒng)的高度對(duì)齊。

圖片

圖像和文本之間的關(guān)系,虛線表示每個(gè)概念對(duì)應(yīng)的視覺(jué)質(zhì)心與單詞嵌入之間的距離

不同的視覺(jué)概念在其例子的緊密聚集程度上有所不同。因?yàn)閶雰旱囊暰€會(huì)在距離很近的物體之間游移,就導(dǎo)致模型在區(qū)分「手」和「玩具」時(shí)沒(méi)有形成清晰的參照映射,「汽車」和「嬰兒床」就有比較好的表現(xiàn)

在每幅圖中,研究者直觀展示了CVCL預(yù)測(cè)與使用t-SNE的標(biāo)簽示例的比較。

圖片

左邊的藍(lán)色點(diǎn)對(duì)應(yīng)屬于一個(gè)特定類別的100個(gè)幀,右邊的綠色點(diǎn)對(duì)應(yīng)于100個(gè)最高的激活幀(基于與CVCL中每個(gè)概念嵌入的單詞的余弦相似性)。在每個(gè)圖下面,是每個(gè)概念中屬于一個(gè)或多個(gè)子簇的多個(gè)示例幀,捕捉了單詞嵌入如何與聯(lián)合嵌入空間中的圖像嵌入交互。例如,對(duì)于「樓梯」這個(gè)詞,我們看到一個(gè)簇代表室內(nèi)木制樓梯的圖像,而另一個(gè)主要簇代表室外藍(lán)色樓梯組的圖像。這些圖中所有的t-SNE圖都來(lái)自于同一組聯(lián)合圖像和文本嵌入。

下圖顯示,模型可以在不同視圖中,定位目標(biāo)所指。

圖片

在歸一化注意力圖中,黃色表示注意力最高的區(qū)域。在前兩個(gè)類別(球和車)中,我們可以看到模型可以在不同視圖中定位目標(biāo)所指。但是,在下面兩個(gè)類別(貓和紙)中,注意力圖有時(shí)會(huì)與所指物錯(cuò)位,這表明定位所指物的能力并不是在所有類別中都一致的。

當(dāng)然,兒童的學(xué)習(xí)和機(jī)器學(xué)習(xí)模型還是有許多不同的。

但Lake團(tuán)隊(duì)的研究,無(wú)疑對(duì)我們有很大的啟發(fā)。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2022-08-14 15:13:04

AI英偉達(dá)

2021-01-12 15:36:11

AI 數(shù)據(jù)人工智能

2022-12-02 15:25:03

2020-01-19 09:25:58

失獨(dú)AI技術(shù)

2024-07-25 12:35:33

2021-05-07 15:27:30

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-09-20 12:58:00

訓(xùn)練研究

2023-05-22 09:42:12

AI檢測(cè)

2023-09-06 13:17:00

AI數(shù)據(jù)

2024-02-02 21:39:04

AI模型

2021-05-28 10:10:22

AI 數(shù)據(jù)人工智能

2022-11-24 10:39:08

AI外交

2024-07-29 07:04:00

大模型AI訓(xùn)AI人工智能

2023-05-18 14:05:24

AI檢測(cè)

2023-02-12 14:00:52

ChatGPTAI人類

2024-07-29 08:00:00

模型論文

2024-07-25 13:56:49

2023-07-14 11:47:08

AI醫(yī)生

2022-02-10 16:14:06

AI賽車游戲

2024-03-25 11:37:40

機(jī)器學(xué)習(xí)人工智能進(jìn)化算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)