自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Jeff Dean回憶谷歌趣事：吳恩達激勵自己繼續(xù)研究，Hinton曾是最強「實習(xí)生」

作者：機器之心 2024-09-23 09:00:00

人工智能新聞

我認(rèn)為弄清楚如何將不同的模態(tài)整合到模型中，以及應(yīng)該如何訓(xùn)練一個多模態(tài)模型，確實比訓(xùn)練一個單純的語言模型要復(fù)雜的多。但從中你可以獲得很多好處，例如有時能實現(xiàn)跨模態(tài)的遷移。

1999 年 8 月，Jeff Dean 加入了谷歌，成為早期第 20 號員工。他在 2011 年參與創(chuàng)立了 Google Brain 團隊，專注于智能機器領(lǐng)域的進展。自那時起，他的工作重心轉(zhuǎn)到了 AI 和 ML 領(lǐng)域的研究、系統(tǒng)和應(yīng)用，并引領(lǐng)了更廣泛 AI/ML 和計算機科學(xué)研究社區(qū)的發(fā)展方向。

2020 年 12 月，Jeff Dean 獲得了 2021 年度 IEEE 馮諾依曼獎，以表彰他對大規(guī)模分布式計算機系統(tǒng)和人工智能系統(tǒng)科學(xué)與工程的貢獻。2023 年 4 月，谷歌宣布將旗下 Google Brain 和 DeepMind 合并，成立了 Google DeepMind。Jeff Dean 成為該部門的首席科學(xué)家。

作為谷歌的 AI「掌門人」，在谷歌工作了 25 年的 Jeff Dean 見證著 AI 發(fā)展的過去、現(xiàn)在與未來。在最近的一次訪談中，他和倫敦大學(xué)學(xué)院的副教授 Hannah Fry 暢談了谷歌 AI 布局的昨天、今天與明天。

在訪談中，Jeff Dean 開啟了回憶殺。

90 年代，神經(jīng)網(wǎng)絡(luò)的性能有限。Jeff Dean 在本科時曾探索過大規(guī)模神經(jīng)網(wǎng)絡(luò)，以失敗告終，后來在谷歌，是和吳恩達的一次談話激發(fā)了他繼續(xù)擴展神經(jīng)網(wǎng)絡(luò)的想法。

彼時，大洋彼岸的 DeepMind 正在主攻強化學(xué)習(xí)，來谷歌訪問的史上最強 60 歲「實習(xí)生」Hinton（沒錯，就是深度學(xué)習(xí)之父）提議去考察，這才有了 Google 和 DeepMind 的強強聯(lián)合。如今，Scaling 和強化學(xué)習(xí)都讓 AI 的智能程度上了一個臺階。

Jeff Dean 還分享了一個有趣的事情，Gemini 這個名字是他提出的。Jeff Dean 表示 Gemini 代表雙胞胎，就像 DeepMind 和 Google Brain 的合并，代表著這兩個部門共同致力于一個雄心勃勃的多模態(tài)項目。

大家都在談?wù)摰?Transformer，Jeff Dean 也進行了簡單明了的介紹。

以下是訪談主要內(nèi)容的摘錄：

重拾神經(jīng)網(wǎng)絡(luò)，起因竟然是和吳恩達聊天？

主持人：你還記得你第一次接觸神經(jīng)網(wǎng)絡(luò)是什么時候嗎？

Jeff Dean：神經(jīng)網(wǎng)絡(luò)有著有趣的歷史。人工智能（AI）本身是一門相當(dāng)古老的學(xué)科，早期的 AI 研究主要是試圖定義一系列規(guī)則，告訴我們世界是如何運作的。這一階段大概發(fā)生在 20 世紀(jì) 50 年代、60 年代和 70 年代。后來，神經(jīng)網(wǎng)絡(luò)在 70 年代開始出現(xiàn)，并在 80 年代末和 90 年代初迎來了一波熱潮。

大約在 1990 年，我還是明尼蘇達大學(xué)的一名本科生。我當(dāng)時正在上并行處理課程，學(xué)習(xí)如何將一個大問題分解為可以在不同計算機上獨立完成的小問題，然后讓這些計算機一起協(xié)作解決問題。

主持人：那聽起來有點像我們今天所說的并行計算能力不足的問題。你們當(dāng)時是怎么讓計算機「像團隊一樣」工作的？

Jeff Dean：當(dāng)時神經(jīng)網(wǎng)絡(luò)是一種特殊的機器學(xué)習(xí)和 AI 方法，基于我們對大腦工作原理的粗略近似 —— 特別是人類或其他生物的大腦如何通過神經(jīng)元協(xié)同工作。這就是為什么它們被稱為「神經(jīng)網(wǎng)絡(luò)」，因為它們由人工神經(jīng)元組成。每個神經(jīng)元與其他神經(jīng)元相連，通過信號傳遞來決定是否對某一特定輸入模式做出反應(yīng)。

一個神經(jīng)網(wǎng)絡(luò)通常有很多層次。較低層次的神經(jīng)元學(xué)習(xí)識別一些簡單的特征，比如圖像中的色塊或邊緣。然后，較高層次的神經(jīng)元會在這些簡單特征的基礎(chǔ)上學(xué)習(xí)識別更復(fù)雜的模式，比如物體的形狀，甚至是臉部的特征。

因此，通過構(gòu)建這些分層的學(xué)習(xí)抽象，這些系統(tǒng)實際上可以發(fā)展出非常強大的模式識別能力。這就是 80 年代末和 90 年代初大家對神經(jīng)網(wǎng)絡(luò)感到興奮的原因。

然而，當(dāng)時的網(wǎng)絡(luò)規(guī)模非常小，只能識別一些手寫數(shù)字或非常簡單的人工模式，遠(yuǎn)不能識別像人臉或汽車這樣的復(fù)雜對象。

人們當(dāng)時很興奮，因為這些網(wǎng)絡(luò)可以解決一些基于邏輯規(guī)則的系統(tǒng)無法解決的問題。神經(jīng)網(wǎng)絡(luò)可以泛化到處理凌亂的手寫字符，而基于規(guī)則的系統(tǒng)很難做到這一點。

在聽了兩次關(guān)于神經(jīng)網(wǎng)絡(luò)的講座后，我對此產(chǎn)生了濃厚的興趣。我決定寫一篇關(guān)于并行訓(xùn)練神經(jīng)網(wǎng)絡(luò)的高級榮譽論文，因為我認(rèn)為我們只需要更多的計算能力。如果我們可以使用系里的一臺 32 處理器的機器，是不是就能訓(xùn)練出一個更大的神經(jīng)網(wǎng)絡(luò)？這就是我花了幾個月時間研究的內(nèi)容。

主持人：那有效果嗎？

Jeff Dean：是的，但不如我想象的那么好。我當(dāng)時是個天真的本科生，認(rèn)為 32 處理器就能讓神經(jīng)網(wǎng)絡(luò)「嗡嗡作響」，快速運轉(zhuǎn)起來，但實際上，我們需要大約一百萬倍的計算能力，才能讓這些網(wǎng)絡(luò)真正解決實際問題。

不過，隨著摩爾定律帶來的 20 年計算進步，CPU 和其他計算設(shè)備變得越來越快，我們終于擁有了可以實際應(yīng)用的系統(tǒng)，其計算能力是當(dāng)時 32 處理器機器的一百萬倍。

后來我重拾對神經(jīng)網(wǎng)絡(luò)的興趣是在遇到吳恩達之后。當(dāng)時，他是斯坦福大學(xué)的老師，每周有一天在谷歌做顧問，我有一次在公司的微型廚房里遇見了他。我當(dāng)時好像問了，「你在谷歌做什么工作？」他說，「我還沒有弄清楚，因為我剛來。但是我在斯坦福大學(xué)的一些學(xué)生在神經(jīng)網(wǎng)絡(luò)方面取得了很好的成績。」我說，「哦，真的嗎？那我們?yōu)槭裁床挥?xùn)練一個非常大的神經(jīng)網(wǎng)絡(luò)呢？」

這就是谷歌神經(jīng)網(wǎng)絡(luò)工作的起源。然后我們成立了一個名為谷歌大腦的小團隊，開始研究如何利用谷歌的計算資源訓(xùn)練非常大的神經(jīng)網(wǎng)絡(luò)。所以我們建立了軟件基礎(chǔ)設(shè)施，使我們能夠獲取神經(jīng)網(wǎng)絡(luò)描述，然后將其分解成可以在不同計算機上、由團隊的不同成員完成的片段。這些計算機以它們需要的方式相互交流，以解決如何在 2000 臺計算機上訓(xùn)練單個神經(jīng)網(wǎng)絡(luò)的總體問題。這是我們?yōu)檎嬲龜U大神經(jīng)網(wǎng)絡(luò)訓(xùn)練而開發(fā)的最早的軟件。它讓我們能夠訓(xùn)練比現(xiàn)有神經(jīng)網(wǎng)絡(luò)大 50 到 100 倍的模型。

主持人：這大概是 2011 年的時候，對嗎？

Jeff Dean：是的，那是在 2012 年初。

主持人：所以這是圖像識別領(lǐng)域取得重大突破之前的事情，對吧？這聽起來像是很早期的工作。在很多方面，你當(dāng)時做的事情其實和你之前做的一樣，只不過是把多個計算機結(jié)合起來工作。

Jeff Dean：是的，就像我本科畢業(yè)論文里做的那樣。只不過這次做出的神經(jīng)網(wǎng)絡(luò)真的能用了，因為我們的計算機變得更快，而且我們用了更多的計算機。

主持人：但在 2011 年，你覺得這是一場賭博嗎？

Jeff Dean：哦，是的，絕對是。我們當(dāng)時構(gòu)建了一個系統(tǒng)，用來訓(xùn)練這些神經(jīng)網(wǎng)絡(luò)，并嘗試不同的方法來分解這些網(wǎng)絡(luò)。我把這個系統(tǒng)命名為 DistBelief，一部分原因是因為許多人認(rèn)為這不會真正起作用，另一部分原因是它是一個分布式系統(tǒng)，除了神經(jīng)網(wǎng)絡(luò)之外，我們還想要訓(xùn)練的是「信念網(wǎng)絡(luò)」。

谷歌收購 DeepMind，提議來自史上最強 60 歲「實習(xí)生」Hinton

主持人：這太驚人了。當(dāng)這一切發(fā)生時，在大西洋彼岸，一家名為 DeepMind 的公司正在嶄露頭角。

2011 年，Demis Hassabis 創(chuàng)立了 DeepMind

Jeff Dean：是的。

主持人：你就是提出想去考察 DeepMind 的人，對吧？給我們講講這個故事吧。

Jeff Dean：好的。Jeffrey Hinton，他是非常有名的機器學(xué)習(xí)研究者。他在谷歌度過了一個夏天，那大概是 2011 年。我們不知道該如何給他定位，所以 Hinton 被歸類成實習(xí)生了。想想還挺好笑的。

主持人：歷史上最高級的實習(xí)生。

歷史上最高級的「實習(xí)生」

Jeff Dean：所以，他和我一起工作，不知怎地，我們發(fā)現(xiàn)了 DeepMind。Hinton 應(yīng)該更了解 DeepMind，比如公司的構(gòu)成。其他一些人也提到過，說：「哦，是的，英國有這么一家公司。」

主持人：當(dāng)時 DeepMind 的規(guī)模還很小。

Jeff Dean：是的，當(dāng)時他們大概只有 40 到 50 個人。所以我們決定代表公司，把他們當(dāng)成潛在的收購對象考察。后來我在加州，Hinton 回到了多倫多，他要回去教課。

還有，Hinton 的背不好，所以他不能長時間坐飛機，因為他不能坐下來，他只能躺下或站起來。你在飛機起飛時站起來，機長可能要不開心了。那我們必須想辦法解決，于是我們在私人飛機上安排了一張醫(yī)療床。我們一群人從加州起飛，飛往多倫多，在停機坪上接上 Hinton，并把他安置到飛機上的醫(yī)療床上。

再一起飛到英國，降落在一個小機場。機場在郊區(qū)。我們上了一輛商務(wù)車，成群結(jié)隊地去參觀 DeepMind。當(dāng)時 DeepMind 大概在羅素廣場附近辦公。前一天晚上我們坐飛機真的很累，但 DeepMind 帶來了連續(xù) 13 場 20 分鐘的講座，他們匯報各自的業(yè)務(wù)。

主持人：一個組一個組地來嗎？

Jeff Dean：是的。所以我們看到了 DeepMind 的工作成果。

主持人：當(dāng)時時差還沒倒過來吧？

Jeff Dean：是的，時差還沒倒過來呢！

主持人：這好像情景喜劇的劇情。

Jeff Dean：沒錯。所以我們聽了一些他們正在研究的 Atari 的報告，后來他們也發(fā)表了如何運用強化學(xué)習(xí)讓 AI 學(xué)會玩舊版 Atari 2600 游戲的相關(guān)論文，比如「breakout」或者接乒乓球，各種各樣的有趣小游戲。

2016 年，DeepMind 為強化學(xué)習(xí)引入無監(jiān)督輔助任務(wù)，使得人工智能的 Atari 游戲水平達到人類的 9 倍。

主持人：因為當(dāng)時谷歌還沒開始做強化學(xué)習(xí)，對吧？

Jeff Dean：是的。我們當(dāng)時主要都在擴大規(guī)模，大規(guī)模的監(jiān)督和無監(jiān)督學(xué)習(xí)。

主持人：強化學(xué)習(xí)更受獎勵的激勵。

Jeff Dean：是啊。我認(rèn)為這些技術(shù)都有用，它們往往結(jié)合起來使用。我們可以這么來理解強化學(xué)習(xí)：有某些智能體要在某個環(huán)境中進行一些動作，每一步都有很多決策要做，有很多動作可以選擇。

例如，在圍棋游戲中，你可以把棋子放在棋盤里的任意位置，你可以上下左右移動 Atari 的操縱桿，你也可以按控制方向的按鈕。通常在這種情況下，你不會立即得到獎勵，比如在棋盤上放了一枚棋子，你不知道這一步走得好不好，直到整個棋局結(jié)束了才知道。

強化學(xué)習(xí)有一個有趣之處，它能夠處理較長的動作序列，并根據(jù)你做出這些動作時的預(yù)期程度，將獎勵或懲罰分配給你采取的動作序列。比如這是一個好的想法嗎？AI 按這個想法贏了，那就傾向這個方向一點；輸了，那就別太覺得那是個好主意。這大概就是強化學(xué)習(xí)的主要思想。這是個相當(dāng)有效的方法，尤其是在不清楚這是否是個好主意的情況下。

相比之下，監(jiān)督學(xué)習(xí)是你有輸入，并且有實際的輸出。舉一個經(jīng)典的例子來說，這里有一堆圖像，每張圖片都標(biāo)了一些特征。比如，這是一張圖，畫面中的物體是汽車。這是另一張圖，畫面中的物體是鴕鳥。這里有另一張圖，畫面中的物體是石榴。

主持人：你去 DeepMind 考察的時候，做了要收購的決定，那 Demis 緊張嗎？

Jeff Dean：他緊不緊張，我不知道。我當(dāng)時說：「好，我聽過了這些精彩的演講，但是我能看一點代碼嗎？」因為我想確認(rèn)這些演示背后確實有真實的代碼，并且看看他們的編碼標(biāo)準(zhǔn)如何，像是人們是否真的寫了注釋，類似這樣的東西。

Demis 有點不確定。我說：「不必給我看機密代碼，只需選擇一些代碼并向我展示?！?/span>

于是我和一個工程師走進一間辦公室，我們坐下來了 10 分鐘。我說：「好，這段代碼是做什么用的？」哦，原來是做這個的。那段是做什么用的？在哪里能向我展示這一功能的實現(xiàn)？我很滿意地走出了那間辦公室。

主持人：他們的代碼很整潔。

Jeff Dean：那是相當(dāng)整潔。對于試圖快速發(fā)展的小公司來說，它是一種研究代碼，但你清楚地知道 DeepMind 的代碼有趣且有據(jù)可查。

主持人：我聽說你編寫代碼時，會添加一個名為「lgtm」的東西。

Jeff Dean：是的，對我來說很有用。我在現(xiàn)實生活中也用它，不僅僅是為了代碼審查。

主持人：好吧，那么在 DeepMind 展示的 PPT 中，有什么展示給你留下印象了嗎？

Jeff Dean：他們的工作看起來非常有趣，特別是在強化學(xué)習(xí)這方面。谷歌專注于擴大規(guī)模，所以我們訓(xùn)練的模型比 DeepMind 的模型大得多。當(dāng)時 DeepMind 正在做各種嘗試，但他們當(dāng)時主要用強化學(xué)習(xí)解決 AI 玩游戲的問題。游戲是一個很好的、干凈的強化學(xué)習(xí)環(huán)境，但似乎結(jié)合了強化學(xué)習(xí)加上谷歌一直在做的擴展，最后的成果將會很驚艷。

主持人：這就像是對問題兩面夾擊，一方面通過強化學(xué)習(xí)，從微處著手，逐步構(gòu)建；另一方面，從擴大模型的規(guī)模來解決問題。當(dāng)你把各方面結(jié)合起來時，便能釋放出強大的力量。

Jeff Dean：是的，確實如此。這也是我們?nèi)ツ陮?DeepMind、Google Brain 和其他 Google 研究部門合并的主要原因。我們決定將這些部門合并在一起，成立 Google DeepMind。

構(gòu)建 Gemini 的想法早于合并之前，我們都在嘗試訓(xùn)練真正高質(zhì)量、大規(guī)模、多模態(tài)模型。合并前是分散想法、各部門之間合作少、并分散寶貴的計算資源等是沒有意義的。我們應(yīng)該把所有這些放在一起，建立一個聯(lián)合團隊來解決問題。

主持人：那為什么叫 Gemini？

Jeff Dean：實際上是我給起的名字。

Gemini 代表雙胞胎，就像 DeepMind 和 Google Brain 的合并，代表著這兩個部門真正開始合作并開展一個雄心勃勃的多模態(tài)項目，這是一個很好的名字。

Jeff Dean 對 Transformer 的看法

主持人：我想談?wù)勱P(guān)于多模態(tài)的內(nèi)容。但在此之前，我想公眾對聊天機器人和大型語言模型的認(rèn)識發(fā)生如此巨大變化的一個重要原因是，谷歌在 Transformer 方面的一些工作，你能向我們介紹一下 Transformer 及其帶來的變革嗎？

Jeff Dean：當(dāng)然。在語言和其他領(lǐng)域解決的問題，都是序列問題。例如，在 Gmail 中的自動補全功能，當(dāng)你輸入一個句子時，系統(tǒng)能夠幫助你完成剩下的部分。這主要依賴于模型觀察到一部分序列后，預(yù)測接下來會發(fā)生的內(nèi)容。這就是大型語言模型訓(xùn)練的目的：它們通過逐個詞或詞的一部分輸入數(shù)據(jù)，然后預(yù)測下一個可能出現(xiàn)的內(nèi)容，就像一個高級的自動補全功能。

事實證明這很有用，你也可以用這種方式模擬很多不同的問題。例如，在翻譯中，可以將其建模為接收一個英文句子，并訓(xùn)練模型輸出對應(yīng)的法語句子。只要有足夠的英、法句子對作為訓(xùn)練數(shù)據(jù)，就可以按照序列來進行訓(xùn)練。此外，這種方法也可以應(yīng)用于醫(yī)療領(lǐng)域，比如預(yù)測一個患者根據(jù)他們報告的癥狀、實驗室檢測結(jié)果以及過去的病歷記錄，你可以將整個情況建模為一個序列，然后預(yù)測最可能的診斷。如果你有其他去標(biāo)識化的數(shù)據(jù)可供訓(xùn)練，這些數(shù)據(jù)也以序列的形式組織，你可以通過隱藏序列的剩余部分，迫使模型預(yù)測下一步會發(fā)生什么。這種方法不僅適用于語言翻譯和醫(yī)療設(shè)置，還適用于 DNA 序列等多種場景，非常有趣且廣泛適用。

在 Transformer 架構(gòu)之前成功的模型是所謂的循環(huán)模型，這些模型具有某種內(nèi)部狀態(tài)，每當(dāng)它們看到一個詞時，就會進行一些處理來更新其內(nèi)部狀態(tài)。然后繼續(xù)處理下一個詞，并重復(fù)這一過程。因此，它們會將狀態(tài)向前推進一點，并根據(jù)剛剛看到的下一個詞來更新狀態(tài)?？梢詫⑦@個過程想象成一個包含 12 個詞的句子，你需要更新狀態(tài) 12 次，但每一步都依賴于前一步。這意味著要使其快速運行實際上相當(dāng)困難，因為存在所謂的順序依賴性，其中第 7 步依賴于第 6 步，第 6 步依賴于第 5 步，依此類推。

因此，Google Research 的研究人員們想出了一個非常有趣的想法，那就是我們不要只更新一個單詞的狀態(tài)，而是一次性處理所有單詞。并且記住在處理每個詞時得到的狀態(tài)。然后在嘗試預(yù)測新詞時，關(guān)注所有之前的狀態(tài)，并學(xué)習(xí)如何關(guān)注重要部分。這就是 Transformer 中的注意力機制，用來預(yù)測下一個詞。在某些情況下，你可能需要非常關(guān)注前一個詞；在某些上下文中，關(guān)注上下文中的許多詞語都很重要。但關(guān)鍵的是，這個過程可以并行完成。你可以接收 1000 個單詞，并行計算每個單詞的狀態(tài)，這使得在擴展性和性能上比以前的循環(huán)模型提高了 10 到 100 倍。這就是為什么這一發(fā)現(xiàn)如此重要的原因。

我認(rèn)為我們在 Google Brain 團隊中所做的語言建模工作實際上是對單詞進行建模，而不是對單詞的表面形式（如 hello）進行建模，實際上是對高維向量進行建模，該向量表示單詞的使用方式。我們?nèi)祟惲?xí)慣于在二維和三維空間中思考，但是當(dāng)你有 100 個維度或 1,000 個維度時，一千維空間中就會有很多空間。你以某種方式訓(xùn)練模型，cow、sheep、goat 和 pig 這些詞會彼此靠近，而與 espresso machine 這樣的詞相距甚遠(yuǎn)，這種高維表示尤其顯得有意義。

主持人：milk 和 sweet milk 會比較接近。

Jeff Dean：雖然 milk 可能指的是 sweet milk，milk 在這種高維模型中可能更靠近 cow，但又位于兩者之間的某個位置。這正是這些模型擁有出人意料的強大能力的原因之一，因為它們用如此多的高維度來表示事物，使得它們能夠同時緊密地抓住一個詞、一個句子或一個段落的多個不同方面，因為在它們的表示路徑中有很多空間。這種表示方式從某種程度上提取了我們自己給語言賦予的基礎(chǔ)含義。

我們在聽到一個詞時，并不僅僅考慮這個詞的表面形式。比如 cow，它會觸發(fā)一系列其他事物的聯(lián)想，如 milk、espresso machine、milking、calf 和 bull。我們在早期詞表示中發(fā)現(xiàn)，方向具有含義。例如，如果你考慮動詞的現(xiàn)在時態(tài)，比如 walk，在這個百維空間中，從 walk 變?yōu)?walked 的方向，和從 run 變?yōu)?ran 的方向，以及從 read 變?yōu)?read 的方向是相同的。

這實際上表明它能夠理解，這里確實存在一種時態(tài)的表達方式。而且，這是從訓(xùn)練過程中自然產(chǎn)生的，不是我們故意設(shè)定的。我們使用的訓(xùn)練算法和語言中特定形式的多樣使用方式導(dǎo)致了這種現(xiàn)象的出現(xiàn)。例如，你還可以改變詞的性別，如從 cow 到 bull 的方向，和從 queen 到 king 或從 woman 到 man 的方向是相同的。

主持人：這確實令人驚訝。但我們目前討論的還只是語言。那么多模態(tài)的方面是如何改變的呢？它有什么不同？多模態(tài)模型能夠觸發(fā)與我們看到一頭牛時在大腦中產(chǎn)生的類似激活的東西，從 cow 這個詞，到聽到牛叫的聲音。

Jeff Dean：你希望訓(xùn)練的模型能夠擁有這種聯(lián)合的意義和表達，不論它們是如何獲得輸入數(shù)據(jù)的。所以，如果模型看到一個視頻，里面是一頭牛在田野中行走，那么這應(yīng)該在模型中觸發(fā)一系列與此相關(guān)的事物，基于模型構(gòu)建的激活。這些模型通常是非常深層的。最低層通常具有非常簡單的表達，而模型中更高層次的層則在這些表達的基礎(chǔ)上構(gòu)建，形成更有趣、更復(fù)雜的特征和表達組合，無論是詞語還是圖像。

我認(rèn)為弄清楚如何將不同的模態(tài)整合到模型中，以及應(yīng)該如何訓(xùn)練一個多模態(tài)模型，確實比訓(xùn)練一個單純的語言模型要復(fù)雜的多。但從中你可以獲得很多好處，例如有時能實現(xiàn)跨模態(tài)的遷移。我們現(xiàn)在看到關(guān)于牛的視覺內(nèi)容實際上有助于語言信息的形成。也許你之前看到了許多關(guān)于牛在草地上的描述，但現(xiàn)在突然之間，模型看到了相關(guān)的圖像和視頻。它實際上能夠以一種方式將這些表征融合在一起，使得無論是看到 cow 這個詞還是相關(guān)的圖像，都能在模型內(nèi)部觸發(fā)類似的反應(yīng)。

責(zé)任編輯：張燕妮來源：機器之心

模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="1vlot"></cite><p id="1vlot"><li id="1vlot"></li></p>