自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="xjc1d"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

作者：李梅、黃楠 2022-09-21 13:50:03

人工智能新聞

“Dall-E 和 Stable Diffusion 等系統(tǒng)，對(duì)它們所描繪的世界到底了解有多少？”

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

自從 DALL-E 2 問世以來，很多人都認(rèn)為，能夠繪制逼真圖像的 AI 是邁向通用人工智能（AGI）的一大步。OpenAI 的 CEO Sam Altman 曾在 DALL-E 2 發(fā)布的時(shí)候宣稱“AGI is going to be wild”，媒體也都在渲染這些系統(tǒng)對(duì)于通用智能進(jìn)展的重大意義。

但真的是如此嗎？知名 AI 學(xué)者（給 AI 潑冷水愛好者） Gary Marcus 表示“持保留意見”。

最近，他提出，在評(píng)估 AGI 的進(jìn)展時(shí)，關(guān)鍵要看像 Dall-E、Imagen、Midjourney 和 Stable Diffusion 這樣的系統(tǒng)是否真正理解世界，從而能夠根據(jù)這些知識(shí)進(jìn)行推理并進(jìn)行決策。

在判斷這些系統(tǒng)之于 AI （包括狹義和廣義的 AI）的意義時(shí)，我們可以提出以下三個(gè)問題：

圖像合成系統(tǒng)能否生成高質(zhì)量的圖像？

它們能否將語言輸入與它們產(chǎn)生的圖像關(guān)聯(lián)起來？

它們了解它們所呈現(xiàn)出的圖像背后的世界嗎？

1 AI 不懂語言與圖像的關(guān)聯(lián)

在第一個(gè)問題上，答案是肯定的。區(qū)別只在于，在用 AI 生成圖像這件事兒上，經(jīng)過訓(xùn)練的人類藝術(shù)家能做得更好。

在第二個(gè)問題上，答案就不一定了。在某些語言輸入上，這些系統(tǒng)能表現(xiàn)良好，比如下圖是 DALL-E 2 生成的“騎著馬的宇航員”：

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

但在其他一些語言輸入上，這些 AI 就表現(xiàn)欠佳、很容易被愚弄了。比如前段時(shí)間 Marcus 在推特上指出，這些系統(tǒng)在面對(duì)“騎著宇航員的馬”時(shí)，難以生成對(duì)應(yīng)的準(zhǔn)確圖像：

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

盡管深度學(xué)習(xí)的擁護(hù)者對(duì)此進(jìn)行了激烈的反擊，比如 AI 研究員 Joscha Bach 認(rèn)為“Imagen 可能只是使用了錯(cuò)誤的訓(xùn)練集”，機(jī)器學(xué)習(xí)教授 Luca Ambrogioni 反駁說，這正表明了“Imagen 已經(jīng)具有一定程度的常識(shí)”，所以拒絕生成一些荒謬的東西。

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

還有一位谷歌的科學(xué)家 Behnam Neyshabur 提出，如果“以正確的方式提問”，Imagen 就可以畫出“騎著宇航員的馬”：

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

但是，Marcus 認(rèn)為，問題的關(guān)鍵不在于系統(tǒng)能否生成圖像，聰明的人總能找到辦法讓系統(tǒng)畫出特定的圖像，但這些系統(tǒng)并沒有深刻理解語言與圖像之間的關(guān)聯(lián)，這才是關(guān)鍵。

2 不知道自行車輪子是啥？怎么能稱是AGI？

系統(tǒng)對(duì)語言的理解還只是一方面，Marcus 指出，最重要的是，判斷 DALL-E 等系統(tǒng)對(duì) AGI 的貢獻(xiàn)最終要取決于第三個(gè)問題：如果系統(tǒng)所能做的只是以一種偶然但令人驚嘆的方式將許多句子轉(zhuǎn)換為圖像，它們可能會(huì)徹底改變?nèi)祟愃囆g(shù)，但仍然不能真正與 AGI 相提并論，也根本代表不了 AGI。

讓 Marcus 對(duì)這些系統(tǒng)理解世界的能力感到絕望的是最近的一些例子，比如平面設(shè)計(jì)師 Irina Blok 用 Imagen 生成的“帶有很多孔的咖啡杯”圖像：

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

正常人看了這張圖都會(huì)覺得它違反常識(shí)，咖啡不可能不從孔里漏出來。類似的還有：

“帶有方形輪子的自行車”

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

“布滿仙人掌刺的廁紙”

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

說“有”容易說“無”難，誰能知道一個(gè)不存在的事物應(yīng)當(dāng)是什么樣？這也是讓 AI 繪制不可能事物的難題所在。

但又或許，系統(tǒng)只是“想”繪制一個(gè)超現(xiàn)實(shí)主義的圖像呢，正如 DeepMind 研究教授 Michael Bronstein 所說的，他并不認(rèn)為那是個(gè)糟糕的結(jié)果，換做是他，也會(huì)這樣畫。

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

那么如何最終解決這個(gè)問題呢？Gary Marcus 在最近同哲學(xué)家 Dave Chalmers 的一次交談中獲得了新的靈感。

為了了解系統(tǒng)對(duì)于部分和整體、以及功能的認(rèn)識(shí)， Gary Marcus 提出了一項(xiàng)對(duì)系統(tǒng)性能是否正確有更清晰概念的任務(wù)，給出文本提示“Sketch a bicycle and label the parts that roll on the ground”（畫出一輛自行車并標(biāo)記出在地面上滾動(dòng)的部分），以及“Sketch a ladder and label one of the parts you stand on”（畫出一個(gè)梯子并標(biāo)記出你站立的部分）。

這個(gè)測(cè)試的特別之處在于，并不直接給出“畫出一輛自行車并標(biāo)記出輪子”、“畫出一個(gè)梯子并標(biāo)記出踏板”這樣的提示，而是讓 AI 從“地面上滾動(dòng)的部分”、“站立的部分”這樣的描述中推理出對(duì)應(yīng)的事物，這正是對(duì) AI 理解世界能力的考驗(yàn)。

但 Marcus 的測(cè)試結(jié)果表明，Craiyon（以前稱為 DALL-E mini）在這種事情上做得一塌糊涂，它并不能理解自行車的輪子和梯子的踏板是什么：

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

那么這是不是 DALL-E Mini 特有的問題呢？

Gary Marcus 發(fā)現(xiàn)并不是，在目前最火的文本生成圖像系統(tǒng) Stable Diffusion 中也出現(xiàn)了同樣的結(jié)果。

比如，讓 Stable Diffusion “畫一個(gè)人，并把拿東西的部分變成紫色”（Sketch a person and make the parts that hold things purple），結(jié)果是：

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

顯然，Stable Diffusion 并不理解人的雙手是什么。

而在接下來的九次嘗試中，只有一次成功完成（在右上角），而且準(zhǔn)確性還不高：

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

下一個(gè)測(cè)試是，“畫出一輛白色自行車，并將用腳推動(dòng)的部分變成橙色”，得到圖像結(jié)果是：

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

所以它也不能理解什么是自行車的腳踏板。

而在畫出“自行車的草圖，并標(biāo)記在地面上滾動(dòng)部分”的測(cè)試中，其表現(xiàn)得也并沒有很好：

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

如果文本提示帶有否定語，比如“畫一輛沒有輪子的白色自行車"，其結(jié)果如下：

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

這表明系統(tǒng)并不理解否定的邏輯關(guān)系。

即便是“畫一輛綠色輪子的白色自行車”這樣簡(jiǎn)單的只關(guān)注部分與整體關(guān)系提示，而且也沒有出現(xiàn)復(fù)雜的語法或功能等，其得到的結(jié)果仍存在問題：

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

因此，Marcus 質(zhì)問道，一個(gè)并不了解輪子是什么、或是它們的用途的系統(tǒng)，能稱得上是人工智能的重大進(jìn)步么？

今天，Gary Marcus 還針對(duì)這個(gè)問題發(fā)出了一個(gè)投票調(diào)查，他提出的問題是，“Dall-E 和 Stable Diffusion 等系統(tǒng)，對(duì)它們所描繪的世界到底了解有多少？”

其中，86.1% 的人認(rèn)為系統(tǒng)對(duì)世界的理解并不多，只有 13.9% 的人認(rèn)為這些系統(tǒng)理解世界的程度很高。

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

對(duì)此，Stability.AI 的首席執(zhí)行官 Emad Mostique 也回應(yīng)稱，我投的是“并不多”，并承認(rèn)“它們只是拼圖上的一小塊?！?br>

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

來自科學(xué)機(jī)構(gòu) New Science 的 Alexey Guzey 也有與 Marcus 類似的發(fā)現(xiàn)，他讓 DALL-E 畫出一輛自行車，但結(jié)果只是將一堆自行車的元素堆在一起。

Gary Marcus：文本生成圖像系統(tǒng)理解不了世界，離 AGI 還差得遠(yuǎn)

所以他認(rèn)為，并沒有任何能真正理解自行車是什么以及自行車如何工作的模型，生成當(dāng)前的 ML 模型幾乎可以與人類媲美或取代人類是很荒謬的。

大家怎么看？

責(zé)任編輯：張燕妮來源：雷鋒網(wǎng)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="ohrl1"></style>

^{<blockquote id="ohrl1"><i id="ohrl1"></i></blockquote>}

<cite id="ohrl1"><rp id="ohrl1"><form id="ohrl1"></form></rp></cite>