做完GPT-4完整測(cè)評(píng),微軟爆火論文稱初版AGI就快來了
1956 年,在達(dá)特茅斯學(xué)院召開的一個(gè)研討會(huì)上,人工智能這一概念正式被提出。
之后這個(gè)詞一直挑戰(zhàn)著心理學(xué)家、哲學(xué)家和計(jì)算機(jī)科學(xué)家,因?yàn)樗y被定義了。1994 年,52 名心理學(xué)家聯(lián)合發(fā)文試圖捕捉它的本質(zhì)。
隨著時(shí)間的推移,研究者開始將注意力轉(zhuǎn)移到特定領(lǐng)域的 AI 系統(tǒng),如 2016 年 AlphaGo 挑戰(zhàn)韓國(guó)冠軍棋手大獲全勝。之后,時(shí)間來到 20 世紀(jì) 90 年代末和 21 世紀(jì)初,研究者不滿足于專用 AI,因此開發(fā)更通用的人工智能系統(tǒng)呼聲越來越高。隨之而來的是,通用人工智能 (AGI) 一詞開始在 2000 年代初期流行起來。
最近一段時(shí)間,如大家所見,大型語言模型 (LLM) 走到聚光燈下,這些神經(jīng)網(wǎng)絡(luò)基于 Transformer 架構(gòu),并在大量文本數(shù)據(jù)集上訓(xùn)練而成。尤其是 OpenAI 最新發(fā)布的 GPT-4,更是展示了大型語言模型的通用性,在數(shù)學(xué)、文字、法律、醫(yī)學(xué)等領(lǐng)域樣樣精通。
我們不禁會(huì)問,GPT-4 是邁向 AGI 的重要一步嗎?
微軟給出的答案是肯定的,在其最近發(fā)布的一篇論文中,他們闡述了這個(gè)觀點(diǎn)。文中對(duì) GPT-4 進(jìn)行了全面評(píng)測(cè)。微軟認(rèn)為「鑒于 GPT-4 能力的廣度和深度,我們相信它應(yīng)該被合理視作一個(gè)通用人工智能(AGI)系統(tǒng)的早期(但仍不完整)版本?!?/span>
微軟還表示,「本文的主要目標(biāo)是對(duì) GPT-4 的能力和局限性進(jìn)行探索,我們相信 GPT-4 的智能標(biāo)志著計(jì)算機(jī)科學(xué)及其他領(lǐng)域的真正范式轉(zhuǎn)變?!?/span>
論文地址:https://arxiv.org/pdf/2303.12712.pdf
有趣的是,這篇火爆的論文還被人發(fā)現(xiàn)有大量刪減,因此有人找出了未刪節(jié)版論文。
從未刪減版本中,這個(gè)博主也扒出了大量隱藏的細(xì)節(jié),如 GPT-4 的內(nèi)部名稱為 DV-3,實(shí)際上也是該論文的隱藏第三作者,后被刪除;這些微軟的研究人員對(duì) GPT-4 的技術(shù)細(xì)節(jié)似乎了解也并不多。此外博主也透露這篇論文發(fā)布時(shí)刪除了有關(guān)毒性內(nèi)容的部分(防止給 OpenAI 造成負(fù)面?)。
我們下面粘貼了該博主的 Twitter 線程,感興趣的可以查看。
Twitter thread:https://twitter.com/DV2559106965076/status/1638769434763608064
回到文章本身。
根據(jù)文章所認(rèn)定的 AGI,是具體的擁有推理、計(jì)劃、解決問題、抽象思維、理解復(fù)雜思想、快速學(xué)習(xí)和從經(jīng)驗(yàn)中學(xué)習(xí)的能力。從這些能力出發(fā),論文進(jìn)行了有趣的實(shí)驗(yàn)和評(píng)測(cè)。
論文分為 10 個(gè)章節(jié):第一章為總括部分;第二章介紹了多模態(tài),主要和視覺生成內(nèi)容相關(guān);第三章代碼,根據(jù)指令生成代碼、理解現(xiàn)有代碼;第四章數(shù)學(xué)能力;第五章與世界的交互;第六章與人類的交互;第七章判別力;第八章 GPT-4 局限性;第九章社會(huì)影響;第十章未來方向及結(jié)論。
下面我們通過具體的示例,看看 GPT-4 是不是真的邁進(jìn)了 AGI 時(shí)代。
多模態(tài)和跨學(xué)科組成
為了測(cè)試模型將藝術(shù)與編程相結(jié)合的能力,該研究要求 GPT-4 用 javascript 寫一段代碼,以生成康定斯基風(fēng)格的隨機(jī)圖像,下圖第一張為 Wassily Kandinsky 創(chuàng)作的,第二張和第三張分別由 GPT-4 和 ChatGPT 生成的:
下面為 GPT-4 代碼實(shí)現(xiàn)過程:
進(jìn)行視覺概念理解:在這個(gè)作圖任務(wù)中, 輸入提示讓模型結(jié)合字母 Y、O、H 的形狀來畫一個(gè)人。其實(shí)在 GPT-4 的訓(xùn)練過程從沒有關(guān)于字母形狀的認(rèn)識(shí),只能從相關(guān)訓(xùn)練數(shù)據(jù)中、模糊地學(xué)習(xí)到字母與一些特定形狀有關(guān),結(jié)果顯示 GPT-4 生成的結(jié)果還不錯(cuò):
用于草圖生成:GPT-4 還能與 Stable Diffusion 進(jìn)行結(jié)合。下圖為 3D 城市建模截圖,輸入提示有一條河流從左到右流淌、河的旁邊建有金字塔的沙漠、屏幕底部有 4 個(gè)按鈕,顏色分別為綠色、藍(lán)色、棕色和紅色。下面是生成結(jié)果:
你還能要求 GPT-4 用 ABC 記譜法生成和修改曲調(diào):
編程能力
GPT-4 有非常強(qiáng)大的編程能力,包括根據(jù)指令編寫代碼和理解現(xiàn)有代碼。該研究具體測(cè)試了 GPT-4 在編程方面的能力。
代碼編寫?
下圖 3.1 是一個(gè)讓 GPT-4 寫 python 函數(shù)的例子,該研究使用 LeetCode 在線判斷代碼是否正確。
然后,該研究讓 GPT-4 將上表 2 中 LeetCode 上的準(zhǔn)確率數(shù)據(jù)可視化為圖表,結(jié)果如下圖 3.2 所示。
前端 / 游戲開發(fā)?
如下圖 3.3 所示,該研究讓 GPT-4 用 JavaScript 在 HTML 中編寫 3D 游戲,GPT-4 在零樣本的情況下生成了一個(gè)滿足所有要求的游戲。
深度學(xué)習(xí)編程?
為深度學(xué)習(xí)編寫代碼需要數(shù)學(xué)、統(tǒng)計(jì)學(xué)知識(shí),并熟悉 PyTorch、TensorFlow、Keras 等框架和庫(kù)。如下圖 3.4 所示,研究者要求 GPT-4 和 ChatGPT 編寫自定義優(yōu)化器模塊,該任務(wù)對(duì)于人類深度學(xué)習(xí)專家來說也是具有挑戰(zhàn)性的。研究者為 GPT-4 和 ChatGPT 提供了自然語言描述,其中包括一系列重要的操作,例如應(yīng)用 SVD 等等。
此外,該研究還測(cè)試了 GPT-4 把代碼轉(zhuǎn)換成 LaTex 公式的能力,結(jié)果如下圖 3.5 所示。
在理解代碼方面,該研究嘗試讓 GPT-4 和 ChatGPT「讀懂」一段 C/C++ 程序,并預(yù)測(cè)程序的輸出結(jié)果,二者的表現(xiàn)如下:
然后,該研究讓 GPT-4 解釋了一段 Python 代碼:
還有解釋一段偽代碼:
數(shù)學(xué)能力
一直以來,大型語言模型的數(shù)學(xué)能力似乎一直不是很好。那么 GPT-4 在這方面表現(xiàn)如何呢?本文經(jīng)過一系列評(píng)測(cè),結(jié)果表明 GPT-4 相比以前的模型在數(shù)學(xué)方面有了質(zhì)的飛越,但是離專家水平還差得很遠(yuǎn),不具備數(shù)學(xué)研究的能力。
在與 ChatGPT 的對(duì)比中, GPT-4 成功的生成了解決方案,而 ChatGPT 生成了錯(cuò)誤答案:
在 AP 問題上,GPT-4 vs ChatGPT 對(duì)比結(jié)果。GPT-4 使用了正確的方法,不過由于計(jì)算錯(cuò)誤導(dǎo)致最終答案錯(cuò)誤,而 ChatGPT 產(chǎn)生了一個(gè)不連貫的論點(diǎn)。
此外,本文還測(cè)試了 GPT-4 使用數(shù)學(xué)思維和技術(shù)來解決現(xiàn)實(shí)問題的能力:下圖展示了 GPT-4 如何成功地為一個(gè)需要廣泛跨學(xué)科知識(shí)的復(fù)雜系統(tǒng)構(gòu)建合理的數(shù)學(xué)模型,而 ChatGPT 未能取得有意義的進(jìn)展。
由于論文內(nèi)容長(zhǎng)達(dá) 154 頁(yè),本文只對(duì)評(píng)測(cè)結(jié)果進(jìn)行了大量展示,想要了解更多內(nèi)容,讀者可以參考原論文。
最后附上論文目錄: