大型語(yǔ)言模型對(duì)編碼來說是錯(cuò)誤的嗎?
當(dāng)目標(biāo)是準(zhǔn)確性、一致性、精通游戲或找到一個(gè)正確答案時(shí),強(qiáng)化學(xué)習(xí)模型會(huì)擊敗生成式人工智能。
像GPT-4這樣的大型語(yǔ)言模型的興起令人矚目,它們能夠生成高度流暢、自信的文本??杀氖?,炒作也是如此:微軟的研究人員屏氣地將微軟資助的OpenAI GPT-4模型描述為展示“人工通用智能的火花”。
當(dāng)然,除非微軟指的是產(chǎn)生幻覺的傾向,生成的錯(cuò)誤文本肯定是錯(cuò)誤的。GPT還不擅長(zhǎng)下棋和圍棋等游戲,不擅長(zhǎng)數(shù)學(xué),編寫的代碼可能有錯(cuò)誤和微妙的漏洞。
這并不意味著大型語(yǔ)言模型都是炒作。一點(diǎn)也不相反,這意味著我們?cè)陉P(guān)于生成式人工智能(GenAI)的對(duì)話中需要一些視角,而不是夸大其詞。
正如IEEESpectrum的一篇文章所詳述的那樣,一些專家,例如OpenAI的IlyaSutskever,認(rèn)為添加帶有人類反饋的強(qiáng)化學(xué)習(xí)可以消除LLM幻覺。但是其他人,比如Meta的YannLeCun和GeoffHinton(最近從Google退休),認(rèn)為大型語(yǔ)言模型中更根本的缺陷在起作用。兩人都認(rèn)為,大型語(yǔ)言模型缺乏非語(yǔ)言知識(shí),而非語(yǔ)言知識(shí)對(duì)于理解語(yǔ)言所描述的潛在現(xiàn)實(shí)是至關(guān)重要的。
在一次采訪中,Diffblue公司首席執(zhí)行官M(fèi)athewLodge認(rèn)為,有一種更好的方法。他說,“小型、快速、運(yùn)行成本低廉的強(qiáng)化學(xué)習(xí)模型,在從玩游戲到編寫代碼的各種任務(wù)中,都能輕松擊敗擁有千億參數(shù)的大型語(yǔ)言模型?!?/p>
我們是否在錯(cuò)誤的地方尋找人工智能黃金?
正如Lodge所說,生成式人工智能肯定有它的一席之地,但我們可能正試圖將其強(qiáng)行引入強(qiáng)化學(xué)習(xí)更好的領(lǐng)域。以游戲?yàn)槔?/p>
國(guó)際象棋大師LevyRozman發(fā)布了一段他與ChatGPT對(duì)弈的視頻。這個(gè)模型做出了一系列荒謬和非法的動(dòng)作,包括捕捉自己的棋子。最好的開源國(guó)際象棋軟件(Stockfish,它根本不使用神經(jīng)網(wǎng)絡(luò))讓ChatGPT在不到10步的時(shí)間里擊敗,因?yàn)榇笮驼Z(yǔ)言模型找不到合法的走法。這是一個(gè)很好的證明,大型語(yǔ)言模型遠(yuǎn)遠(yuǎn)達(dá)不到通用人工智能的宣傳,這并不是一個(gè)孤立的例子。
谷歌AlphaGo是目前最好的圍棋人工智能,它是由強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的。強(qiáng)化學(xué)習(xí)的工作原理是為一個(gè)問題生成不同的解決方案,嘗試它們,使用結(jié)果來改進(jìn)下一個(gè)建議,然后重復(fù)這個(gè)過程數(shù)千次以找到最佳結(jié)果。
在AlphaGo的例子中,人工智能會(huì)嘗試不同的走法,并預(yù)測(cè)這是否是一個(gè)好走法,以及它是否有可能從這個(gè)位置贏得比賽。它使用反饋來“跟蹤”有希望的移動(dòng)序列,并生成其他可能的移動(dòng)。其效果是對(duì)可能的移動(dòng)進(jìn)行搜索。
這個(gè)過程被稱為概率搜索。你不可能嘗試所有的招式(招式太多了),但可以花時(shí)間搜索可能找到最佳招式的區(qū)域。這對(duì)于玩游戲來說非常有效。AlphaGo過去曾擊敗過圍棋大師。AlphaGo并非萬(wàn)無一失,但它目前的表現(xiàn)比當(dāng)今最好的大型語(yǔ)言模型還要好。
概率與準(zhǔn)確性
當(dāng)有證據(jù)表明大型語(yǔ)言模型的表現(xiàn)明顯落后于其他類型的人工智能時(shí),支持者認(rèn)為大型語(yǔ)言模型“會(huì)變得更好”。然而,根據(jù)Lodge的說法,“如果我們同意這個(gè)觀點(diǎn),我們需要理解為什么他們會(huì)在這類任務(wù)中做得更好?!彼^續(xù)說,這就是事情變得困難的地方,因?yàn)闆]有人能預(yù)測(cè)GPT-4對(duì)特定提示會(huì)產(chǎn)生什么效果。這種模式是人類無法解釋的。他認(rèn)為,這就是“‘即時(shí)工程’不存在的原因。”他強(qiáng)調(diào),對(duì)于人工智能研究人員來說,證明大型語(yǔ)言模型的“涌現(xiàn)特性”存在也是一場(chǎng)斗爭(zhēng),更不用說預(yù)測(cè)它們了。
可以說,最好的論證是歸納法。GPT-4在一些語(yǔ)言任務(wù)上比GPT-3更好,因?yàn)樗蟆R虼?,更大的模型?huì)更好。
Lodge認(rèn)為:“唯一的問題是,GPT-4仍在努力完成OpenAI指出的GPT-3所面臨的挑戰(zhàn)。數(shù)學(xué)就是其中之一;GPT-4在加法運(yùn)算方面優(yōu)于GPT-3,但在乘法和其他數(shù)學(xué)運(yùn)算方面仍存在困難。
使語(yǔ)言模型更大并不能神奇地解決這些難題,甚至OpenAI也說更大的模型不是答案。原因歸結(jié)為大型語(yǔ)言模型的基本性質(zhì),正如OpenAI論壇所指出的那樣:“大型語(yǔ)言模型本質(zhì)上是概率性的,并且通過根據(jù)他們?cè)谟?xùn)練數(shù)據(jù)中觀察到的模式生成可能的輸出來運(yùn)行。在數(shù)學(xué)和物理問題中,可能只有一個(gè)正確答案,而且生成這個(gè)答案的可能性非常低?!?/p>
相比之下,由強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的人工智能在產(chǎn)生準(zhǔn)確結(jié)果方面要好得多,因?yàn)檫@是一個(gè)尋求目標(biāo)的人工智能過程。強(qiáng)化學(xué)習(xí)有意地朝著期望的目標(biāo)迭代,旨在產(chǎn)生它能找到的最接近目標(biāo)的最佳答案。Lodge指出,大型語(yǔ)言模型課程“并不是為了迭代或?qū)ふ夷繕?biāo)而設(shè)計(jì)的。它們的設(shè)計(jì)目的是給出‘足夠好’的一次或幾次回答?!?/p>
“一次性”答案是模型產(chǎn)生的第一個(gè)答案,它是通過預(yù)測(cè)提示中的一系列單詞而獲得的。在“幾次射擊”方法中,模型被給予額外的樣本或提示,以幫助它做出更好的預(yù)測(cè)。大型語(yǔ)言模型通常也會(huì)加入一些隨機(jī)性(也就是說,它們是“隨機(jī)的”),以增加更好的回答的可能性,所以他們會(huì)對(duì)同樣的問題給出不同的答案。
并不是說大型語(yǔ)言模型世界忽視了強(qiáng)化學(xué)習(xí)。GPT-4結(jié)合了“強(qiáng)化學(xué)習(xí)與人類反饋”(RLHF)。這意味著核心模型隨后由人類操作員訓(xùn)練,使其更喜歡某些答案,但從根本上說,這不會(huì)改變模型首先生成的答案。例如,Lodge說,大型語(yǔ)言模型可能會(huì)生成以下選項(xiàng)來完成句子“韋恩?格雷茨基喜歡冰....”。
1.韋恩?格雷茨基喜歡冰淇淋。
2.韋恩?格雷茨基喜歡冰球。
3.韋恩?格雷茨基喜歡冰上釣魚。
4.韋恩?格雷茨基喜歡滑冰。
5.韋恩?格雷茨基喜歡冰酒。
人工操作員對(duì)答案進(jìn)行排序,可能會(huì)認(rèn)為加拿大傳奇冰球運(yùn)動(dòng)員更喜歡冰球和滑冰,盡管冰淇淋有著廣泛的吸引力。人類的排名和更多的人類寫的回答被用來訓(xùn)練模型。請(qǐng)注意,GPT-4并沒有假裝準(zhǔn)確地知道韋恩?格雷茨基的偏好,只是在提示下最可能的完成。
最后,大型語(yǔ)言模型的設(shè)計(jì)并不是高度準(zhǔn)確或一致的。在準(zhǔn)確性和確定性行為之間存在一種權(quán)衡,以換取普遍性。對(duì)Lodge來說,所有這些都意味著,在大規(guī)模應(yīng)用人工智能方面,強(qiáng)化學(xué)習(xí)擊敗了生成式人工智能。
將強(qiáng)化學(xué)習(xí)應(yīng)用于軟件
軟件開發(fā)呢?正如我所寫的,GenAI已經(jīng)為那些使用GitHubCopilot或AmazonCodeWhisperer等工具提高生產(chǎn)力的開發(fā)人員提供了機(jī)會(huì)。這不是猜測(cè)——它已經(jīng)發(fā)生了。這些工具根據(jù)集成開發(fā)環(huán)境中插入點(diǎn)前后的代碼預(yù)測(cè)接下來可能出現(xiàn)的代碼。
事實(shí)上,正如VisualStudio雜志的DavidRamel所言,最新版本的Copilot已經(jīng)生成了61%的Java代碼。對(duì)于那些擔(dān)心這會(huì)減少軟件開發(fā)人員工作的人,請(qǐng)記住,這些工具需要勤奮的人工監(jiān)督來檢查完成情況,并對(duì)其進(jìn)行編輯,以使代碼正確編譯和運(yùn)行。自IDE誕生之初,自動(dòng)補(bǔ)全功能就一直是IDE的主要功能,而Copilot和其他代碼生成器使它變得更加有用。但是大規(guī)模的自主編碼(實(shí)際上需要編寫61%的Java代碼)就不是這樣了。
然而,強(qiáng)化學(xué)習(xí)可以進(jìn)行精確的大規(guī)模自主編碼,Lodge說。當(dāng)然,他這么說是出于既得利益:2019年,他的公司Diffblue發(fā)布了基于強(qiáng)化學(xué)習(xí)的商業(yè)單元測(cè)試編寫工具Cover。Cover在沒有人工干預(yù)的情況下編寫完整的單元測(cè)試套件,使大規(guī)模自動(dòng)化復(fù)雜的、容易出錯(cuò)的任務(wù)成為可能。
Lodge有偏見嗎?絕對(duì)的。但他也有很多經(jīng)驗(yàn)來支持他的信念,即強(qiáng)化學(xué)習(xí)在軟件開發(fā)方面可以勝過GenAI。如今,Diffblue使用強(qiáng)化學(xué)習(xí)來搜索所有可能的測(cè)試方法的空間,為每個(gè)方法自動(dòng)編寫測(cè)試代碼,并在編寫的測(cè)試中選擇最佳測(cè)試。強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)基于各種標(biāo)準(zhǔn),包括測(cè)試的覆蓋率和美學(xué),其中包括看起來像是人類編寫的編碼風(fēng)格。該工具平均在一秒鐘內(nèi)為每種方法創(chuàng)建測(cè)試。
Lodge認(rèn)為,如果目標(biāo)是為一個(gè)沒有人理解的程序自動(dòng)編寫10,000個(gè)單元測(cè)試,那么強(qiáng)化學(xué)習(xí)是唯一真正的解決方案?!按笮驼Z(yǔ)言模型無法競(jìng)爭(zhēng);人類沒有辦法有效地監(jiān)督它們,并在這種規(guī)模上糾正它們的代碼,使模型更大、更復(fù)雜并不能解決這個(gè)問題。”
結(jié)論:大型語(yǔ)言模型最強(qiáng)大的地方在于它們是通用語(yǔ)言處理器。他們可以完成沒有受過明確訓(xùn)練的語(yǔ)言任務(wù)。這意味著他們可以在內(nèi)容生成(文案)和許多其他事情上做得很好。Lodge強(qiáng)調(diào):“但這并不能使大型語(yǔ)言模型成為人工智能模型的替代品,人工智能模型通?;趶?qiáng)化學(xué)習(xí),后者更準(zhǔn)確、更一致,而且可以大規(guī)模使用。”