自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM會(huì)寫代碼≠推理+規(guī)劃!AAAI主席揭秘:代碼數(shù)據(jù)質(zhì)量太高|LeCun力贊

人工智能 新聞
亞利桑那州立大學(xué)教授揭秘代碼生成質(zhì)量高的原因:語(yǔ)言模型是一個(gè)近似檢索器,GitHub代碼質(zhì)量高,而文本數(shù)據(jù)中價(jià)值觀沖突太多,僅此而已!

自從ChatGPT發(fā)布后,各種基于大模型的產(chǎn)品也快速融入了普通人的生活中,但即便非AI從業(yè)者在使用過(guò)幾次后也可以發(fā)現(xiàn),大模型經(jīng)常會(huì)胡編亂造,生成錯(cuò)誤的事實(shí)。

不過(guò)對(duì)于程序員來(lái)說(shuō),把GPT-4等大模型當(dāng)作「代碼輔助生成工具」來(lái)用的效果明顯要比「事實(shí)檢索工具」要好用很多,因?yàn)榇a生成往往會(huì)涉及到復(fù)雜的邏輯分析等,所以也有人將這種推理(廣義規(guī)劃)能力歸因于大型語(yǔ)言模型(LLM)的涌現(xiàn)。

學(xué)術(shù)界也一直在就「LLM能否推理」這個(gè)問(wèn)題爭(zhēng)論不休。

圖片

最近,計(jì)算機(jī)科學(xué)家、亞利桑那州立大學(xué)教授Subbarao Kambhampati(Rao)以「LLM真的能推理和規(guī)劃嗎?」(Can LLMs Really Reason & Plan?)為題,全面總結(jié)了語(yǔ)言模型在推理和規(guī)劃方面的研究成果,其中也談到了LLM的代碼生成與推理能力的關(guān)聯(lián)。

圖片

視頻鏈接:https://www.youtube.com/watch?v=uTXXYi75QCU

PPT鏈接:https://www.dropbox.com/scl/fi/g3qm2zevcfkp73wik2bz2/SCAI-AI-Day-talk-Final-as-given.pdf

一句話總結(jié):LLM的代碼生成質(zhì)量比英語(yǔ)(自然語(yǔ)言)生成質(zhì)量更高,只能說(shuō)明「在GitHub上進(jìn)行近似檢索」要比「通用Web上檢索」更容易,而不能反映出任何潛在的推理能力。

造成這種差異的原因主要有兩個(gè):

1. 用于LLM訓(xùn)練的代碼數(shù)據(jù)質(zhì)量要比文本質(zhì)量更高

2. 形式語(yǔ)言中「語(yǔ)法和語(yǔ)義的距離」比高度靈活的自然語(yǔ)言要低

圖片

圖靈獎(jiǎng)得主Yann LeCun也表示贊同:自回歸LLM對(duì)編碼非常有幫助,即便LLM真的不具備規(guī)劃能力。

Rao教授是AAAI的主席,IJCAI的理事,以及Partnership on AI的創(chuàng)始董事會(huì)成員;他的主要研究方向?yàn)椋?/span>

圖片

1. 面向人類的AI系統(tǒng)(Human-Aware AI Systems):可解釋的人工智能交互。人工智能系統(tǒng)的規(guī)劃和決策。人機(jī)組隊(duì)。主動(dòng)決策支持??蓪W(xué)習(xí)的規(guī)劃模型和Model Lite規(guī)劃??山忉尩男袨楹徒忉?。人為因素評(píng)估。

2. 自動(dòng)規(guī)劃(Automated Planning,AI):度量、時(shí)間、部分可訪問(wèn)和隨機(jī)世界中的規(guī)劃合成、啟發(fā)式方法。規(guī)劃的多目標(biāo)優(yōu)化。用富有表現(xiàn)力的動(dòng)作推理。行程安排。加快學(xué)習(xí)以幫助規(guī)劃者。約束滿足與運(yùn)籌學(xué)技術(shù)。規(guī)劃在自動(dòng)化制造和空間自主方面的應(yīng)用。

3. 社交媒體分析與信息整合(Social Media Analysis & Information Integration):社交媒體平臺(tái)上的人類行為分析。信息集成中用于查詢優(yōu)化和執(zhí)行的自適應(yīng)技術(shù)。源發(fā)現(xiàn)和源元數(shù)據(jù)學(xué)習(xí)。

代碼生成≠推理+規(guī)劃

已故的計(jì)算機(jī)科學(xué)家Drew McDermott曾經(jīng)說(shuō)過(guò),規(guī)劃只是一種語(yǔ)言的自動(dòng)編程,每個(gè)原語(yǔ)都對(duì)應(yīng)于可執(zhí)行的操作(planning is just automatic programming on a language with primitives corresponding to executable actions)。

也就是說(shuō),廣義上的規(guī)劃可以寫成程序,如果GPT-4或其他大模型可以正確地生成代碼,那也就證明了LLM具有規(guī)劃能力。

比如說(shuō)去年5月,英偉達(dá)、加州理工等研究團(tuán)隊(duì)合作開發(fā)出了Voyager(旅行者)智能體,也是Minecraft(《我的世界》游戲)中首個(gè)基于LLM的具身、終身學(xué)習(xí)智能體(embodied lifelong learning agent),可以不斷探索世界,獲得各種技能,并在沒(méi)有人為干預(yù)的情況下進(jìn)行新的發(fā)現(xiàn)。

論文鏈接:https://arxiv.org/abs/2305.16291

Voyager的核心思想就是讓LLM輸出代碼來(lái)執(zhí)行任務(wù),并且在模擬器中運(yùn)行,包含三個(gè)關(guān)鍵組件:最大化探索(exploration)的自動(dòng)課程(curriculum );用于存儲(chǔ)和檢索復(fù)雜行為的可執(zhí)行代碼的不斷增長(zhǎng)的技能庫(kù);新的迭代提示機(jī)制,包含環(huán)境反饋、執(zhí)行錯(cuò)誤和自我驗(yàn)證以改進(jìn)程序。

Voyager通過(guò)黑盒查詢與GPT-4進(jìn)行交互,從而無(wú)需對(duì)模型參數(shù)進(jìn)行微調(diào)。

雖然還有其他類似Voyager的工作可以利用LLM以代碼生成的方式完成規(guī)劃,但這也并不能證明LLM就具有規(guī)劃能力。

從原理上說(shuō),LLM本質(zhì)上是一個(gè)近似檢索器(approximate retrieval),能否成功規(guī)劃取決于訓(xùn)練數(shù)據(jù)的質(zhì)量。

在自然語(yǔ)言生成上,LLM需要吞噬海量數(shù)據(jù),其中很多數(shù)據(jù)在事實(shí)基礎(chǔ)或是價(jià)值體系上都存在很大分歧,比如地平論者和疫苗反對(duì)者也有自己的一套理論,可以寫出令人信服的文章。

而在代碼生成上,訓(xùn)練數(shù)據(jù)主要來(lái)自GitHub上的開源代碼,其中大部分都是「有效數(shù)據(jù)」,而且軟件工程師的價(jià)值體系對(duì)代碼的質(zhì)量影響微乎其微,這也可以解釋為什么代碼生成的質(zhì)量要比文本補(bǔ)全的質(zhì)量更高。

盡管如此,但代碼生成的本質(zhì)上仍然是近似檢索,其正確性無(wú)法保證,所以在使用GitHub Copilot等輔助工具時(shí),經(jīng)??梢钥吹接腥吮г够颂L(zhǎng)時(shí)間在生成代碼的調(diào)試上,生成的代碼往往看似運(yùn)行良好,但背地里蘊(yùn)藏bug

代碼看起來(lái)能正常運(yùn)行的部分原因可以歸結(jié)為兩個(gè)原因:

1. 系統(tǒng)中存在一個(gè)輔助工具(增量解釋器),可以標(biāo)記處明顯的執(zhí)行異常,可以讓人類程序員在調(diào)試過(guò)程中注意到;

2. 語(yǔ)法上正確的代碼段在語(yǔ)義上也可能是正確的,雖然無(wú)法完全保證,但語(yǔ)法正確是可執(zhí)行的先決條件(對(duì)于自然語(yǔ)言來(lái)說(shuō)也是如此)。

語(yǔ)言模型的自我驗(yàn)證

在少數(shù)情況下,例如上面提到的Voyager模型,其開發(fā)者聲稱:生成的代碼質(zhì)量已經(jīng)足夠好,可以直接在世界上運(yùn)行,但仔細(xì)閱讀就會(huì)發(fā)現(xiàn),這種效果主要依賴于世界對(duì)規(guī)劃模糊性的寬容。

某些論文中也會(huì)采用「LLM自我驗(yàn)證」(self-verify,self-critique自我批評(píng))的方式,即在運(yùn)行代碼之前在目標(biāo)場(chǎng)景中嘗試執(zhí)行驗(yàn)證一次,但同樣,沒(méi)有理由相信LLM具有自我驗(yàn)證的能力。

下面兩篇論文就對(duì)模型的驗(yàn)證能力產(chǎn)生質(zhì)疑。

論文鏈接:https://arxiv.org/abs/2310.12397

這篇論文系統(tǒng)地研究LLMs的迭代提示的有效性在圖著色(Graph Coloring)的背景下(一個(gè)典型的NP完全推理問(wèn)題),涉及到命題可滿足性以及實(shí)際問(wèn)題,如調(diào)度和分配;文中提出了一個(gè)原則性的實(shí)證研究GPT4在解決圖著色實(shí)例或驗(yàn)證候選著色的正確性的性能。

在迭代模式中,研究人員要求模型來(lái)驗(yàn)證自己的答案,并用外部正確的推理機(jī)來(lái)驗(yàn)證所提出的解決方案。

結(jié)果發(fā)現(xiàn):

1. LLMs在解決圖著色實(shí)例方面很差;

2. 在驗(yàn)證解決方案方面并沒(méi)有更好的表現(xiàn)-因此在迭代模式下,LLMs批評(píng)LLM生成的解決方案無(wú)效;

3. 批評(píng)的正確性和內(nèi)容(LLMs本身和外部求解器)似乎在很大程度上與迭代提示的性能無(wú)關(guān)。

第二篇論文研究了大模型能否通過(guò)自我批評(píng)來(lái)改進(jìn)規(guī)劃。

論文鏈接:https://arxiv.org/abs/2310.08118

這篇論文的研究結(jié)果表明,自我批評(píng)似乎會(huì)降低規(guī)劃生成性能,在使用GPT-4的情況下,無(wú)論是外部驗(yàn)證器還是自我驗(yàn)證器都在該系統(tǒng)中產(chǎn)生了非常多的誤報(bào),損害了系統(tǒng)的可靠性。

并且反饋信號(hào)為二元(正確、錯(cuò)誤)和詳細(xì)信息對(duì)規(guī)劃生成的影響都很小,即LLM在自我批評(píng)、迭代規(guī)劃任務(wù)框架下的有效性值得懷疑。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-01-29 09:40:00

AI訓(xùn)練

2024-02-01 08:34:30

大模型推理框架NVIDIA

2025-03-05 04:00:00

2021-02-18 00:02:53

數(shù)據(jù)庫(kù)工具低代碼

2023-11-24 17:01:30

模型推理

2013-08-23 14:22:45

SA系統(tǒng)管理員運(yùn)維

2015-12-09 15:12:13

產(chǎn)品經(jīng)理寫代碼

2013-03-04 09:46:06

2013-03-21 10:51:06

開發(fā)者代碼質(zhì)量開發(fā)經(jīng)驗(yàn)

2018-06-03 08:22:55

Oracle云計(jì)算開源

2025-02-05 09:10:00

2022-03-25 09:22:42

代碼開發(fā)

2020-02-10 20:16:04

程序員AI人工智能

2011-07-18 09:29:39

項(xiàng)目經(jīng)理

2018-01-02 13:30:04

代碼質(zhì)量代碼預(yù)言

2025-02-25 10:21:15

2012-11-07 09:48:26

2023-06-09 13:37:00

排行模型

2021-02-20 08:05:35

代碼效率C++

2023-04-20 08:01:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)