分析過(guò)688篇大模型論文,這篇論文綜述了LLM的當(dāng)前挑戰(zhàn)和應(yīng)用
從毫無(wú)存在感到無(wú)人不談,大型語(yǔ)言模型(LLM)的江湖地位在這幾年發(fā)生了巨變。這個(gè)領(lǐng)域的發(fā)展令人目不暇接,但也正因如此,人們難以了解還有什么難題有待解決以及哪些領(lǐng)域已有成熟應(yīng)用。
為了幫助機(jī)器學(xué)習(xí)研究者更快理解 LLM 領(lǐng)域的當(dāng)前現(xiàn)狀并提升他們的生產(chǎn)力,來(lái)自倫敦大學(xué)學(xué)院等多家機(jī)構(gòu)的研究團(tuán)隊(duì)不畏繁瑣,系統(tǒng)性地總結(jié)了 LLM 領(lǐng)域的艱難挑戰(zhàn)和成功應(yīng)用。
LLM 研究大熱的現(xiàn)狀也在這篇綜述論文的參考文獻(xiàn)中得到了體現(xiàn) —— 總共 22 頁(yè)參考文獻(xiàn),引用了 688 篇論文!
機(jī)器之心對(duì)這篇綜述論文的大致框架進(jìn)行了整理,以便讀者能快速了解 LLM 的挑戰(zhàn)和應(yīng)用,更詳細(xì)的論述和具體文獻(xiàn)請(qǐng)參閱原論文。
論文:https://arxiv.org/abs/2307.10169
整體而言,這篇綜述論文聚焦于兩大主題:(1) 挑戰(zhàn):哪些問(wèn)題仍未解決?(2) 應(yīng)用:LLM 當(dāng)前的應(yīng)用以及這些應(yīng)用面臨哪些挑戰(zhàn)?對(duì)于主題 (1),研究者將 LLM 面臨的挑戰(zhàn)分成了三個(gè)大類(lèi):設(shè)計(jì)、行為和科學(xué)。對(duì)于主題 (2),研究者探索了聊天機(jī)器人、計(jì)算生物學(xué)、計(jì)算生物學(xué)、計(jì)算機(jī)編程、創(chuàng)意工作、知識(shí)工作、法律、醫(yī)學(xué)、推理、機(jī)器人和社會(huì)科學(xué)等領(lǐng)域。
圖 1:LLM 挑戰(zhàn)概況。LLM 的設(shè)計(jì)與部署前做出的決策有關(guān)。LLM 行為方面的挑戰(zhàn)發(fā)生在部署階段??茖W(xué)方面的挑戰(zhàn)會(huì)阻礙學(xué)術(shù)進(jìn)步。
研究者聲明,這篇論文梳理的內(nèi)容帶有個(gè)人傾向性,并且假定讀者已經(jīng)熟悉 LLM 的工作方式。此外,他們更關(guān)注基于文本數(shù)據(jù)訓(xùn)練的模型。他們的綜述論文也專(zhuān)注于技術(shù)方面,不會(huì)討論 LLM 在政治、哲學(xué)或道德方面的議題。
挑戰(zhàn)
難以理解的數(shù)據(jù)集
對(duì)于 LLM 而言,其預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模非常大,任何個(gè)人都無(wú)法徹底閱讀其中的文檔或評(píng)估這些文檔的質(zhì)量。這方面涉及的問(wèn)題包括:
- 有許多非常相近幾乎算是重復(fù)的數(shù)據(jù);
- 基準(zhǔn)數(shù)據(jù)遭受污染;
- 某些信息可用于識(shí)別個(gè)人的身份;
- 預(yù)訓(xùn)練的數(shù)據(jù)域混在一起;
- 微調(diào)任務(wù)混在一起的情況難以處理。
表 1:所選預(yù)訓(xùn)練數(shù)據(jù)集概況
這些年來(lái),預(yù)訓(xùn)練數(shù)據(jù)集變得更加難以理解了:它們的規(guī)模和多樣性都在迅速增長(zhǎng),并且不是所有數(shù)據(jù)集都是公開(kāi)可用的。
依賴(lài) token 化器
token 化器帶來(lái)了一些挑戰(zhàn),比如計(jì)算開(kāi)銷(xiāo)、語(yǔ)言依賴(lài)性、對(duì)新詞的處理、固定詞匯量、信息丟失和人類(lèi)可解釋性低。
圖 2:依賴(lài) token 化器的典型缺點(diǎn)。(1) token 化器的訓(xùn)練步驟涉及到復(fù)雜繁瑣的計(jì)算,比如多次遍歷整個(gè)預(yù)訓(xùn)練數(shù)據(jù)集,并且還會(huì)導(dǎo)致對(duì)預(yù)訓(xùn)練數(shù)據(jù)集的依賴(lài),這在多語(yǔ)言環(huán)境中是個(gè)尤其麻煩的問(wèn)題。(2) LLM 的嵌入層 E 和輸出層 W 與詞匯量有關(guān),比如在 T5 模型中詞匯占到了模型參數(shù)數(shù)量的 66% 左右。
預(yù)訓(xùn)練成本高
通過(guò)增加計(jì)算預(yù)算可以提升模型的性能表現(xiàn),但如果模型或數(shù)據(jù)集大小固定,則增長(zhǎng)比率會(huì)降低,呈現(xiàn)收益遞減的冪律趨勢(shì)。
圖 3:掩碼策略。每一行表示一個(gè)特定輸出 y_i(行)可以考慮哪些輸入 x_i(列)(紅色表示單向,藍(lán)色表示雙向)。
圖 4:根據(jù)預(yù)訓(xùn)練目標(biāo)進(jìn)行自監(jiān)督式的數(shù)據(jù)構(gòu)建,來(lái)自 Tay et al.
微調(diào)開(kāi)銷(xiāo)
需要大量?jī)?nèi)存:對(duì)整個(gè) LLM 進(jìn)行微調(diào)時(shí)需要預(yù)訓(xùn)練時(shí)一樣大的內(nèi)存,但很多從業(yè)者無(wú)法辦到。
存儲(chǔ)和加載微調(diào) LLM 的開(kāi)銷(xiāo):當(dāng)通過(guò)全模型微調(diào)讓 LLM 適應(yīng)當(dāng)前任務(wù)時(shí),必須存儲(chǔ)模型的一個(gè)副本(這需要數(shù)據(jù)存儲(chǔ)空間),用于任務(wù)時(shí)還需要進(jìn)行加載(需要為此分配內(nèi)存)。
圖 5:針對(duì)下游具體任務(wù)對(duì) LLM 進(jìn)行微調(diào)。(a) 展示了簡(jiǎn)單普通的微調(diào),這需要更新整個(gè)模型,從而為每個(gè)任務(wù)生成一個(gè)新模型。(b) 展示了 PEFT 方法,其為每個(gè)任務(wù)學(xué)習(xí)一個(gè)模型參數(shù)子集,然后配合固定的基礎(chǔ) LLM 使用。針對(duì)不同任務(wù)執(zhí)行推理時(shí),可以復(fù)用同一個(gè)基礎(chǔ)模型。
全矩陣乘法:若要對(duì) LLM 實(shí)現(xiàn)參數(shù)高效的微調(diào),就需要在整個(gè)網(wǎng)絡(luò)中執(zhí)行完整的前向 / 后向通過(guò)。
推理延遲高
LLM 的推理延遲依然很高,原因包括并行性低和內(nèi)存足跡大。
上下文長(zhǎng)度有限
上下文長(zhǎng)度有限使得 LLM 難以很好地處理長(zhǎng)輸入,讓 LLM 不能很好地助力小說(shuō)或教科書(shū)寫(xiě)作或總結(jié)等應(yīng)用。
prompt 不穩(wěn)定
prompt 句法的變化導(dǎo)致的結(jié)果變化對(duì)人類(lèi)來(lái)說(shuō)并不直觀,有時(shí)候輸入一點(diǎn)小變化就會(huì)導(dǎo)致輸出大變樣。
圖 6:所選的 prompt 設(shè)計(jì)方法概況,分為單輪和多輪 prompt 設(shè)計(jì)。
幻覺(jué)問(wèn)題
幻覺(jué)問(wèn)題是指生成的文本雖然流暢又自然,但卻不忠實(shí)于內(nèi)容來(lái)源(內(nèi)在問(wèn)題)和 / 或不確定(外在問(wèn)題)。
圖 7:GPT-4 的幻覺(jué)問(wèn)題示例,訪問(wèn)日期:02/06/2023。
圖 8:用戶與 LLM 互動(dòng)時(shí)的 a) 內(nèi)在和 b) 外在幻覺(jué)示例。示例 a) 中,LLM 給出的答案與給定上下文相矛盾,而在 b) 中,上下文沒(méi)有提供足夠信息,無(wú)法知道生成的答案是否相矛盾。
圖 9:檢索增強(qiáng)型 GPT-4 示例,這是幻覺(jué)問(wèn)題的一種潛在解決方法,訪問(wèn)日期:02/06/2023。
行為不對(duì)齊
LLM 常會(huì)生成與人類(lèi)價(jià)值或意圖不對(duì)齊的輸出,這可能導(dǎo)致意想不到的負(fù)面后果。
圖 10:對(duì)齊。這里將對(duì)齊方面的現(xiàn)有研究工作分為兩類(lèi):檢測(cè)未對(duì)齊的行為和實(shí)現(xiàn)模型對(duì)齊的方法。
過(guò)時(shí)的知識(shí)
LLM 在預(yù)訓(xùn)練期間學(xué)到的事實(shí)信息可能不準(zhǔn)確或隨著時(shí)間的推移而變得過(guò)時(shí)。但是,使用更新的預(yù)訓(xùn)練數(shù)據(jù)重新訓(xùn)練模型的成本不低,而試圖在微調(diào)階段忘記過(guò)時(shí)事實(shí)并學(xué)習(xí)新知識(shí)的難度也不小。
圖 11:知識(shí)過(guò)時(shí)問(wèn)題的解決方法有:S.1) 通過(guò)對(duì)基礎(chǔ)檢索索引使用熱交換,使其獲得最新知識(shí),從而增強(qiáng)檢索能力;S.2) 通過(guò)應(yīng)用模型編輯技術(shù)。
評(píng)估方法不穩(wěn)定
對(duì)基礎(chǔ) prompt 或評(píng)估協(xié)議進(jìn)行少量修改就可能導(dǎo)致結(jié)果出現(xiàn)巨大變化。
基于靜態(tài)的、人工編寫(xiě)的 Ground Truth 來(lái)執(zhí)行評(píng)估
隨著時(shí)間的推移,靜態(tài)基準(zhǔn)的實(shí)用性越來(lái)越低,因?yàn)槟P偷哪芰υ谧兓?,而更新這些基準(zhǔn)需要人類(lèi)來(lái)編寫(xiě) Ground Truth。
難以分辨生成的文本和人類(lèi)編寫(xiě)的文本
隨著 LLM 的發(fā)展,人們?cè)絹?lái)越難以區(qū)分文本是來(lái)自 LLM 還是人類(lèi)。
而就算文本已經(jīng)被發(fā)現(xiàn)是 LLM 生成的,還能通過(guò)所謂的轉(zhuǎn)述攻打(Paraphrasing Attacks)繞開(kāi),即用另一個(gè) LLM 重寫(xiě)生成的文本,使結(jié)果保留大致一樣的意思,但改變?cè)~或句子架構(gòu)。
無(wú)法通過(guò)模型或數(shù)據(jù)擴(kuò)展解決的任務(wù)
某些任務(wù)似乎無(wú)法通過(guò)進(jìn)一步擴(kuò)展數(shù)據(jù)或模型來(lái)解決,比如一些組合任務(wù)(Compositional tasks)。
缺乏實(shí)驗(yàn)設(shè)計(jì)
表 2 列出了涉及這方面的一些學(xué)術(shù)論文。許多研究工作都沒(méi)有做控制變量實(shí)驗(yàn),如果模型的設(shè)計(jì)空間很大,那么這個(gè)問(wèn)題就顯得尤為嚴(yán)重。研究者認(rèn)為這會(huì)阻礙對(duì) LLM 的科學(xué)理解和技術(shù)進(jìn)步。
表 2:所選 LLM 概況。N/A 表示細(xì)節(jié)缺失。對(duì)于研究了多種模型大小的論文,這里僅給出了最大的模型。對(duì)于 Tokenizer 項(xiàng)為 SP 的論文,研究者表示無(wú)法從相應(yīng)論文中得知使用的是 BPE 還是 Unigram token 化方法。
對(duì)照實(shí)驗(yàn):介紹新 LLM 的論文通常缺乏對(duì)照實(shí)驗(yàn),這可能是由于訓(xùn)練足夠多模型的成本過(guò)高。
(設(shè)計(jì))維度詛咒:通常而言,LLM 實(shí)驗(yàn)的設(shè)計(jì)空間的維度很高。
難以復(fù)現(xiàn)
不可重復(fù)的訓(xùn)練流程:一般來(lái)說(shuō),現(xiàn)在常用的訓(xùn)練策略是并行化的,即會(huì)將訓(xùn)練過(guò)程分散到許多加速器上,而這個(gè)過(guò)程是非確定性的,這會(huì)使得我們難以復(fù)現(xiàn) LLM 的訓(xùn)練過(guò)程。
不可重現(xiàn)的 API:以推理 API 的形式提供服務(wù)的模型通常是不可重現(xiàn)的。
應(yīng)用
下面將聚焦于 LLM 的應(yīng)用領(lǐng)域,其中重點(diǎn)關(guān)注各領(lǐng)域常見(jiàn)的應(yīng)用架構(gòu)。
此外還會(huì)強(qiáng)調(diào)每個(gè)應(yīng)用領(lǐng)域所面臨的關(guān)鍵局限。
圖 12:LLM 應(yīng)用概況。不同顏色表示不同的模型適應(yīng)程度,包括預(yù)訓(xùn)練、微調(diào)、提示策略、評(píng)估。
聊天機(jī)器人
通用型聊天機(jī)器人(對(duì)話智能體)包含多種任務(wù),如信息檢索、多輪交互和文本生成(包括代碼)。
保持連貫性:多輪交互使聊天機(jī)器人很容易「忘記」對(duì)話中更早的部分或重復(fù)自己說(shuō)過(guò)的話。
推理延遲高:推理延遲高的話,用戶體驗(yàn)會(huì)大打折扣,尤其是要和聊天機(jī)器人進(jìn)行多輪對(duì)話時(shí)。
計(jì)算生物學(xué)
計(jì)算生物學(xué)關(guān)注的是表示相似序列建模和預(yù)測(cè)挑戰(zhàn)的非文本數(shù)據(jù)。
難以遷移到下游任務(wù):蛋白質(zhì)語(yǔ)言模型的最終目標(biāo)是將它們部署到藥物設(shè)計(jì)等現(xiàn)實(shí)項(xiàng)目中。評(píng)估通常針對(duì)較小和 / 或?qū)iT(mén)的數(shù)據(jù)集,而不考慮模型如何有助于生體外或生體內(nèi)的蛋白質(zhì)設(shè)計(jì)。
上下文窗口有限:最大的基因組的 DNA 序列遠(yuǎn)遠(yuǎn)長(zhǎng)于現(xiàn)有基因組 LLM 的上下文窗口,這會(huì)讓研究者難以使用這些 LLM 建模某些基因組類(lèi)型。
計(jì)算機(jī)編程
LLM 最先進(jìn)和廣泛采用的一大應(yīng)用是用各種編程語(yǔ)言生成和補(bǔ)完計(jì)算機(jī)程序。
長(zhǎng)程依賴(lài):由于上下文長(zhǎng)度有限,LLM 通常無(wú)法考慮跨代碼庫(kù)的長(zhǎng)程依賴(lài)關(guān)系。
圖 13:API 定義框架。這張示意圖展示了一個(gè) API 定義框架:為了解決特定任務(wù),可以在 prompt 中提供一個(gè)通用的 API 定義,從而讓 LLM 可以使用外部代碼或工具。這種方法的擴(kuò)展包括要求 LLM 實(shí)現(xiàn) API 定義中的功能(紅色),以及提示 LLM 自己去調(diào)試任何不執(zhí)行的 API 代碼(綠色)。
創(chuàng)意工作
在創(chuàng)意工作方面,LLM 主要被用于生成故事和劇本。
上下文窗口有限:由于上下文窗口有限,當(dāng)前的 LLM 無(wú)法完整地生成長(zhǎng)作品,這會(huì)限制它們?cè)陂L(zhǎng)作品方面的應(yīng)用,也催生了對(duì)模塊化 prompt 設(shè)計(jì)的需求。
圖 14:模塊化 prompt 設(shè)計(jì)。通過(guò)一系列分立的 prompt 和處理步驟,LLM 可以執(zhí)行無(wú)法放入單個(gè)上下文窗口中的任務(wù)以及解決無(wú)法通過(guò)單一 prompt 步驟解決的任務(wù)。
知識(shí)工作
隨著 LLM 在特定領(lǐng)域的知識(shí)任務(wù)(比如法律或醫(yī)學(xué))上的能力逐漸得到證明,人們也越來(lái)越有興趣將 LLM 用于更廣泛的知識(shí)工作。這些潛在應(yīng)用的范圍非常廣泛,據(jù) Eloundou et al. 估計(jì),美國(guó) 80% 的勞動(dòng)力所從事的工作中至少有 10% 的任務(wù)會(huì)受到 LLM 的影響。
數(shù)值推理:LLM 通常在涉及數(shù)量的任務(wù)上表現(xiàn)更差,這可能會(huì)限制它們?cè)诮鹑诜?wù)或會(huì)計(jì)等知識(shí)工作領(lǐng)域的應(yīng)用。
法律
LLM 在法律領(lǐng)域的應(yīng)用與在醫(yī)學(xué)領(lǐng)域的有許多相似之處,包括法律問(wèn)答和法律信息提取。但也有人提出過(guò)其它特定領(lǐng)域的應(yīng)用,比如案件結(jié)果預(yù)測(cè)、法律研究和法律文本生成。
信息過(guò)時(shí)問(wèn)題:由于法律會(huì)不斷更新,新的判例也會(huì)不斷出現(xiàn),因此訓(xùn)練 / 檢索數(shù)據(jù)經(jīng)常會(huì)遇到過(guò)時(shí)的問(wèn)題。
醫(yī)學(xué)
醫(yī)學(xué)領(lǐng)域已經(jīng)提出了許多 LLM 應(yīng)用,包括醫(yī)學(xué)問(wèn)答、臨床信息提取、索引、分診、和健康記錄管理。
幻覺(jué)和偏見(jiàn):醫(yī)療領(lǐng)域的安全性是至關(guān)重要的,這意味著出現(xiàn)幻覺(jué)的可能性會(huì)極大地限制當(dāng)前的用例。此外,為了降低 LLM 延續(xù)現(xiàn)有臨床數(shù)據(jù)集中的偏見(jiàn)的風(fēng)險(xiǎn),還需要進(jìn)一步的研究工作。
推理
數(shù)學(xué)和算法任務(wù)往往需要不同于傳統(tǒng) NLP 任務(wù)的能力集合,比如理解數(shù)學(xué)運(yùn)算、復(fù)雜的多步推理和更長(zhǎng)期的規(guī)劃。因此,現(xiàn)在人們也在努力研究如何將 LLM 用于這些任務(wù)以及如何提升 LLM 的能力。
性能表現(xiàn)不及人類(lèi):在推理基準(zhǔn)任務(wù)上,現(xiàn)有的 LLM 難以比肩人類(lèi)。
機(jī)器人和具身智能體
LLM 也已經(jīng)開(kāi)始被集成到機(jī)器人應(yīng)用中,以為機(jī)器人提供高層規(guī)劃和語(yǔ)境知識(shí)能力。
單一模態(tài)問(wèn)題:盡管 LLM 可以幫助機(jī)器人或智能體理解指令和增添高層規(guī)劃能力,但它們卻無(wú)法直接學(xué)習(xí)圖像、音頻或其它感官模態(tài),這就限制了它們的應(yīng)用。
社會(huì)科學(xué)和心理學(xué)
快速發(fā)展的 LLM 也在心理學(xué)和行為科學(xué)領(lǐng)域找到了潛在的應(yīng)用場(chǎng)景。研究者分析了已有的文獻(xiàn),找到了 LLM 在心理學(xué)和行為科學(xué)領(lǐng)域得到使用的三個(gè)主要方向:使用 LLM 來(lái)模擬人類(lèi)行為實(shí)驗(yàn)、分析 LLM 的人格特質(zhì)、使用 LLM 作為建模社會(huì)關(guān)系的人工智能體。如圖 15 所示。
圖 15:LLM 在社會(huì)科學(xué)和心理學(xué)領(lǐng)域的用例。
社會(huì)偏見(jiàn):由于 LLM 的訓(xùn)練數(shù)據(jù)中存在不平衡的觀點(diǎn)和意見(jiàn),因此會(huì)使其傾向有偏見(jiàn)的人類(lèi)行為。
生成合成數(shù)據(jù)
LLM 具備在上下文中學(xué)習(xí)的能力,因此可以通過(guò) prompt 讓其生成合成數(shù)據(jù)集,用于訓(xùn)練更小型的特定領(lǐng)域的模型。
帶幻覺(jué)的分布:由于我們現(xiàn)在還無(wú)法驗(yàn)證生成的合成數(shù)據(jù)是否能否代表對(duì)應(yīng)的真實(shí)世界數(shù)據(jù)的分布,因此目前還難以使用 LLM 生成完整的合成數(shù)據(jù)集。