深度學(xué)習(xí)大牛權(quán)威預(yù)測(cè)2024年AI行業(yè)熱點(diǎn),盤(pán)點(diǎn)開(kāi)源AI趨勢(shì)!
知名人工智能研究人員SEBASTIAN RASCHKA在進(jìn)入2023年尾聲的時(shí)候,對(duì)幾年行業(yè)的發(fā)展進(jìn)行了一個(gè)全面的回顧。
在他看來(lái),雖然今年以大語(yǔ)言模型為代表的AI行業(yè)風(fēng)起云涌,新產(chǎn)品新技術(shù)不斷推出,高光頻現(xiàn)。
但是伴隨著技術(shù)的發(fā)展,也有更多的問(wèn)題出現(xiàn),亟待解決。
文章鏈接:
https://magazine.sebastianraschka.com/p/ai-and-open-source-in-2023
2023年:只是2022年高潮的延續(xù)?
今年,人們還沒(méi)有看到人工智能產(chǎn)品方面有任何根本性的新技術(shù)或方法出現(xiàn)。相反,今年主要產(chǎn)品和更新都是去年基礎(chǔ)的延續(xù):
ChatGPT從GPT-3.5升級(jí)到GPT-4
DALL·E 2 升級(jí)為 DALL·E 3
Stable Diffusion 2.0升級(jí)為 Stable Diffusion XL
而一個(gè)一直被多方炒作的傳聞很有意思:GPT-4是由16個(gè)子模塊組成的專家(MoE)模型的混合體。
而且據(jù)說(shuō),這16個(gè)子模塊中的每一個(gè)MoE都有1110億個(gè)參數(shù)(作為參考,GPT-3有1750億個(gè)參數(shù))。
盡管不能100%確定,但GPT-4是一個(gè)MoE組成的集群這個(gè)事很可能是真的。
從這個(gè)事情上,看得出的一個(gè)趨勢(shì)是,AI行業(yè)的研究人員在論文中分享的信息現(xiàn)在已經(jīng)越來(lái)越少。
例如,GPT-1、GPT-2、GPT-3 和Instruct GPT論文披露了具體的架構(gòu)和訓(xùn)練細(xì)節(jié),而GPT-4架構(gòu)就沒(méi)有人知道了。
再舉個(gè)例子:Meta AI的第一篇Llama論文詳細(xì)介紹了用于訓(xùn)練模型的訓(xùn)練數(shù)據(jù)集,而 Llama 2模型則對(duì)這些信息都進(jìn)行了保密。
在大模型透明度方面,斯坦福大學(xué)上周推出了 「基礎(chǔ)模型透明度指數(shù)」(The Foundation Model Transparency Index),根據(jù)該指數(shù),Llama 2以54%領(lǐng)先,GPT-4以48%排名第三。
當(dāng)然,要求企業(yè)分享商業(yè)機(jī)密可能并不合理。但這仍然是一個(gè)值得一提的很有意思的一個(gè)趨勢(shì)。
因?yàn)椋?024年這個(gè)趨勢(shì)似乎不會(huì)改變。
關(guān)于技術(shù)的進(jìn)一步發(fā)展,今年的另一個(gè)趨勢(shì)是輸入上下文的長(zhǎng)度一直在增長(zhǎng)。
例如,GPT-4的競(jìng)爭(zhēng)對(duì)手Claude 2的主要賣點(diǎn)之一就是它支持多達(dá)100k token的輸入(GPT-4 目前只支持32k的上下文),這使得它在生成長(zhǎng)文檔摘要時(shí)特別有吸引力。
它還支持PDF輸入,因此對(duì)于很多人的工作也特別有用。
開(kāi)源AI趨勢(shì)總結(jié)
根據(jù)作者的記憶,去年開(kāi)源社區(qū)非常關(guān)注隱擴(kuò)散模型(Latent Diffusion Model如穩(wěn)定擴(kuò)散模型)和其他計(jì)算機(jī)視覺(jué)模型。
擴(kuò)散模型和計(jì)算機(jī)視覺(jué)一如既往地具有現(xiàn)實(shí)意義。不過(guò),今年開(kāi)源和學(xué)界、關(guān)注的焦點(diǎn)成為了LLM。
開(kāi)源(或者說(shuō)公開(kāi)可用)LLM的爆炸式增長(zhǎng)部分要?dú)w功于Meta公司發(fā)布的首個(gè)預(yù)訓(xùn)練Llama,盡管該模型的許可證具有限制性,但還是激勵(lì)了許多研究人員和從業(yè)人員投入和很多時(shí)間和精力,導(dǎo)致了后來(lái)的羊駝大爆發(fā):Alpaca,Vicuna,Llama-Adapter,Lit-Llama等變體的出現(xiàn)。
幾個(gè)月后,Llama 2在很大程度上取代了Llama 1,成為功能更強(qiáng)的基礎(chǔ)模型,甚至官方還推出了其他的微調(diào)版本。
然而,盡管 Llama-Adapter v1 和 Llama-Adapter v2等微調(diào)方法有望將現(xiàn)有 LLM變成多模態(tài)LLM,但大多數(shù)開(kāi)源LLM仍然是純文本模型。
另外一個(gè)值得注意的模型是于 10 月 17 日發(fā)布的Fuyu-8B模型。
值得注意的是,F(xiàn)uyu-8B將輸入片段直接傳入線性投影層(或嵌入層),以學(xué)習(xí)自己的圖像片段嵌入,而不是像其他模型和方法(例如 LLaVA 和 MiniGPT-V)那樣依賴額外的預(yù)訓(xùn)練圖像編碼器。
這種方式大大簡(jiǎn)化了架構(gòu)和訓(xùn)練設(shè)置。
除了上述幾種多模態(tài)嘗試之外,最大的研究熱點(diǎn)仍然是使用參數(shù)小于100 B的較小模型來(lái)追求達(dá)到GPT-4級(jí)別的文本性能。
開(kāi)源社區(qū)進(jìn)行類似嘗試的原因,可能是由于硬件資源成本和限制、有限的數(shù)據(jù)訪問(wèn)以及對(duì)較短開(kāi)發(fā)時(shí)間的要求(由于發(fā)表論文的壓力,大多數(shù)研究人員無(wú)法花費(fèi)數(shù)年時(shí)間來(lái)訓(xùn)練一個(gè)模型)。
不過(guò),開(kāi)源LLM的下一個(gè)突破并不一定來(lái)自將模型擴(kuò)展到更大的規(guī)模。
2024年,MoE方法能否將開(kāi)源模型提升到新的高度,讓我們拭目以待。
有趣的是,在研究方面,大家在2023年還看到了一些基于Transformer的LLM 的替代方案,包括旨在提高效率的遞歸RWKV LLM和卷積Hyena LLM。
不過(guò),基于Transformer的LLM仍然是當(dāng)前的主流技術(shù)。
總的來(lái)說(shuō),開(kāi)源社區(qū)在這一年里非常活躍,取得了許多突破和進(jìn)步。
而且開(kāi)源社區(qū)的一大特點(diǎn)就是1+1>2。
因此,作者對(duì)積極游說(shuō)反對(duì)開(kāi)源人工智能的人感到難過(guò)。
作者希望開(kāi)源社區(qū)能保持積極的勢(shì)頭,建立更有效的解決方案和替代產(chǎn)品,而不是一味地依賴大型科技公司發(fā)布的類似ChatGPT這樣的產(chǎn)品。
由于開(kāi)源社區(qū)的不斷努力,出現(xiàn)了可以在單個(gè)GPU上運(yùn)行的小型高效模型,如1.3B參數(shù)的phi1.5、7B Mistral和7B Zephyr,其性能已接近大型閉源模型。
這是一個(gè)令人興奮的趨勢(shì),作者希望這一趨勢(shì)能在2024年繼續(xù)下去。
生產(chǎn)力期望
作者認(rèn)為開(kāi)源人工智能是開(kāi)發(fā)高效和定制化的LLM解決方案的主要途徑,包括那種可以適用于各種應(yīng)用,基于個(gè)人或特定領(lǐng)域數(shù)據(jù)的微調(diào)LLM。
如果在社交媒體上關(guān)注過(guò)作者本人的話,可能會(huì)看到他在談?wù)摵筒粩喔纳频腖it-GPT,這是作者積極參與的一個(gè)LLM開(kāi)源資源庫(kù)。
雖然作者本人非常支持開(kāi)源,但他也非常喜歡精心設(shè)計(jì)的產(chǎn)品。
自從ChatGPT發(fā)布以來(lái),LLM被用于幾乎所有領(lǐng)域。
而正確使用LLM助手能讓你事半功倍。
例如,向ChatGPT詢問(wèn)雜貨店的營(yíng)業(yè)時(shí)間就不是一個(gè)發(fā)揮它功能長(zhǎng)處的用法。但是,修改文章的語(yǔ)法,或者進(jìn)行頭腦風(fēng)暴,重新遣詞造句。
從更宏觀的角度看,LLM的核心能力是提高工作效率,這一點(diǎn)每個(gè)人都不會(huì)否認(rèn)。
除了用于普通文本的LLM,微軟和GitHub推出的Copilot代碼助手也日趨成熟,越來(lái)越多的人開(kāi)始使用它。
今年早些時(shí)候,Ark-Invest 的一份報(bào)告估計(jì),代碼助手能將完成一項(xiàng)編碼任務(wù)的時(shí)間縮短約55%。
不過(guò),不論55%這個(gè)數(shù)字是否真的那么準(zhǔn)確,只要用過(guò)代碼助手,任何人都能感受到效率的巨大提升,可以讓繁瑣的代碼任務(wù)變得更輕松。
有一點(diǎn)是肯定的:代碼助手將繼續(xù)存在,而且隨著時(shí)間的推移,它們只會(huì)變得越來(lái)越好用。
它們會(huì)取代人類程序員嗎?作者希望不會(huì)。但毫無(wú)疑問(wèn),它們將提高現(xiàn)有程序員的工作效率。
這對(duì)StackOverflow意味著什么?《人工智能現(xiàn)狀報(bào)告》中有一張圖表,顯示了StackOverflow 與 GitHub 的網(wǎng)站流量對(duì)比,這可能與Copilot的使用率越來(lái)越高有關(guān)。
不過(guò),作者認(rèn)為即使是ChatGPT/GPT-4已經(jīng)對(duì)代碼相關(guān)的任務(wù)很有幫助了。
可能ChatGPT也是導(dǎo)致StackOverflow流量下降的部分原因(甚至是主要原因)。
AI行業(yè)面對(duì)的幾大問(wèn)題
幻覺(jué)
與2022年一樣,同樣的問(wèn)題仍然困擾著LLM:他們可能會(huì)生成有毒內(nèi)容,并傾向于產(chǎn)生幻覺(jué)。
在這一年中,出現(xiàn)多種解決這一問(wèn)題的方法,包括帶有人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)和英偉達(dá)提出的NeMO Guardrails。
然而,這些方法仍然解決不了根本問(wèn)題,要么過(guò)于嚴(yán)格,要么效果不好。
項(xiàng)目地址:https://github.com/NVIDIA/NeMo-Guardrails
到目前為止,還沒(méi)有一種方法(甚至連設(shè)計(jì)可行方法的思路都沒(méi)有)能在不削弱LLM的積極功能的基礎(chǔ)之上,能百分之百可靠地解決這個(gè)問(wèn)題。
在作者看來(lái),這一切都取決于人類如何使用 LLM:不要什么事都用LLM,數(shù)學(xué)用計(jì)算器,把LLM只看做是寫(xiě)作工具,并仔細(xì)檢查它的輸出,等等。
此外,對(duì)于特定的商業(yè)應(yīng)用,也許可以探索檢索增強(qiáng)(RAG)系統(tǒng)。
它作為一種折中方案,開(kāi)發(fā)人員從語(yǔ)料庫(kù)中檢索相關(guān)的文檔段落,然后根據(jù)檢索到的內(nèi)容為基礎(chǔ), 為L(zhǎng)LM的文本生成設(shè)定條件。
這種方法能讓模型從數(shù)據(jù)庫(kù)和文檔中獲取外部信息,而不是依賴于記憶所有知識(shí)和信息。
版權(quán)問(wèn)題
另一個(gè)更緊迫的問(wèn)題,是圍繞人工智能的版權(quán)爭(zhēng)論。
根據(jù)維基百科的說(shuō)法,「在受版權(quán)保護(hù)的材料上訓(xùn)練出來(lái)的LLM的版權(quán)問(wèn)題尚未解決」。
總體看來(lái),許多規(guī)則仍在起草和修訂之中。作者希望,無(wú)論規(guī)則是什么,都能清晰明了,以便人工智能研究人員和從業(yè)人員能夠做出相應(yīng)的調(diào)整和行動(dòng)。
評(píng)估
困擾學(xué)術(shù)研究的一個(gè)問(wèn)題是,流行的基準(zhǔn)和排行榜被基本上都是半成品,因?yàn)闇y(cè)試集內(nèi)容可能已經(jīng)泄露,成為了LLM 的訓(xùn)練數(shù)據(jù)。這已經(jīng)成為 phi-1.5 和 Mistral的一個(gè)問(wèn)題。
自動(dòng)評(píng)估 LLM 的一個(gè)常用但不太方便的方法是以人類的偏好為測(cè)評(píng)標(biāo)準(zhǔn)。另外,許多論文也將 GPT-4作為第二好的方法。
收入
生成式人工智能目前仍處于初期探索階段。
當(dāng)然,大語(yǔ)言模型和文生圖模型已經(jīng)在很多領(lǐng)域非常好用了。
然而,由于昂貴的托管和運(yùn)行成本,它們能否為公司賺錢仍是一個(gè)備受爭(zhēng)議的話題。
例如,據(jù)報(bào)道,OpenAI去年虧損了5.4億美元。另一方面,最近有報(bào)道稱,OpenAI現(xiàn)在每月能賺到8000萬(wàn)美元,已經(jīng)抵消它的運(yùn)營(yíng)成本。
虛假圖像
與生成式人工智能有關(guān)的一個(gè)大問(wèn)題是偽造圖像和視頻的問(wèn)題,這在目前的社交媒體平臺(tái)上尤為明顯。
偽造圖片和視頻一直是個(gè)問(wèn)題,Photoshop等軟件已經(jīng)降低了偽造內(nèi)容的門檻,人工智能正在將這一問(wèn)題提升到一個(gè)新的水平。
也有人工智能系統(tǒng)希望能在檢測(cè)人工智能生成的內(nèi)容方面產(chǎn)生作用,但這些系統(tǒng)對(duì)文本、圖像或視頻都不可靠。
要在一定程度上遏制和打擊這些問(wèn)題,唯一的辦法就是依靠值得信賴的專家。
就像我們不會(huì)從互聯(lián)網(wǎng)上的隨機(jī)論壇或網(wǎng)站上獲取醫(yī)療或法律建議一樣,我們可能也不應(yīng)該在沒(méi)有反復(fù)核實(shí)的情況下相信互聯(lián)網(wǎng)上隨機(jī)賬號(hào)的圖片和視頻。
數(shù)據(jù)集瓶頸
與前面提到的版權(quán)爭(zhēng)論有關(guān),許多公司(包括 Twitter/X 和 Reddit)關(guān)閉了免費(fèi)API訪問(wèn)權(quán)限,以增加收入,同時(shí)也是為了防止搜刮者收集平臺(tái)數(shù)據(jù)用于人工智能訓(xùn)練。
我遇到過(guò)許多專門從事數(shù)據(jù)集相關(guān)工作的公司的廣告。雖然人工智能可能會(huì)令人遺憾地導(dǎo)致某些工作自動(dòng)化,淘汰人類勞動(dòng)力,但它似乎同時(shí)也在創(chuàng)造新的就業(yè)機(jī)會(huì)。
為開(kāi)源LLM進(jìn)步做出貢獻(xiàn)的最佳方式之一,可能就是建立一個(gè)數(shù)據(jù)集眾包平臺(tái),來(lái)撰寫(xiě)、收集和整理經(jīng)明確許可用于LLM培訓(xùn)的數(shù)據(jù)集。
RLHF是蛋糕上的櫻桃嗎?
當(dāng)Llama 2模型套件發(fā)布時(shí),它包含了針對(duì)聊天進(jìn)行微調(diào)的模型。Meta AI 使用強(qiáng)化學(xué)習(xí)與人類反饋 (RLHF),提高了其模型的有用性和無(wú)害性。
作者認(rèn)為RLHF是一種非常有趣且有前途的方法,但除了InstructGPT、ChatGPT和Llama 2之外,它并沒(méi)有被廣泛使用。下圖是一張關(guān)于RLHF日益普及的圖表。
由于 RLHF 的實(shí)現(xiàn)有點(diǎn)復(fù)雜和棘手,因此大多數(shù)開(kāi)源項(xiàng)目仍然專注于指令微調(diào)的監(jiān)督微調(diào)。
RLHF 的最新替代方案是直接偏好優(yōu)化 (DPO)。在相應(yīng)的論文中,研究人員表明,在RLHF中擬合獎(jiǎng)勵(lì)模型的交叉熵?fù)p失可以直接用于微調(diào)LLM。
根據(jù)他們的基準(zhǔn),使用 DPO 更有效,并且在響應(yīng)質(zhì)量方面通常也優(yōu)于 RLHF/PPO。
DPO似乎尚未被廣泛使用。然而,不久前,我們看到了通過(guò)DPO訓(xùn)練的第一個(gè)公開(kāi)可用的LLM,它似乎優(yōu)于通過(guò) RLHF 訓(xùn)練的更大的Llama-2 70b Chat模型:
但是,值得注意的是,RLHF并未明確用于優(yōu)化基準(zhǔn)性能;它的主要優(yōu)化目標(biāo)是人類用戶評(píng)估的「有用性」和「無(wú)害性」,這里沒(méi)有捕捉到這一點(diǎn)。
使用LLM做分類?
不久前,作者在Packt 生成式 AI 會(huì)議上發(fā)表了演講,強(qiáng)調(diào)文本模型最突出的用例之一仍然是分類。例如,考慮一些常見(jiàn)的任務(wù),例如垃圾郵件分類、文檔分類、對(duì)客戶評(píng)論進(jìn)行分類,以及在社交媒體上標(biāo)記有害言論。
而對(duì)于這些任務(wù),僅使用單個(gè) GPU 運(yùn)行「小型」LLM(例如DistilBERT)就足以獲得非常好的分類性能。
今年,作者在他的深度學(xué)習(xí)基礎(chǔ)課程中發(fā)布了使用小型LLM進(jìn)行文本分類的練習(xí),有人甚至通過(guò)微調(diào)現(xiàn)成的可用 Roberta模型,在IMDB電影評(píng)論數(shù)據(jù)集上實(shí)現(xiàn)了>96%的預(yù)測(cè)準(zhǔn)確率。
話雖如此,目前卻仍然沒(méi)有看到任何關(guān)于LLM分類的新的主要工作或趨勢(shì)。大多數(shù)從業(yè)者仍在使用基于 BERT 的編碼器模型或編碼器-解碼器模型,例如2022年問(wèn)世的 FLAN-T5。這可能是因?yàn)檫@些架構(gòu)仍然在各項(xiàng)任務(wù)中表現(xiàn)良好。
LLM用于表格數(shù)據(jù)
2022 年,作者撰寫(xiě)了《 A Short Chronology Of Deep Learning For Tabular Data》,介紹了許多有趣的基于深度學(xué)習(xí)的表格數(shù)據(jù)方法。然而,與上面提到的用于分類的 LLM 類似,在表格數(shù)據(jù)集方面也沒(méi)有那么多的發(fā)展。
2022 年,Grinsztajn 等人撰寫(xiě)了一篇論文,題為《Why do tree-based models still outperform deep learning on tabular data?》。確實(shí),基于樹(shù)的模型(隨機(jī)森林和 XGBoost)在中小型數(shù)據(jù)集(10k個(gè)訓(xùn)練示例)上的表格數(shù)據(jù)方面仍然優(yōu)于深度學(xué)習(xí)方法。
此外,XGBoost又推出了一個(gè)大型 2.0 版本,該版本具有更好的內(nèi)存效率、對(duì)不適合內(nèi)存的大型數(shù)據(jù)集的支持、多目標(biāo)樹(shù)等。
2023 年的計(jì)算機(jī)視覺(jué)
大型語(yǔ)言模型開(kāi)發(fā)(LLM)開(kāi)發(fā)仍在快速進(jìn)行。與此同時(shí),撇開(kāi)人工智能監(jiān)管的爭(zhēng)論不談,LLM新聞的出現(xiàn)速度似乎比平時(shí)略慢。這是一個(gè)很好的機(jī)會(huì),可以偶爾關(guān)注計(jì)算機(jī)視覺(jué),討論該領(lǐng)域的研究和開(kāi)發(fā)現(xiàn)狀。
除了研究之外,與計(jì)算機(jī)視覺(jué)相關(guān)的人工智能一直在激發(fā)今年已經(jīng)成熟的新產(chǎn)品和體驗(yàn)。
例如,今年夏天,第一輛真正的無(wú)人駕駛Waymo汽車在街上漫游。
以及,人工智能的使用在電影行業(yè)越來(lái)越受歡迎。最近的一個(gè)例子是哈里森·福特(Harrison Ford)在《奪寶奇兵5》中的去衰老,電影制片人使用演員的舊檔案材料訓(xùn)練了人工智能。
然后,生成式人工智能功能現(xiàn)在已經(jīng)牢固地集成到流行的軟件產(chǎn)品中。最近的一個(gè)例子是 Adobe 的 Firefly 2。
2024 年的預(yù)測(cè)
預(yù)測(cè)始終是最具投機(jī)性和挑戰(zhàn)性的方面。去年,作者預(yù)測(cè)LLM在文本或代碼以外的領(lǐng)域中會(huì)有更多應(yīng)用。
其中一個(gè)例子是HyenaDNA,它是DNA的LLM。另一個(gè)Geneformer,這是一個(gè)在3000萬(wàn)個(gè)單細(xì)胞轉(zhuǎn)錄組上預(yù)訓(xùn)練的transformer,旨在促進(jìn)網(wǎng)絡(luò)生物學(xué)的預(yù)測(cè)。
到2024年,LLM將越來(lái)越多地改變計(jì)算機(jī)科學(xué)之外的STEM研究。
一個(gè)新興趨勢(shì)是各種公司開(kāi)發(fā)定制 AI 芯片,這是由于高需求導(dǎo)致的GPU稀缺。谷歌將在其TPU硬件上加倍投入,亞馬遜已經(jīng)推出了Trainium芯片,AMD可能會(huì)縮小與NVIDIA的差距?,F(xiàn)在,Microsoft 和OpenAI也開(kāi)始開(kāi)發(fā)自己的定制 AI 芯片。
這方面的挑戰(zhàn)在于,確保在主要的深度學(xué)習(xí)框架中對(duì)這種硬件提供全面而強(qiáng)大的支持。
在開(kāi)源方面,我們?nèi)匀宦浜笥谧畲蟮拈]源模型。目前,最大的公開(kāi)型號(hào)是 Falcon 180B。這倒是不太令人擔(dān)憂,因?yàn)闊o(wú)論如何,大多數(shù)人都無(wú)法獲得處理這些模型所需的大量硬件資源。我們更加渴望的是更多由多個(gè)較小的子模塊組成的開(kāi)源 MoE 模型,而不是更大的模型。
另外,我們也可以看到眾包數(shù)據(jù)集的上的進(jìn)展,以及 DPO 的興起,以取代最先進(jìn)的開(kāi)源模型中的監(jiān)督微調(diào)。