一文盤點(diǎn)2023人工智能進(jìn)展,不止大模型而已
2023年大模型千帆競(jìng)發(fā),除此外AI領(lǐng)域還有哪些新突破?
來(lái)來(lái)來(lái),暢銷書(shū)《Python機(jī)器學(xué)習(xí)》作者Sebastian Raschka的年末總結(jié)已經(jīng)準(zhǔn)備好了。
看完才知道:
RLHF今年雖然爆火,但實(shí)打?qū)嵱玫降哪P筒⒉欢啵F(xiàn)在還出現(xiàn)了替代方案,有望從開(kāi)源界“出圈”;
大模型透明度越來(lái)越低,透明度最高的是Llama 2,但得分也僅有54;
開(kāi)源模型下一步不一定是“更大”,混合專家模型(MoE)可能是個(gè)突破點(diǎn)。
……
除了大語(yǔ)言模型,Sebastian Raschka還根據(jù)CVPR 2023打包了計(jì)算機(jī)視覺(jué)進(jìn)展,最后還講到了AI當(dāng)前的一些局限性、以及對(duì)2024年的技術(shù)預(yù)測(cè)。
走過(guò)路過(guò)的網(wǎng)友們紛紛表示總結(jié)得很到位:
△機(jī)器翻譯,僅供參考
下面我們一起來(lái)看看這份年度總結(jié)里都有啥。
2023 AI爆點(diǎn):大語(yǔ)言模型
今年,大模型領(lǐng)域似乎沒(méi)有出現(xiàn)實(shí)質(zhì)性的創(chuàng)新技術(shù),更多是基于去年的擴(kuò)展:
- ChatGPT(GPT-3.5)升級(jí)到GPT-4
- DALL-E 2升級(jí)到DALL-E 3
- Stable Diffusion 2.0升級(jí)到Stable Diffusion XL
……
但學(xué)界業(yè)界依舊忙得熱火朝天,一些新趨勢(shì)、新內(nèi)容總結(jié)如下——
重要AI模型論文信息量驟減
首先,是業(yè)界研究者在論文中公開(kāi)的研究細(xì)節(jié)越來(lái)越少。
OpenAI此前在GPT-1、GPT-2、GPT-3、InstructGPT的論文中,還詳盡披露了模型架構(gòu)和訓(xùn)練過(guò)程;
但從GPT-4開(kāi)始,OpenAI完全不提構(gòu)建過(guò)程。
唯一不知真假的GPT-4架構(gòu)信息,來(lái)源于坊間傳聞:
GPT-4是由16個(gè)子模塊構(gòu)成的混合專家(MoE)模型,每個(gè)子模塊擁有高達(dá)1110億參數(shù)……
Meta亦是如此,在第一篇Llama論文中詳細(xì)闡述了訓(xùn)練數(shù)據(jù)集,但Llama 2完全沒(méi)提相關(guān)內(nèi)容。
即便如此,Llama 2已經(jīng)是一眾大模型中最公開(kāi)的了。斯坦福大學(xué)最近發(fā)布了一項(xiàng)關(guān)于大模型透明度指數(shù)的研究,Llama 2得分54,透明度排第一,GPT-4得分48,排第三。
雖然模型細(xì)節(jié)算是公司商業(yè)機(jī)密,但Sebastian Raschka認(rèn)為這種趨勢(shì)還是值得關(guān)注,因?yàn)樗坪鯐?huì)在2024持續(xù)。
大模型開(kāi)卷上下文長(zhǎng)度
今年大語(yǔ)言模型的另一個(gè)趨勢(shì)是擴(kuò)展輸入的上下文長(zhǎng)度。
此前GPT-4上下文長(zhǎng)度還是32k時(shí),競(jìng)品Claude 2就將上下文推進(jìn)到100k tokens,且支持PDF文件輸入。
隨后GPT-4大更新,新版本GPT-4 Turbo刷新上下文長(zhǎng)度紀(jì)錄,已支持128k tokens。
一些編程工具,如GitHub Copilot,也在不斷增加上下文窗口長(zhǎng)度。
開(kāi)源大模型比拼“小而美”
用更小的模型比肩大模型的性能,是開(kāi)源圈的“新玩法”。
目前,多數(shù)現(xiàn)有開(kāi)源大模型仍然是純文本模型。
這些模型研究重點(diǎn)之一,是用小于100B參數(shù)的“小模型”對(duì)標(biāo)GPT-4的文本處理能力。
甚至出現(xiàn)了很多可以單GPU運(yùn)行的小模型,例如1.3B的phi1.5、7B的Mistral、7B的Zephyr。
Sebastian Raschka認(rèn)為,開(kāi)源模型的下一個(gè)突破點(diǎn)不一定是“更大”,或許MoE也可能把開(kāi)源模型提升到新的高度。
這么做可能是考慮硬件資源成本、數(shù)據(jù)量、開(kāi)發(fā)時(shí)間等因素。
但也有值得關(guān)注的開(kāi)源多模態(tài)大模型,例如10月17日剛發(fā)布的Fuyu-8B。
Fuyu-8B在處理圖像時(shí),直接將圖像切成小塊,然后把這些小塊輸入到一個(gè)線性投影層,在這一層里面自動(dòng)學(xué)習(xí)小塊的向量表示,避免用額外的預(yù)訓(xùn)練編碼器來(lái)提取圖像特征,簡(jiǎn)化了模型架構(gòu)和訓(xùn)練過(guò)程。
同時(shí),Llama-Adapter v1、Llama-Adapter v2等微調(diào)方法的出現(xiàn),有望將現(xiàn)有的大模型擴(kuò)展到多模態(tài)領(lǐng)域。
RLHF平替已出現(xiàn)
RLHF(人類反饋強(qiáng)化學(xué)習(xí))是大模型最受關(guān)注的技術(shù)之一,InstructGPT、ChatGPT、Llama 2中都用到了這種訓(xùn)練方法。
但分析公司stateof.ai發(fā)布的“2023AI現(xiàn)狀報(bào)告”中顯示,它還沒(méi)有被廣泛運(yùn)用,可能是因?yàn)閷?shí)現(xiàn)起來(lái)比較復(fù)雜。目前大多開(kāi)源項(xiàng)目仍然專注于指令微調(diào)。
不過(guò),RLHF的最新替代方案已經(jīng)出現(xiàn):直接偏好優(yōu)化(DPO)。
這一方法由斯坦福大學(xué)研究團(tuán)隊(duì)提出。
DPO利用獎(jiǎng)勵(lì)函數(shù)到最優(yōu)策略之間的映射關(guān)系,把強(qiáng)化學(xué)習(xí)問(wèn)題轉(zhuǎn)變成僅需要訓(xùn)練策略網(wǎng)絡(luò)來(lái)擬合參考數(shù)據(jù)的問(wèn)題。
也就是繞過(guò)了建模獎(jiǎng)勵(lì)函數(shù),直接在偏好數(shù)據(jù)上優(yōu)化語(yǔ)言模型。
用上DPO后,模型輸出的質(zhì)量也優(yōu)于RLHF/PPO。
最近首個(gè)用DPO方法訓(xùn)練的開(kāi)源大模型已出現(xiàn),來(lái)自HuggingFace H4團(tuán)隊(duì)打造的Zephyr-7B,它在一些任務(wù)上已超過(guò)用RLHF訓(xùn)練的Llama 2-70B:
Transformer潛在新對(duì)手
今年還出現(xiàn)了一些Transformer的替代方案,比如循環(huán)RWKV、卷積Hyena。
這些新的框架主要是用來(lái)提高模型效率,當(dāng)然基于Transformer架構(gòu)的大語(yǔ)言模型仍是主流。
大模型改變生產(chǎn)方式
大模型除了用來(lái)處理文本,也逐漸被用到提升生產(chǎn)力(Microsoft全家桶)和寫代碼(GitHub Copilot)等場(chǎng)景中。
Ark-Invest曾發(fā)布報(bào)告預(yù)測(cè),編程助手能讓編碼任務(wù)的完成時(shí)間縮短約55%。
可以肯定,編碼助手將繼續(xù)存在,而且只會(huì)變得更好。
這對(duì)Stack Overflow(全球知名開(kāi)發(fā)者問(wèn)答網(wǎng)站)等平臺(tái)意味著什么?
同樣是“2023 AI現(xiàn)狀報(bào)告”中,一張StackOverflow與GitHub的網(wǎng)站流量對(duì)比圖,可以說(shuō)明一些問(wèn)題:
OK,以上就是大模型的一些新進(jìn)展。
不過(guò)對(duì)于AI的“另半邊天”計(jì)算機(jī)視覺(jué)而言,在2023年,這個(gè)領(lǐng)域也有許多不可忽視的新進(jìn)展。
計(jì)算機(jī)視覺(jué)怎么樣了?
今年大家都在重點(diǎn)關(guān)注大語(yǔ)言模型,但實(shí)際上,計(jì)算機(jī)視覺(jué)領(lǐng)域也取得了不少進(jìn)展,從計(jì)算機(jī)視覺(jué)頂會(huì)CVPR 2023中就可以窺見(jiàn)一斑。
今年CVPR 2023共接收了2359篇論文,大多數(shù)研究都集中于以下4個(gè)主題,Sebastian Raschka逐個(gè)進(jìn)行了介紹。
視覺(jué)Transformer突破限制
先來(lái)看看關(guān)注度最高的視覺(jué)Transformer。
效仿已取得巨大成功的語(yǔ)言Transformer架構(gòu),視覺(jué)Transformer(ViT)最初在2020年出現(xiàn)。
視覺(jué)Transformer原理與語(yǔ)言Transformer類似,是在多頭注意力塊中使用相同的自注意力機(jī)制。
不同的是,視覺(jué)Transformer不標(biāo)記單詞,而是標(biāo)記圖像,同樣能取得不錯(cuò)的效果,但它一直有一個(gè)局限:相對(duì)資源密集且效率低于CNN,導(dǎo)致實(shí)際應(yīng)用受阻。
今年在CVPR論文“EfficientViT:Memory Efficient Vision Transformer with Cascaded Group Attention”中,研究人員介紹了一種新的高效架構(gòu)來(lái)解決這一限制——
相比原來(lái)的MobileViT,EfficientViT方法最多快了6倍。
主要?jiǎng)?chuàng)新點(diǎn)有兩個(gè),一是全連接層之間的單個(gè)內(nèi)存綁定多頭自注意力模塊,二是級(jí)聯(lián)群注意力。
擴(kuò)散模型又有新玩法
Stable Diffusion讓擴(kuò)散模型爆火,這類模型所用的方法是:
模型訓(xùn)練時(shí),逐漸往訓(xùn)練數(shù)據(jù)中摻入噪聲,直到變成純?cè)肼?。然后再?xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),讓模型反向?qū)W習(xí)去噪,從噪聲中合成數(shù)據(jù)。
大多數(shù)擴(kuò)散模型使用CNN架構(gòu)并采用基于CNN的U-Net。
但今年“All are Worth Words:A ViT Backbone for Diffusion Models”這項(xiàng)研究中,研究人員試圖將擴(kuò)散模型中的卷積U-Net骨干(backbone)與ViT交換,變成U-ViT。
研究人員評(píng)估了新架構(gòu),在條件圖像生成任務(wù)中,新的U-ViT擴(kuò)散模型可與最好的GAN相媲美,優(yōu)于其它擴(kuò)散模型;在文本到圖像生成方面,它優(yōu)于在同一數(shù)據(jù)集上訓(xùn)練的其它模型。
3D重建新方法擊敗NeRF
3D重建是計(jì)算機(jī)視覺(jué)的研究重點(diǎn)之一,在3D掃描、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、電影和視頻游戲中的3D建模和動(dòng)作捕捉中都有運(yùn)用。
今年SIGGRAPH 2023最佳論文中,有一篇被稱為三維重建領(lǐng)域“爆炸性”新技術(shù)——Gaussian Splatting(高斯濺射)。
一舉突破NeRF與之前的渲染引擎難兼容、需要專門設(shè)計(jì)硬件、渲染開(kāi)銷的老大難問(wèn)題。
這種方法的核心是使用3D高斯作為場(chǎng)景表示,通過(guò)優(yōu)化各向異性協(xié)方差矩陣來(lái)表示復(fù)雜場(chǎng)景。
論文還提出了交錯(cuò)的3D高斯參數(shù)優(yōu)化和自適應(yīng)密度控制方法,設(shè)計(jì)了快速、可微分的GPU柵格化方法,支持各向異性斑點(diǎn),并實(shí)現(xiàn)快速反向傳播,可以達(dá)到高質(zhì)量的新視圖合成,而且實(shí)現(xiàn)了首個(gè)1080p分辨率下的實(shí)時(shí)渲染。
只用很少的訓(xùn)練時(shí)間,Gaussian Splatting可以達(dá)到InstantNGP的最高質(zhì)量,訓(xùn)練51分鐘,性能甚至比Mip-NeRF360要好。
最近,華中科技大學(xué)&華為研究團(tuán)隊(duì)又繼續(xù)提出了4D Gaussian Splatting。
4D Gaussian Splatting實(shí)現(xiàn)了實(shí)時(shí)的動(dòng)態(tài)場(chǎng)景渲染,同時(shí)可保持高效的訓(xùn)練和存儲(chǔ)效率。
在RTX 3090 GPU上,4D Gaussian Splatting以800×800分辨率達(dá)到70 FPS的性能,同時(shí)保持了與之前的最先進(jìn)方法相媲美甚至更高的質(zhì)量水平。
這項(xiàng)研究一出,網(wǎng)友沸騰直呼:
徹底改變?nèi)S重建。
當(dāng)然,Sebastian Raschka也分享了CVPR上一些NeRF(Neural Radiance Fields)方法的新進(jìn)展。
NeRF主要是通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)場(chǎng)景中每個(gè)點(diǎn)的顏色和密度,然后使用這些信息來(lái)生成逼真的3D場(chǎng)景渲染圖像。
但NeRF有一個(gè)缺點(diǎn)是:有光澤的物體通??床磺澹胪该魑矬w的顏色也很模糊。
在“ABLE-NeRF:Attention-Based Rendering with Learnable Embeddings for Neural Radiance Field”這項(xiàng)研究中,研究人員通過(guò)引入基于自注意力的框架和可學(xué)習(xí)的嵌入解決這一問(wèn)題,并提高了半透明和光澤表面的視覺(jué)質(zhì)量。
目標(biāo)檢測(cè)和分割
目標(biāo)檢測(cè)和分割是經(jīng)典的計(jì)算機(jī)視覺(jué)任務(wù)。
這兩個(gè)任務(wù)還是有區(qū)別的,目標(biāo)檢測(cè)是關(guān)于預(yù)測(cè)邊界框和相關(guān)標(biāo)簽,分割是對(duì)每個(gè)像素進(jìn)行分類,來(lái)區(qū)分前景和背景。
△目標(biāo)檢測(cè)(左)和分割(右)
此外還可以細(xì)分為語(yǔ)義分割、實(shí)例分割、全景分割三個(gè)類別。
一項(xiàng)名為“Mask DINO:Towards A Unified Transformer based Framework for Object Detection and Segmentation”的研究,擴(kuò)展了DINO方法。
Mask DINO性能優(yōu)于所有現(xiàn)有的物體檢測(cè)和分割系統(tǒng)。
DINO是一種帶有改進(jìn)去噪錨盒的DETR,而DETR是Facebook AI提出的一種端到端目標(biāo)檢測(cè)模型,它使用了Transformer架構(gòu),提供了一種更簡(jiǎn)單靈活的目標(biāo)檢測(cè)方法。
AI局限&展望未來(lái)
雖然AI領(lǐng)域這一年來(lái)取得了諸多進(jìn)展,但依舊存在一些局限性,主要包括以下幾點(diǎn):
1、大模型幻覺(jué)
大語(yǔ)言模型依然存在著生成有毒內(nèi)容和幻覺(jué)的問(wèn)題。
今年出現(xiàn)了不少解決方案,包括RLHF和英偉達(dá)推出的NeMO Guardrails等,但這些方案要么難實(shí)施,要么處理得不到位。
目前為止,還沒(méi)有找到一個(gè)可靠的方法,既能解決這一問(wèn)題又不損害大模型的正向性能。
2、版權(quán)爭(zhēng)議
與此同時(shí),AI領(lǐng)域版權(quán)爭(zhēng)議日益嚴(yán)峻。
各大模型廠商沒(méi)少被起訴,之前開(kāi)源數(shù)據(jù)集Books3也因侵權(quán)問(wèn)題慘遭下架,Llama、GPT-J等都用它訓(xùn)練過(guò)。
總的來(lái)看,很多相關(guān)規(guī)定還在起草和修改過(guò)程中。
3、評(píng)估標(biāo)準(zhǔn)不統(tǒng)一
學(xué)術(shù)研究領(lǐng)域,基準(zhǔn)測(cè)試和排名榜單可能已經(jīng)失效是個(gè)問(wèn)題。
用于測(cè)試的數(shù)據(jù)集可能已經(jīng)泄露,成為了大語(yǔ)言模型的訓(xùn)練數(shù)據(jù)。
雖然通過(guò)詢問(wèn)人類偏好來(lái)評(píng)估大模型的效果是一個(gè)普遍的方法,但這種方式較為復(fù)雜。
還有許多研究報(bào)告使用GPT-4來(lái)評(píng)估。
4、收益尚不明確
生成式AI還在探索階段,雖然無(wú)論是文本還是圖像生成工具,在特定場(chǎng)景下確實(shí)能給人們提供幫助。
但這些工具是否真的能給公司帶來(lái)收益,尤其是在高昂的運(yùn)行成本面前,業(yè)界還在激烈討論。
有報(bào)道稱,OpenAI去年的運(yùn)營(yíng)虧損了5.4億美元。直到最近又有消息指出,OpenAI現(xiàn)在每月能賺取8000萬(wàn)美元,有望彌補(bǔ)或甚至超出它的運(yùn)營(yíng)開(kāi)支。
5、虛假圖像泛濫
生成式AI帶來(lái)的另一個(gè)問(wèn)題是假圖片和視頻在社交媒體泛濫。
這個(gè)問(wèn)題由來(lái)已久,PS等工具也能,而AI技術(shù)簡(jiǎn)易快捷,正在將此現(xiàn)象推向一個(gè)新的高度。
目前也有其它AI系統(tǒng)嘗試自動(dòng)識(shí)別AI產(chǎn)生的內(nèi)容,但無(wú)論是文本、圖片還是視頻,這些系統(tǒng)的可靠性都不高。
6、數(shù)據(jù)集稀缺
涉及版權(quán)等爭(zhēng)議,不少公司(Twitter/X、Reddit等)關(guān)閉了免費(fèi)的API接入點(diǎn),這樣做既是為了增加收益,也是為了阻止數(shù)據(jù)采集器搜集平臺(tái)數(shù)據(jù)用于AI訓(xùn)練。
之后一個(gè)好的方法可能是,建立一個(gè)眾包數(shù)據(jù)集的平臺(tái),編寫、收集和整理那些已經(jīng)明確允許用于LLM訓(xùn)練的數(shù)據(jù)集。
展望2024,Sebastian Raschka認(rèn)為大語(yǔ)言模型會(huì)在計(jì)算機(jī)科學(xué)之外的STEM研究領(lǐng)域發(fā)揮更大影響。
另一方面,由于高性能GPU緊缺,各大公司紛紛開(kāi)發(fā)定制的AI芯片,問(wèn)題關(guān)鍵在于怎樣讓這些硬件全面、穩(wěn)定支持主流深度學(xué)習(xí)框架。
開(kāi)源界,更多MoE(專家模型)也值得期待,共同創(chuàng)建數(shù)據(jù)集、DPO在開(kāi)源模型中取代傳統(tǒng)監(jiān)督式微調(diào)也都是未來(lái)式。
Sebastian Raschka是誰(shuí)?
Sebastian Raschka于2017年獲得密歇根州立大學(xué)博士學(xué)位,曾是威斯康星大學(xué)麥迪遜分校統(tǒng)計(jì)學(xué)助理教授。
2022年Sebastian Raschka離職,加入初創(chuàng)公司Lightning AI成為其首席AI教育官。
此外,他還是包括《Python機(jī)器學(xué)習(xí)》在內(nèi)的多本暢銷書(shū)的作者。
他經(jīng)常在自己的AI博客Ahead of AI中總結(jié)AI領(lǐng)域的各項(xiàng)研究,已攬獲大波粉絲。