2024年大模型LLM還有哪些可研究的方向?聽(tīng)聽(tīng)大佬怎么說(shuō)
2024年大模型LLM還有哪些可研究的方向?
前言
純屬brainstorm,歡迎大家一起探討。想到哪里說(shuō)到哪里,有遺漏的點(diǎn)歡迎大家在評(píng)論區(qū)中指出。
個(gè)人認(rèn)為現(xiàn)在LLM能做的點(diǎn)還很多,這個(gè)行業(yè)距離飽和還有一段距離。這里通過(guò)“輸入、模型/范式、輸出、其他”幾個(gè)方面來(lái)展開(kāi),個(gè)人覺(jué)得比較看好的方向加粗標(biāo)出:
- 輸入
- 數(shù)據(jù)優(yōu)化
- RAG
- 模型/范式
- LLM + Robotics-Agent-統(tǒng)一模態(tài)生成-Vision-Language Models-架構(gòu)設(shè)計(jì)
- 輸出
- 生成內(nèi)容安全問(wèn)題
- 評(píng)測(cè)問(wèn)題
- 其他
- NLP經(jīng)典任務(wù)
- 垂類大模型
- 交叉學(xué)科
輸入
這一節(jié)就跟pre-training、instruction tuning、RLHF的經(jīng)典三階段比較相關(guān)了,其實(shí)也可以叫數(shù)據(jù),而數(shù)據(jù)的重要性自然不用多說(shuō)。
數(shù)據(jù)優(yōu)化
目前的工作基本都是“大規(guī)模語(yǔ)料 + 人工高質(zhì)量數(shù)據(jù)集” 的方式進(jìn)行暴力求解,在輸入上通過(guò)設(shè)計(jì)進(jìn)行優(yōu)化還是有一定可行之處的。
其實(shí)CV這邊還是有很多類似做法可以參考的,尤其是做diffusion models的,同樣也是做生成,有很多方面有一定共通之處。比方說(shuō)最經(jīng)典的Stable Diffusion,從最早的v1.4到v2.0,再到v2.1,也是通過(guò)在256×256、512×512、768×768分辨率上遞進(jìn)式的fine-tune完成的。
遷移到LLM這一塊,對(duì)于pre-training的時(shí)候語(yǔ)料的處理,可以做ranking,包括fine-tune的時(shí)候做continual learning、active learning等等,理論上可做的事以及相應(yīng)的效果應(yīng)該也是相近的。
關(guān)于data augmentation方面,之前看過(guò)一篇在LLM訓(xùn)練過(guò)程中往intermediate feature加高斯噪聲的工作,證明了能夠帶來(lái)性能提升。結(jié)論其實(shí)是比較有趣的,往intermediate feature加入噪聲的做法可以理解為一種latent space上的data augmentation但如此簡(jiǎn)單的做法恰好證明了其有效性,說(shuō)明在數(shù)據(jù)增強(qiáng)這一塊可做的設(shè)計(jì)還有很多。感興趣的朋友可以移步原文:《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Bette》,https://zhuanlan.zhihu.com/p/523865674。
相關(guān)回答可以參考:大模型微調(diào)技巧-在Embedding上加入噪音提高指令微調(diào)效果,https://zhuanlan.zhihu.com/p/662024086
RAG
RAG這一塊屬于是去年比較火的一個(gè)點(diǎn)了,尤其是針對(duì)大模型“幻覺(jué)”的這個(gè)痛點(diǎn),個(gè)人認(rèn)為還可以做,但屬于比較卷的方向,今年的研究應(yīng)該會(huì)有數(shù)量上的驟增。可以看下RAG的近幾年的文章情況:
可以看到,2023年RAG的工作已經(jīng)出現(xiàn)了明顯的大幅增加,而大多數(shù)還是集中在做推理,也就是說(shuō),預(yù)訓(xùn)練和微調(diào)還有研究空間??梢詤⒖枷聢D匯總目前RAG的研究范式展開(kāi):
另一方面可以考慮的是模態(tài)信息上的拓展。目前看來(lái)做Vision-Language Models(VLM)已經(jīng)是一個(gè)必然趨勢(shì)了,而RAG方法主要用于檢索文本證據(jù),檢索其他模態(tài)信息來(lái)增強(qiáng)生成還是有研究空間的。
模型/范式
“模型/范式”這一方面是個(gè)人比較看好的方向。 目前AI巨頭的動(dòng)作也集中于這一塊,預(yù)計(jì)2024年這一塊可研究的方向比較多,當(dāng)然估計(jì)也會(huì)快速地卷起來(lái)。
LLM + Robotics
前段時(shí)間OpenAI發(fā)布了Figure 01,雖然說(shuō)熱度可能沒(méi)有Sora那么高,不過(guò)說(shuō)明LLM在做planning這件事上已經(jīng)有了初步的成果,想必這件事情的公布勢(shì)必會(huì)帶動(dòng)很多的相關(guān)研究。具體的分析可以參考我的往期回答:如何看待與Open AI合作的最新機(jī)器人成果Figure 01? https://www.zhihu.com/question/648483312/answer/3432436569
Agent
Figure 01的意義其實(shí)不僅限于robotics,其實(shí)也證明了agent的想法確實(shí)可行,agent勢(shì)必會(huì)成為今年的一大熱點(diǎn)。其實(shí)早在去年,各大廠商都紛紛開(kāi)始入場(chǎng)agent了.
學(xué)術(shù)界也不例外,這里舉一些比較經(jīng)典的例子:比方說(shuō)早期的HuggingGPT,出自《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》,https://arxiv.org/pdf/2303.17580.pdf。
ToolFormer,出自《Toolformer: Language Models Can Teach Themselves to Use Tools》,https://arxiv.org/pdf/2302.04761.pdf。
尤其是去年Stanford的西部小鎮(zhèn),出自《Generative Agents: Interactive Simulacra of Human Behavior》,https://arxiv.org/pdf/2304.03442.pdf,給人的印象非常深刻:
統(tǒng)一模態(tài)生成信息
這一點(diǎn)其實(shí)是長(zhǎng)久以來(lái)CV和NLP研究者關(guān)注的問(wèn)題, 也就是多模態(tài)大一統(tǒng)的問(wèn)題。而在生成這個(gè)角度上其實(shí)已經(jīng)有一些統(tǒng)一范式了,無(wú)論是Diffusion-Based還是LLM-Based。而LLM-Based的解決方案中,真正的難點(diǎn)在于如何通過(guò)token這個(gè)概念表征其他模態(tài)的數(shù)據(jù)。
目前統(tǒng)一文本、圖像模態(tài)的工作已經(jīng)有很多,解決方案也很自然,采用VQ-VAE系列的壓縮模型將圖像表征為image token,LLM只需要學(xué)會(huì)怎么預(yù)測(cè)image token即可。而下一步的生成面向的必然是視頻和3D。如果能解決好video和3D的token representation問(wèn)題,那么統(tǒng)一模態(tài)生成就能進(jìn)一步拓展,這其中還是有較大難度的,非常值得深挖。另外結(jié)合我個(gè)人非常有感觸的一張圖,也同樣能說(shuō)明這個(gè)問(wèn)題:
Vision-Language Models
對(duì)于VLM來(lái)說(shuō),圖像相關(guān)的工作已經(jīng)日趨飽和了,類似MiniGPT-4、LLaVA、mPlug-owl、CogVLM的經(jīng)典工作已經(jīng)有不少了,大多采用“Visual Encoder + LLM”的橋接形式,例如最經(jīng)典的MiniGPT-4:
而前面說(shuō)到,視頻和3D必定是下一波熱點(diǎn)的研究方向。將LLM與更多的模態(tài)信息“橋接”,肯定是可以做的,不過(guò)這樣的idea也很容易想到,個(gè)人認(rèn)為VLM應(yīng)該會(huì)非常卷。加上還要面對(duì)OpenAI這個(gè)大魔王,應(yīng)該會(huì)有一定的研究壓力。
另外一個(gè)比較值得研究的問(wèn)題是:跨模態(tài)信息對(duì)齊之后能做什么?其實(shí)去年一些工作已經(jīng)證明,LLM除了常見(jiàn)的Visual QA、captioning這些任務(wù),也能一定程度完成vision-oriented的任務(wù),例如有些研究會(huì)用VLM在object detection上做驗(yàn)證,以此體現(xiàn)VLM的visual understanding能力,這其實(shí)說(shuō)明LLM的應(yīng)用并不局限于text-oriented的下游任務(wù)。
架構(gòu)設(shè)計(jì)
架構(gòu)設(shè)計(jì)方面,其實(shí)近段時(shí)間的一些工作動(dòng)向也證明了目前LLM在架構(gòu)設(shè)計(jì)上還有較大創(chuàng)新空間。比方說(shuō)去年比較驚艷的Mistral-7b,包括前不久馬斯克宣布開(kāi)源的Grok-1等等,基本都采用MoE的架構(gòu)在做,個(gè)人覺(jué)得這其實(shí)是一個(gè)比較好的開(kāi)始。LLM的模型架構(gòu)自2022年以來(lái)就雷打不動(dòng),絕大部分研究都在沿用前人的默認(rèn)設(shè)定,而對(duì)于這些默認(rèn)設(shè)定上存在的問(wèn)題,絕對(duì)是有研究可做的。
其實(shí)反觀diffusion models的發(fā)展也類似,從2020年DDPM推出以來(lái),4年時(shí)間絕大部分的研究都在沿用U-Net的默認(rèn)架構(gòu),今年的Sora,包括Stable Diffusion 3中首次不約而同用到了Diffusion Transformer,證明了模型架構(gòu)上確實(shí)是有值得創(chuàng)新之處。類比到LLM上也同理。
關(guān)于Diffusion Transformer相關(guān)的講解,可以參考我的往期文章:Diffusion Transformer Family:關(guān)于Sora和Stable Diffusion 3你需要知道的一切,??https://zhuanlan.zhihu.com/p/684448966。??
另一方面,Scaling Law肯定是一個(gè)值得研究的方向。 類似的還有關(guān)于LLM的可解釋性,目前LLM大部分研究都是靠數(shù)據(jù)和算力的堆積來(lái)暴力求解,如果能夠摸索出一定的理論依據(jù),對(duì)于工業(yè)界或者是學(xué)術(shù)界來(lái)說(shuō)都會(huì)是非常難得的研究。類似的方向還有LLM幻覺(jué)問(wèn)題上的相關(guān)研究。
輸出
生成內(nèi)容安全問(wèn)題
生成內(nèi)容的安全問(wèn)題其實(shí)也在逐漸受到近期研究的關(guān)注了,比方說(shuō)LLaMa 2中就有特別關(guān)注這個(gè)問(wèn)題。其實(shí)生成內(nèi)容的安全問(wèn)題涉及很多其他的應(yīng)用,比方說(shuō)垂類應(yīng)用。無(wú)論是金融、法律、醫(yī)療,這些特定領(lǐng)域在內(nèi)容安全性上都會(huì)比general domain的要求要更高。能給出安全性問(wèn)題的一定解決方案,對(duì)于整個(gè)社區(qū)來(lái)說(shuō)肯定是有貢獻(xiàn)的。
具體解決安全問(wèn)題其實(shí)跟前面提到的幾個(gè)點(diǎn)有一定交叉,例如從數(shù)據(jù)層面上做優(yōu)化、微調(diào)階段做優(yōu)化、RAG,等等,這里就不再展開(kāi)了。
評(píng)測(cè)問(wèn)題
個(gè)人認(rèn)為evaluation其實(shí)是LLM研究中最值得研究的一個(gè)點(diǎn),但是同時(shí)也是很難的一點(diǎn)。無(wú)論是現(xiàn)在的打榜、human evaluation、GPT打分,其實(shí)都很難全面去評(píng)價(jià)LLM,導(dǎo)致LLM在實(shí)際應(yīng)用過(guò)程中并沒(méi)有指標(biāo)體現(xiàn)出來(lái)的那樣好用。
而如果能有一個(gè)自動(dòng)化的評(píng)測(cè)指標(biāo),最好能夠結(jié)合LLM的理論基礎(chǔ)進(jìn)行設(shè)計(jì),我覺(jué)得是目前社區(qū)比較需要的一個(gè)方向。 當(dāng)然,前面也說(shuō)到,LLM的可解釋性也是一個(gè)待解決的問(wèn)題,相關(guān)指標(biāo)的設(shè)計(jì)也同樣具有挑戰(zhàn)。
其他
NLP經(jīng)典任務(wù)
這可能是一個(gè)比較小眾的點(diǎn)。其實(shí)也是個(gè)人一直在思考的一個(gè)問(wèn)題,LLM時(shí)代下究竟怎么樣做NLP的經(jīng)典任務(wù)? 比方說(shuō)parsing、句法相關(guān)的任務(wù),LLM的設(shè)計(jì)跟這些任務(wù)之間肯定是存在一些gap的,而怎樣將language models在大規(guī)模數(shù)據(jù)上獲得的能力遷移在這些經(jīng)典任務(wù)上,其實(shí)相關(guān)的工作仍比較少。
垂類大模型
無(wú)論是工業(yè)界還是學(xué)術(shù)界,垂類大模型一直以來(lái)都是研究熱點(diǎn)之一。垂類大模型中與前面說(shuō)到的數(shù)據(jù)優(yōu)化、內(nèi)容安全、評(píng)測(cè)問(wèn)題都高度耦合。對(duì)于不同的垂直領(lǐng)域,垂類大模型面臨的最大問(wèn)題還是domain gap。具體來(lái)說(shuō)就包括很多方面了,例如特定領(lǐng)域數(shù)據(jù)上的問(wèn)題,通常具有領(lǐng)域特性,但數(shù)據(jù)量有限;內(nèi)容安全上,比方說(shuō)金融、法律、醫(yī)療大模型,對(duì)安全性的需求都比通用大模型要高;評(píng)測(cè)問(wèn)題,就拿醫(yī)療大模型舉例,還需要跟專業(yè)的醫(yī)療知識(shí)結(jié)合才能有效評(píng)測(cè),等等;技術(shù)上還涉及LLM fine-tuning、domain adaptation,等等,甚至一些領(lǐng)域?qū)τ赾ontext length、memory、continual learning、active learning等技術(shù)有特定需求。可做的點(diǎn)還是比較豐富的。
交叉學(xué)科
這點(diǎn)其實(shí)也是比較有“學(xué)術(shù)味道”的一類研究,文章工作本身更傾向于分析類而并非實(shí)驗(yàn)。通常將LLM與其他學(xué)科交叉進(jìn)行分析,例如語(yǔ)言學(xué)、政治學(xué)、社會(huì)學(xué)、心理學(xué),等等。這類分析文章實(shí)驗(yàn)代價(jià)通常相對(duì)較小,更側(cè)重統(tǒng)計(jì)、可視化、消融實(shí)驗(yàn)等分析性質(zhì)的實(shí)驗(yàn),但同時(shí)也需要掌握相關(guān)學(xué)科的專業(yè)知識(shí),有一定的門檻。
比較有代表性的工作在ACL 2023的best paper就有,例如《Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest》,https://aclanthology.org/2023.acl-long.41.pdf.研究LLM是否能理解幽默:
ACL 2023 best paper的另一篇?jiǎng)t是對(duì)LLM的政治偏見(jiàn)進(jìn)行研究,出自《From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models》,https://aclanthology.org/2023.acl-long.656.pdf,雖然小眾但是還挺有意思的:
值得一提的是,ACL 2023 best paper剩下一篇文章是對(duì)Stable Diffusion Cross-Attenion機(jī)制的研究。包括Stanford西部小鎮(zhèn) 《Generative Agents: Interactive Simulacra of Human Behavior》,https://arxiv.org/pdf/2304.03442.pdf,中也有關(guān)于AI agents交互與社會(huì)傳播學(xué)的研究,例如下圖中就是關(guān)于特定任務(wù)的一個(gè)case study:
本文轉(zhuǎn)自AI生成未來(lái) ,作者:叫我Alonzo就好了
