自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

2024年大模型LLM還有哪些可研究的方向?聽聽大佬怎么說

發(fā)布于 2024-4-9 11:46
瀏覽
0收藏

問:

2024年大模型LLM還有哪些可研究的方向?

答:

前言

純屬brainstorm,歡迎大家一起探討。想到哪里說到哪里,有遺漏的點(diǎn)歡迎大家在評(píng)論區(qū)中指出。

個(gè)人認(rèn)為現(xiàn)在LLM能做的點(diǎn)還很多,這個(gè)行業(yè)距離飽和還有一段距離。這里通過“輸入、模型/范式、輸出、其他”幾個(gè)方面來展開,個(gè)人覺得比較看好的方向加粗標(biāo)出:

  • 輸入
  • 數(shù)據(jù)優(yōu)化
  • RAG
  • 模型/范式
  • LLM + Robotics-Agent-統(tǒng)一模態(tài)生成-Vision-Language Models-架構(gòu)設(shè)計(jì)
  • 輸出
  • 生成內(nèi)容安全問題
  • 評(píng)測問題
  • 其他
  • NLP經(jīng)典任務(wù)
  • 垂類大模型
  • 交叉學(xué)科

輸入

這一節(jié)就跟pre-training、instruction tuning、RLHF的經(jīng)典三階段比較相關(guān)了,其實(shí)也可以叫數(shù)據(jù),而數(shù)據(jù)的重要性自然不用多說。

數(shù)據(jù)優(yōu)化

目前的工作基本都是“大規(guī)模語料 + 人工高質(zhì)量數(shù)據(jù)集” 的方式進(jìn)行暴力求解,在輸入上通過設(shè)計(jì)進(jìn)行優(yōu)化還是有一定可行之處的。


其實(shí)CV這邊還是有很多類似做法可以參考的,尤其是做diffusion models的,同樣也是做生成,有很多方面有一定共通之處。比方說最經(jīng)典的Stable Diffusion,從最早的v1.4到v2.0,再到v2.1,也是通過在256×256、512×512、768×768分辨率上遞進(jìn)式的fine-tune完成的。


遷移到LLM這一塊,對(duì)于pre-training的時(shí)候語料的處理,可以做ranking,包括fine-tune的時(shí)候做continual learning、active learning等等,理論上可做的事以及相應(yīng)的效果應(yīng)該也是相近的。


關(guān)于data augmentation方面,之前看過一篇在LLM訓(xùn)練過程中往intermediate feature加高斯噪聲的工作,證明了能夠帶來性能提升。結(jié)論其實(shí)是比較有趣的,往intermediate feature加入噪聲的做法可以理解為一種latent space上的data augmentation但如此簡單的做法恰好證明了其有效性,說明在數(shù)據(jù)增強(qiáng)這一塊可做的設(shè)計(jì)還有很多。感興趣的朋友可以移步原文:《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Bette》,https://zhuanlan.zhihu.com/p/523865674。

2024年大模型LLM還有哪些可研究的方向?聽聽大佬怎么說-AI.x社區(qū)

相關(guān)回答可以參考:大模型微調(diào)技巧-在Embedding上加入噪音提高指令微調(diào)效果,https://zhuanlan.zhihu.com/p/662024086

RAG

RAG這一塊屬于是去年比較火的一個(gè)點(diǎn)了,尤其是針對(duì)大模型“幻覺”的這個(gè)痛點(diǎn),個(gè)人認(rèn)為還可以做,但屬于比較卷的方向,今年的研究應(yīng)該會(huì)有數(shù)量上的驟增??梢钥聪翿AG的近幾年的文章情況:

2024年大模型LLM還有哪些可研究的方向?聽聽大佬怎么說-AI.x社區(qū)

可以看到,2023年RAG的工作已經(jīng)出現(xiàn)了明顯的大幅增加,而大多數(shù)還是集中在做推理,也就是說,預(yù)訓(xùn)練和微調(diào)還有研究空間??梢詤⒖枷聢D匯總目前RAG的研究范式展開:

2024年大模型LLM還有哪些可研究的方向?聽聽大佬怎么說-AI.x社區(qū)

另一方面可以考慮的是模態(tài)信息上的拓展。目前看來做Vision-Language Models(VLM)已經(jīng)是一個(gè)必然趨勢了,而RAG方法主要用于檢索文本證據(jù),檢索其他模態(tài)信息來增強(qiáng)生成還是有研究空間的。

模型/范式

“模型/范式”這一方面是個(gè)人比較看好的方向。 目前AI巨頭的動(dòng)作也集中于這一塊,預(yù)計(jì)2024年這一塊可研究的方向比較多,當(dāng)然估計(jì)也會(huì)快速地卷起來。

LLM + Robotics

前段時(shí)間OpenAI發(fā)布了Figure 01,雖然說熱度可能沒有Sora那么高,不過說明LLM在做planning這件事上已經(jīng)有了初步的成果,想必這件事情的公布勢必會(huì)帶動(dòng)很多的相關(guān)研究。具體的分析可以參考我的往期回答:如何看待與Open AI合作的最新機(jī)器人成果Figure 01? https://www.zhihu.com/question/648483312/answer/3432436569

Agent

Figure 01的意義其實(shí)不僅限于robotics,其實(shí)也證明了agent的想法確實(shí)可行,agent勢必會(huì)成為今年的一大熱點(diǎn)。其實(shí)早在去年,各大廠商都紛紛開始入場agent了.

學(xué)術(shù)界也不例外,這里舉一些比較經(jīng)典的例子:比方說早期的HuggingGPT,出自《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》,https://arxiv.org/pdf/2303.17580.pdf。

2024年大模型LLM還有哪些可研究的方向?聽聽大佬怎么說-AI.x社區(qū)

ToolFormer,出自《Toolformer: Language Models Can Teach Themselves to Use Tools》,https://arxiv.org/pdf/2302.04761.pdf。

2024年大模型LLM還有哪些可研究的方向?聽聽大佬怎么說-AI.x社區(qū)

尤其是去年Stanford的西部小鎮(zhèn),出自《Generative Agents: Interactive Simulacra of Human Behavior》,https://arxiv.org/pdf/2304.03442.pdf,給人的印象非常深刻:

2024年大模型LLM還有哪些可研究的方向?聽聽大佬怎么說-AI.x社區(qū)

統(tǒng)一模態(tài)生成信息

這一點(diǎn)其實(shí)是長久以來CV和NLP研究者關(guān)注的問題, 也就是多模態(tài)大一統(tǒng)的問題。而在生成這個(gè)角度上其實(shí)已經(jīng)有一些統(tǒng)一范式了,無論是Diffusion-Based還是LLM-Based。而LLM-Based的解決方案中,真正的難點(diǎn)在于如何通過token這個(gè)概念表征其他模態(tài)的數(shù)據(jù)。


目前統(tǒng)一文本、圖像模態(tài)的工作已經(jīng)有很多,解決方案也很自然,采用VQ-VAE系列的壓縮模型將圖像表征為image token,LLM只需要學(xué)會(huì)怎么預(yù)測image token即可。而下一步的生成面向的必然是視頻和3D。如果能解決好video和3D的token representation問題,那么統(tǒng)一模態(tài)生成就能進(jìn)一步拓展,這其中還是有較大難度的,非常值得深挖。另外結(jié)合我個(gè)人非常有感觸的一張圖,也同樣能說明這個(gè)問題:

2024年大模型LLM還有哪些可研究的方向?聽聽大佬怎么說-AI.x社區(qū)

Vision-Language Models

對(duì)于VLM來說,圖像相關(guān)的工作已經(jīng)日趨飽和了,類似MiniGPT-4、LLaVA、mPlug-owl、CogVLM的經(jīng)典工作已經(jīng)有不少了,大多采用“Visual Encoder + LLM”的橋接形式,例如最經(jīng)典的MiniGPT-4:

2024年大模型LLM還有哪些可研究的方向?聽聽大佬怎么說-AI.x社區(qū)

而前面說到,視頻和3D必定是下一波熱點(diǎn)的研究方向。將LLM與更多的模態(tài)信息“橋接”,肯定是可以做的,不過這樣的idea也很容易想到,個(gè)人認(rèn)為VLM應(yīng)該會(huì)非常卷。加上還要面對(duì)OpenAI這個(gè)大魔王,應(yīng)該會(huì)有一定的研究壓力。



另外一個(gè)比較值得研究的問題是:跨模態(tài)信息對(duì)齊之后能做什么?其實(shí)去年一些工作已經(jīng)證明,LLM除了常見的Visual QA、captioning這些任務(wù),也能一定程度完成vision-oriented的任務(wù),例如有些研究會(huì)用VLM在object detection上做驗(yàn)證,以此體現(xiàn)VLM的visual understanding能力,這其實(shí)說明LLM的應(yīng)用并不局限于text-oriented的下游任務(wù)

架構(gòu)設(shè)計(jì)

架構(gòu)設(shè)計(jì)方面,其實(shí)近段時(shí)間的一些工作動(dòng)向也證明了目前LLM在架構(gòu)設(shè)計(jì)上還有較大創(chuàng)新空間。比方說去年比較驚艷的Mistral-7b,包括前不久馬斯克宣布開源的Grok-1等等,基本都采用MoE的架構(gòu)在做,個(gè)人覺得這其實(shí)是一個(gè)比較好的開始。LLM的模型架構(gòu)自2022年以來就雷打不動(dòng),絕大部分研究都在沿用前人的默認(rèn)設(shè)定,而對(duì)于這些默認(rèn)設(shè)定上存在的問題,絕對(duì)是有研究可做的。

?

其實(shí)反觀diffusion models的發(fā)展也類似,從2020年DDPM推出以來,4年時(shí)間絕大部分的研究都在沿用U-Net的默認(rèn)架構(gòu),今年的Sora,包括Stable Diffusion 3中首次不約而同用到了Diffusion Transformer,證明了模型架構(gòu)上確實(shí)是有值得創(chuàng)新之處。類比到LLM上也同理。


關(guān)于Diffusion Transformer相關(guān)的講解,可以參考我的往期文章:Diffusion Transformer Family:關(guān)于Sora和Stable Diffusion 3你需要知道的一切,??https://zhuanlan.zhihu.com/p/684448966。??


另一方面,Scaling Law肯定是一個(gè)值得研究的方向。 類似的還有關(guān)于LLM的可解釋性,目前LLM大部分研究都是靠數(shù)據(jù)和算力的堆積來暴力求解,如果能夠摸索出一定的理論依據(jù),對(duì)于工業(yè)界或者是學(xué)術(shù)界來說都會(huì)是非常難得的研究。類似的方向還有LLM幻覺問題上的相關(guān)研究。

輸出

生成內(nèi)容安全問題

生成內(nèi)容的安全問題其實(shí)也在逐漸受到近期研究的關(guān)注了,比方說LLaMa 2中就有特別關(guān)注這個(gè)問題。其實(shí)生成內(nèi)容的安全問題涉及很多其他的應(yīng)用,比方說垂類應(yīng)用。無論是金融、法律、醫(yī)療,這些特定領(lǐng)域在內(nèi)容安全性上都會(huì)比general domain的要求要更高。能給出安全性問題的一定解決方案,對(duì)于整個(gè)社區(qū)來說肯定是有貢獻(xiàn)的。


具體解決安全問題其實(shí)跟前面提到的幾個(gè)點(diǎn)有一定交叉,例如從數(shù)據(jù)層面上做優(yōu)化、微調(diào)階段做優(yōu)化、RAG,等等,這里就不再展開了。

評(píng)測問題

個(gè)人認(rèn)為evaluation其實(shí)是LLM研究中最值得研究的一個(gè)點(diǎn),但是同時(shí)也是很難的一點(diǎn)。無論是現(xiàn)在的打榜、human evaluation、GPT打分,其實(shí)都很難全面去評(píng)價(jià)LLM,導(dǎo)致LLM在實(shí)際應(yīng)用過程中并沒有指標(biāo)體現(xiàn)出來的那樣好用。


而如果能有一個(gè)自動(dòng)化的評(píng)測指標(biāo),最好能夠結(jié)合LLM的理論基礎(chǔ)進(jìn)行設(shè)計(jì),我覺得是目前社區(qū)比較需要的一個(gè)方向。 當(dāng)然,前面也說到,LLM的可解釋性也是一個(gè)待解決的問題,相關(guān)指標(biāo)的設(shè)計(jì)也同樣具有挑戰(zhàn)。

其他

NLP經(jīng)典任務(wù)

這可能是一個(gè)比較小眾的點(diǎn)。其實(shí)也是個(gè)人一直在思考的一個(gè)問題,LLM時(shí)代下究竟怎么樣做NLP的經(jīng)典任務(wù)? 比方說parsing、句法相關(guān)的任務(wù),LLM的設(shè)計(jì)跟這些任務(wù)之間肯定是存在一些gap的,而怎樣將language models在大規(guī)模數(shù)據(jù)上獲得的能力遷移在這些經(jīng)典任務(wù)上,其實(shí)相關(guān)的工作仍比較少。

垂類大模型

無論是工業(yè)界還是學(xué)術(shù)界,垂類大模型一直以來都是研究熱點(diǎn)之一。垂類大模型中與前面說到的數(shù)據(jù)優(yōu)化、內(nèi)容安全、評(píng)測問題都高度耦合。對(duì)于不同的垂直領(lǐng)域,垂類大模型面臨的最大問題還是domain gap。具體來說就包括很多方面了,例如特定領(lǐng)域數(shù)據(jù)上的問題,通常具有領(lǐng)域特性但數(shù)據(jù)量有限;內(nèi)容安全上,比方說金融、法律、醫(yī)療大模型,對(duì)安全性的需求都比通用大模型要高;評(píng)測問題,就拿醫(yī)療大模型舉例,還需要跟專業(yè)的醫(yī)療知識(shí)結(jié)合才能有效評(píng)測,等等;技術(shù)上還涉及LLM fine-tuning、domain adaptation,等等,甚至一些領(lǐng)域?qū)τ赾ontext length、memory、continual learning、active learning等技術(shù)有特定需求??勺龅狞c(diǎn)還是比較豐富的。

交叉學(xué)科

這點(diǎn)其實(shí)也是比較有“學(xué)術(shù)味道”的一類研究,文章工作本身更傾向于分析類而并非實(shí)驗(yàn)。通常將LLM與其他學(xué)科交叉進(jìn)行分析,例如語言學(xué)、政治學(xué)、社會(huì)學(xué)、心理學(xué),等等。這類分析文章實(shí)驗(yàn)代價(jià)通常相對(duì)較小,更側(cè)重統(tǒng)計(jì)、可視化、消融實(shí)驗(yàn)等分析性質(zhì)的實(shí)驗(yàn),但同時(shí)也需要掌握相關(guān)學(xué)科的專業(yè)知識(shí),有一定的門檻。


比較有代表性的工作在ACL 2023的best paper就有,例如《Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest》,https://aclanthology.org/2023.acl-long.41.pdf.研究LLM是否能理解幽默:

2024年大模型LLM還有哪些可研究的方向?聽聽大佬怎么說-AI.x社區(qū)

ACL 2023 best paper的另一篇?jiǎng)t是對(duì)LLM的政治偏見進(jìn)行研究,出自《From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models》,https://aclanthology.org/2023.acl-long.656.pdf,雖然小眾但是還挺有意思的:

2024年大模型LLM還有哪些可研究的方向?聽聽大佬怎么說-AI.x社區(qū)

值得一提的是,ACL 2023 best paper剩下一篇文章是對(duì)Stable Diffusion Cross-Attenion機(jī)制的研究。 包括Stanford西部小鎮(zhèn) 《Generative Agents: Interactive Simulacra of Human Behavior》,https://arxiv.org/pdf/2304.03442.pdf,中也有關(guān)于AI agents交互與社會(huì)傳播學(xué)的研究,例如下圖中就是關(guān)于特定任務(wù)的一個(gè)case study:

2024年大模型LLM還有哪些可研究的方向?聽聽大佬怎么說-AI.x社區(qū)

本文轉(zhuǎn)自 AI生成未來 ,作者:叫我Alonzo就好了


原文鏈接:???https://mp.weixin.qq.com/s/LJ4bcsrhUWBFvXSi-LcoQw?????

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦