自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="jjnki"><optgroup id="jjnki"></optgroup></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

2024年大模型LLM還有哪些可研究的方向？聽聽大佬怎么說

發(fā)布于 2024-4-9 11:46

瀏覽

0收藏

問：

2024年大模型LLM還有哪些可研究的方向？

答：

前言

純屬brainstorm，歡迎大家一起探討。想到哪里說到哪里，有遺漏的點(diǎn)歡迎大家在評(píng)論區(qū)中指出。

個(gè)人認(rèn)為現(xiàn)在LLM能做的點(diǎn)還很多，這個(gè)行業(yè)距離飽和還有一段距離。這里通過“輸入、模型/范式、輸出、其他”幾個(gè)方面來展開，個(gè)人覺得比較看好的方向加粗標(biāo)出：

輸入

數(shù)據(jù)優(yōu)化
RAG

模型/范式
LLM + Robotics-Agent-統(tǒng)一模態(tài)生成-Vision-Language Models-架構(gòu)設(shè)計(jì)
輸出
生成內(nèi)容安全問題
評(píng)測問題
其他
NLP經(jīng)典任務(wù)
垂類大模型
交叉學(xué)科

輸入

這一節(jié)就跟pre-training、instruction tuning、RLHF的經(jīng)典三階段比較相關(guān)了，其實(shí)也可以叫數(shù)據(jù)，而數(shù)據(jù)的重要性自然不用多說。

數(shù)據(jù)優(yōu)化

目前的工作基本都是“大規(guī)模語料 + 人工高質(zhì)量數(shù)據(jù)集” 的方式進(jìn)行暴力求解，在輸入上通過設(shè)計(jì)進(jìn)行優(yōu)化還是有一定可行之處的。

其實(shí)CV這邊還是有很多類似做法可以參考的，尤其是做diffusion models的，同樣也是做生成，有很多方面有一定共通之處。比方說最經(jīng)典的Stable Diffusion，從最早的v1.4到v2.0，再到v2.1，也是通過在256×256、512×512、768×768分辨率上遞進(jìn)式的fine-tune完成的。

遷移到LLM這一塊，對(duì)于pre-training的時(shí)候語料的處理，可以做ranking，包括fine-tune的時(shí)候做continual learning、active learning等等，理論上可做的事以及相應(yīng)的效果應(yīng)該也是相近的。

關(guān)于data augmentation方面，之前看過一篇在LLM訓(xùn)練過程中往intermediate feature加高斯噪聲的工作，證明了能夠帶來性能提升。結(jié)論其實(shí)是比較有趣的，往intermediate feature加入噪聲的做法可以理解為一種latent space上的data augmentation但如此簡單的做法恰好證明了其有效性，說明在數(shù)據(jù)增強(qiáng)這一塊可做的設(shè)計(jì)還有很多。感興趣的朋友可以移步原文：《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Bette》，https://zhuanlan.zhihu.com/p/523865674。

2024年大模型LLM還有哪些可研究的方向？聽聽大佬怎么說-AI.x社區(qū)

相關(guān)回答可以參考：大模型微調(diào)技巧-在Embedding上加入噪音提高指令微調(diào)效果，https://zhuanlan.zhihu.com/p/662024086

RAG

RAG這一塊屬于是去年比較火的一個(gè)點(diǎn)了，尤其是針對(duì)大模型“幻覺”的這個(gè)痛點(diǎn)，個(gè)人認(rèn)為還可以做，但屬于比較卷的方向，今年的研究應(yīng)該會(huì)有數(shù)量上的驟增?？梢钥聪翿AG的近幾年的文章情況：

2024年大模型LLM還有哪些可研究的方向？聽聽大佬怎么說-AI.x社區(qū)

可以看到，2023年RAG的工作已經(jīng)出現(xiàn)了明顯的大幅增加，而大多數(shù)還是集中在做推理，也就是說，預(yù)訓(xùn)練和微調(diào)還有研究空間?？梢詤⒖枷聢D匯總目前RAG的研究范式展開：

2024年大模型LLM還有哪些可研究的方向？聽聽大佬怎么說-AI.x社區(qū)

另一方面可以考慮的是模態(tài)信息上的拓展。目前看來做Vision-Language Models（VLM）已經(jīng)是一個(gè)必然趨勢了，而RAG方法主要用于檢索文本證據(jù)，檢索其他模態(tài)信息來增強(qiáng)生成還是有研究空間的。

模型/范式

“模型/范式”這一方面是個(gè)人比較看好的方向。 目前AI巨頭的動(dòng)作也集中于這一塊，預(yù)計(jì)2024年這一塊可研究的方向比較多，當(dāng)然估計(jì)也會(huì)快速地卷起來。

LLM + Robotics

前段時(shí)間OpenAI發(fā)布了Figure 01，雖然說熱度可能沒有Sora那么高，不過說明LLM在做planning這件事上已經(jīng)有了初步的成果，想必這件事情的公布勢必會(huì)帶動(dòng)很多的相關(guān)研究。具體的分析可以參考我的往期回答：如何看待與Open AI合作的最新機(jī)器人成果Figure 01? https://www.zhihu.com/question/648483312/answer/3432436569

Agent

Figure 01的意義其實(shí)不僅限于robotics，其實(shí)也證明了agent的想法確實(shí)可行，agent勢必會(huì)成為今年的一大熱點(diǎn)。其實(shí)早在去年，各大廠商都紛紛開始入場agent了.

學(xué)術(shù)界也不例外，這里舉一些比較經(jīng)典的例子：比方說早期的HuggingGPT，出自《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》，https://arxiv.org/pdf/2303.17580.pdf。

2024年大模型LLM還有哪些可研究的方向？聽聽大佬怎么說-AI.x社區(qū)

ToolFormer，出自《Toolformer: Language Models Can Teach Themselves to Use Tools》，https://arxiv.org/pdf/2302.04761.pdf。

2024年大模型LLM還有哪些可研究的方向？聽聽大佬怎么說-AI.x社區(qū)

尤其是去年Stanford的西部小鎮(zhèn)，出自《Generative Agents: Interactive Simulacra of Human Behavior》，https://arxiv.org/pdf/2304.03442.pdf,給人的印象非常深刻：

2024年大模型LLM還有哪些可研究的方向？聽聽大佬怎么說-AI.x社區(qū)

統(tǒng)一模態(tài)生成信息

這一點(diǎn)其實(shí)是長久以來CV和NLP研究者關(guān)注的問題，也就是多模態(tài)大一統(tǒng)的問題。而在生成這個(gè)角度上其實(shí)已經(jīng)有一些統(tǒng)一范式了，無論是Diffusion-Based還是LLM-Based。而LLM-Based的解決方案中，真正的難點(diǎn)在于如何通過token這個(gè)概念表征其他模態(tài)的數(shù)據(jù)。

目前統(tǒng)一文本、圖像模態(tài)的工作已經(jīng)有很多，解決方案也很自然，采用VQ-VAE系列的壓縮模型將圖像表征為image token，LLM只需要學(xué)會(huì)怎么預(yù)測image token即可。而下一步的生成面向的必然是視頻和3D。如果能解決好video和3D的token representation問題，那么統(tǒng)一模態(tài)生成就能進(jìn)一步拓展，這其中還是有較大難度的，非常值得深挖。另外結(jié)合我個(gè)人非常有感觸的一張圖，也同樣能說明這個(gè)問題：

2024年大模型LLM還有哪些可研究的方向？聽聽大佬怎么說-AI.x社區(qū)

Vision-Language Models

對(duì)于VLM來說，圖像相關(guān)的工作已經(jīng)日趨飽和了，類似MiniGPT-4、LLaVA、mPlug-owl、CogVLM的經(jīng)典工作已經(jīng)有不少了，大多采用“Visual Encoder + LLM”的橋接形式，例如最經(jīng)典的MiniGPT-4：

2024年大模型LLM還有哪些可研究的方向？聽聽大佬怎么說-AI.x社區(qū)

而前面說到，視頻和3D必定是下一波熱點(diǎn)的研究方向。將LLM與更多的模態(tài)信息“橋接”，肯定是可以做的，不過這樣的idea也很容易想到，個(gè)人認(rèn)為VLM應(yīng)該會(huì)非常卷。加上還要面對(duì)OpenAI這個(gè)大魔王，應(yīng)該會(huì)有一定的研究壓力。

另外一個(gè)比較值得研究的問題是：跨模態(tài)信息對(duì)齊之后能做什么？其實(shí)去年一些工作已經(jīng)證明，LLM除了常見的Visual QA、captioning這些任務(wù)，也能一定程度完成vision-oriented的任務(wù)，例如有些研究會(huì)用VLM在object detection上做驗(yàn)證，以此體現(xiàn)VLM的visual understanding能力，這其實(shí)說明LLM的應(yīng)用并不局限于text-oriented的下游任務(wù)。

架構(gòu)設(shè)計(jì)

架構(gòu)設(shè)計(jì)方面，其實(shí)近段時(shí)間的一些工作動(dòng)向也證明了目前LLM在架構(gòu)設(shè)計(jì)上還有較大創(chuàng)新空間。比方說去年比較驚艷的Mistral-7b，包括前不久馬斯克宣布開源的Grok-1等等，基本都采用MoE的架構(gòu)在做，個(gè)人覺得這其實(shí)是一個(gè)比較好的開始。LLM的模型架構(gòu)自2022年以來就雷打不動(dòng)，絕大部分研究都在沿用前人的默認(rèn)設(shè)定，而對(duì)于這些默認(rèn)設(shè)定上存在的問題，絕對(duì)是有研究可做的。

?

其實(shí)反觀diffusion models的發(fā)展也類似，從2020年DDPM推出以來，4年時(shí)間絕大部分的研究都在沿用U-Net的默認(rèn)架構(gòu)，今年的Sora，包括Stable Diffusion 3中首次不約而同用到了Diffusion Transformer，證明了模型架構(gòu)上確實(shí)是有值得創(chuàng)新之處。類比到LLM上也同理。

關(guān)于Diffusion Transformer相關(guān)的講解，可以參考我的往期文章：Diffusion Transformer Family：關(guān)于Sora和Stable Diffusion 3你需要知道的一切，??https://zhuanlan.zhihu.com/p/684448966。??

另一方面，Scaling Law肯定是一個(gè)值得研究的方向。 類似的還有關(guān)于LLM的可解釋性，目前LLM大部分研究都是靠數(shù)據(jù)和算力的堆積來暴力求解，如果能夠摸索出一定的理論依據(jù)，對(duì)于工業(yè)界或者是學(xué)術(shù)界來說都會(huì)是非常難得的研究。類似的方向還有LLM幻覺問題上的相關(guān)研究。

輸出

生成內(nèi)容安全問題

生成內(nèi)容的安全問題其實(shí)也在逐漸受到近期研究的關(guān)注了，比方說LLaMa 2中就有特別關(guān)注這個(gè)問題。其實(shí)生成內(nèi)容的安全問題涉及很多其他的應(yīng)用，比方說垂類應(yīng)用。無論是金融、法律、醫(yī)療，這些特定領(lǐng)域在內(nèi)容安全性上都會(huì)比general domain的要求要更高。能給出安全性問題的一定解決方案，對(duì)于整個(gè)社區(qū)來說肯定是有貢獻(xiàn)的。

具體解決安全問題其實(shí)跟前面提到的幾個(gè)點(diǎn)有一定交叉，例如從數(shù)據(jù)層面上做優(yōu)化、微調(diào)階段做優(yōu)化、RAG，等等，這里就不再展開了。

評(píng)測問題

個(gè)人認(rèn)為evaluation其實(shí)是LLM研究中最值得研究的一個(gè)點(diǎn)，但是同時(shí)也是很難的一點(diǎn)。無論是現(xiàn)在的打榜、human evaluation、GPT打分，其實(shí)都很難全面去評(píng)價(jià)LLM，導(dǎo)致LLM在實(shí)際應(yīng)用過程中并沒有指標(biāo)體現(xiàn)出來的那樣好用。

而如果能有一個(gè)自動(dòng)化的評(píng)測指標(biāo)，最好能夠結(jié)合LLM的理論基礎(chǔ)進(jìn)行設(shè)計(jì)，我覺得是目前社區(qū)比較需要的一個(gè)方向。當(dāng)然，前面也說到，LLM的可解釋性也是一個(gè)待解決的問題，相關(guān)指標(biāo)的設(shè)計(jì)也同樣具有挑戰(zhàn)。

其他

NLP經(jīng)典任務(wù)

這可能是一個(gè)比較小眾的點(diǎn)。其實(shí)也是個(gè)人一直在思考的一個(gè)問題，LLM時(shí)代下究竟怎么樣做NLP的經(jīng)典任務(wù)？ 比方說parsing、句法相關(guān)的任務(wù)，LLM的設(shè)計(jì)跟這些任務(wù)之間肯定是存在一些gap的，而怎樣將language models在大規(guī)模數(shù)據(jù)上獲得的能力遷移在這些經(jīng)典任務(wù)上，其實(shí)相關(guān)的工作仍比較少。

垂類大模型

無論是工業(yè)界還是學(xué)術(shù)界，垂類大模型一直以來都是研究熱點(diǎn)之一。垂類大模型中與前面說到的數(shù)據(jù)優(yōu)化、內(nèi)容安全、評(píng)測問題都高度耦合。對(duì)于不同的垂直領(lǐng)域，垂類大模型面臨的最大問題還是domain gap。具體來說就包括很多方面了，例如特定領(lǐng)域數(shù)據(jù)上的問題，通常具有領(lǐng)域特性，但數(shù)據(jù)量有限；內(nèi)容安全上，比方說金融、法律、醫(yī)療大模型，對(duì)安全性的需求都比通用大模型要高；評(píng)測問題，就拿醫(yī)療大模型舉例，還需要跟專業(yè)的醫(yī)療知識(shí)結(jié)合才能有效評(píng)測，等等；技術(shù)上還涉及LLM fine-tuning、domain adaptation，等等，甚至一些領(lǐng)域?qū)τ赾ontext length、memory、continual learning、active learning等技術(shù)有特定需求?？勺龅狞c(diǎn)還是比較豐富的。

交叉學(xué)科

這點(diǎn)其實(shí)也是比較有“學(xué)術(shù)味道”的一類研究，文章工作本身更傾向于分析類而并非實(shí)驗(yàn)。通常將LLM與其他學(xué)科交叉進(jìn)行分析，例如語言學(xué)、政治學(xué)、社會(huì)學(xué)、心理學(xué)，等等。這類分析文章實(shí)驗(yàn)代價(jià)通常相對(duì)較小，更側(cè)重統(tǒng)計(jì)、可視化、消融實(shí)驗(yàn)等分析性質(zhì)的實(shí)驗(yàn)，但同時(shí)也需要掌握相關(guān)學(xué)科的專業(yè)知識(shí)，有一定的門檻。

比較有代表性的工作在ACL 2023的best paper就有，例如《Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest》，https://aclanthology.org/2023.acl-long.41.pdf.研究LLM是否能理解幽默：

2024年大模型LLM還有哪些可研究的方向？聽聽大佬怎么說-AI.x社區(qū)

ACL 2023 best paper的另一篇?jiǎng)t是對(duì)LLM的政治偏見進(jìn)行研究，出自《From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models》，https://aclanthology.org/2023.acl-long.656.pdf，雖然小眾但是還挺有意思的：

2024年大模型LLM還有哪些可研究的方向？聽聽大佬怎么說-AI.x社區(qū)

值得一提的是，ACL 2023 best paper剩下一篇文章是對(duì)Stable Diffusion Cross-Attenion機(jī)制的研究。包括Stanford西部小鎮(zhèn) 《Generative Agents: Interactive Simulacra of Human Behavior》，https://arxiv.org/pdf/2304.03442.pdf,中也有關(guān)于AI agents交互與社會(huì)傳播學(xué)的研究，例如下圖中就是關(guān)于特定任務(wù)的一個(gè)case study：

2024年大模型LLM還有哪些可研究的方向？聽聽大佬怎么說-AI.x社區(qū)

本文轉(zhuǎn)自 AI生成未來，作者：叫我Alonzo就好了

原文鏈接:???https://mp.weixin.qq.com/s/LJ4bcsrhUWBFvXSi-LcoQw?????

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

大模型一定就比小模型好？谷歌的這項(xiàng)研究說不一定

輕薄滴假象 ? 2569瀏覽 ? 0回復(fù)
【LLM】對(duì)大語言模型微調(diào)優(yōu)化的研究

sbf_2000 ? 3470瀏覽 ? 0回復(fù)
數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對(duì)齊數(shù)據(jù)

NLP工作站 ? 3571瀏覽 ? 0回復(fù)
圖遇見大型語言模型：進(jìn)展與未來方向的研究

AIRoobt ? 6424瀏覽 ? 0回復(fù)
2024年了,Diffusion模型還有什么可做的？

angel ? 4404瀏覽 ? 1回復(fù)
數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對(duì)齊數(shù)據(jù)

NLP工作站 ? 2640瀏覽 ? 0回復(fù)
2024年云中AI工程的三大關(guān)鍵趨勢

51CTO技術(shù)棧 ? 2493瀏覽 ? 0回復(fù)
圖遇見大型語言模型：進(jìn)展與未來方向的研究

AIRoobt ? 3906瀏覽 ? 0回復(fù)
MSRA古紓旸：2024年，視覺生成領(lǐng)域最重要的問題有哪些？

angel ? 2224瀏覽 ? 0回復(fù)
OpenAI出走了哪些大佬，哪些繼任者接手，有什么來頭？

Syrupup ? 2169瀏覽 ? 0回復(fù)
2024年了，視頻生成模型離通用世界模擬器還有多大差距？SOTA模型全面評(píng)估

angel ? 1784瀏覽 ? 0回復(fù)
2024年大模型LLM還有哪些可研究的方向？聽聽大佬怎么說

angel ? 2122瀏覽 ? 0回復(fù)
怎么設(shè)計(jì)一個(gè)自己的大模型？設(shè)計(jì)一個(gè)大模型需要哪些能力？

AI探索時(shí)代 ? 3060瀏覽 ? 0回復(fù)
2024年人工智能進(jìn)展：10大開創(chuàng)性研究亮點(diǎn)

十一月雨_55 ? 1.4w瀏覽 ? 0回復(fù)
人工智能智能體(AI Agent)發(fā)展趨勢2024年總結(jié)與2025年展望

十一月雨_55 ? 8315瀏覽 ? 0回復(fù)
2025 年 10 大 AI 方向：高效推理、多模態(tài)等

云原生AI百寶箱 ? 2067瀏覽 ? 0回復(fù)
IEEE 預(yù)測 2025 年 22 大頂級(jí)技術(shù)趨勢，哪些將改變世界？

歐米伽未來研究所 ? 3762瀏覽 ? 0回復(fù)
邁向人工智能的可持續(xù)未來：五大關(guān)鍵研究方向解析

AI算力補(bǔ)給站 ? 1301瀏覽 ? 0回復(fù)
怎么學(xué)習(xí)使用大模型？論大模型和汽車的關(guān)系

AI探索時(shí)代 ? 945瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：圖像生成里程碑！VAR:自回歸模型首超Diffusion Transformer?。ū贝?amp;字節(jié)）

下一篇： LeCun轉(zhuǎn)發(fā)！已開源！大連理工盧湖川、賈旭團(tuán)隊(duì)提出可插入圖像/視頻/3D生成的StableIdentity

社區(qū)精華內(nèi)容

目錄

<sub id="acjq9"></sub>

<sub id="acjq9"></sub>

<cite id="acjq9"><track id="acjq9"></track></cite><blockquote id="acjq9"><i id="acjq9"></i></blockquote>

<sup id="acjq9"></sup>

<blockquote id="acjq9"></blockquote>

<cite id="acjq9"><track id="acjq9"></track></cite>