你了解大模型的生態(tài)體系嗎?大模型從技術(shù)到應(yīng)用的內(nèi)容梳理 原創(chuàng)
“ 神經(jīng)網(wǎng)絡(luò)技術(shù)從理論到應(yīng)用是一個龐大的體系,我們需要知道的是這個體系是怎么構(gòu)成的,每一層都有哪些內(nèi)容 ”
關(guān)于大模型我想很多人都會有這樣或那樣的問題,最基礎(chǔ)的就是不知道大模型是什么,技術(shù)場景和業(yè)務(wù)場景分不清楚;也不知道大模型有哪些能力,然后利用大模型能做些什么。
因此,今天我們就來梳理一下大模型體系,從技術(shù)到應(yīng)用之間的關(guān)系,以及各個環(huán)節(jié)所涉及到的技術(shù)。
大模型體系——從技術(shù)到應(yīng)用
大家之所以搞不明白大模型,最根本的原因就是對大模型沒有一個完整的認知;所以我們今天從多個維度來了解一下大模型的構(gòu)成和應(yīng)用。
神經(jīng)網(wǎng)絡(luò)大模型
首先大模型是指擁有巨大參數(shù)量的神經(jīng)網(wǎng)絡(luò)模型,簡單來說大模型就是指神經(jīng)網(wǎng)絡(luò);而神經(jīng)網(wǎng)絡(luò)是機器學習中的深度學習,通過模仿人類的大腦構(gòu)造來實現(xiàn)人工智能的一種方式;本質(zhì)上是一種仿生學。而不論是機器學習,還是深度學習都是實現(xiàn)人工智能的一種方式。
其關(guān)系如下圖所示:
了解了神經(jīng)網(wǎng)絡(luò)與人工智能的基本關(guān)系,那么我們下面就來詳細了解一下神經(jīng)網(wǎng)絡(luò)模型,也就是大模型。
說一句大家可能覺得是廢話的話——神經(jīng)網(wǎng)絡(luò)只是神經(jīng)網(wǎng)絡(luò),它只是一門技術(shù)。
關(guān)于神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)組成可以看之前的文章,???從一個簡單的神經(jīng)網(wǎng)絡(luò)模型開始???;簡單來說由神經(jīng)元組成的模型就是神經(jīng)網(wǎng)絡(luò),不論這個模型是簡單還是復雜,是就一個參數(shù)還是有一億個參數(shù)。
神經(jīng)網(wǎng)絡(luò)就是神經(jīng)網(wǎng)絡(luò),它不是任何其它的東西,好好理解這句話。
神經(jīng)網(wǎng)絡(luò)與其它技術(shù)的結(jié)合
神經(jīng)網(wǎng)絡(luò)作為一門技術(shù),那它的作用就是用來解決問題;而作為我們?nèi)祟惤涣骱屠斫獾闹饕绞剑Z言,音視頻就成了神經(jīng)網(wǎng)絡(luò)技術(shù)主要的切入場景。
自然語言處理——NLP,計算機視覺——CV,音頻處理——Audio;所以把神經(jīng)網(wǎng)絡(luò)與NLP任務(wù)相結(jié)合就有了自然語言處理的大模型,比如常見的chatGPT,DeepSeek等;而把神經(jīng)網(wǎng)絡(luò)技術(shù)與CV結(jié)合的有圖片和視頻模型,比如Sora等。
而為了解決這些任務(wù)中的難題,就誕生了多種不同的神經(jīng)網(wǎng)絡(luò)架構(gòu),比如Transformer——自注意機制架構(gòu),RNN——循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu),CNN——卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)等。
Transformer和RNN架構(gòu)常用來解決NLP任務(wù),CNN常用來解決CV任務(wù);當然,現(xiàn)在由于技術(shù)的發(fā)展,不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)也能解決其它領(lǐng)域的問題,因此出現(xiàn)了很多混合架構(gòu)的模型。
比如說,能夠同時處理文章,語音,視頻等任務(wù)的模型,被稱作多模態(tài)。所以,多模態(tài)和單模態(tài)是從數(shù)據(jù)處理的類型進行區(qū)分的。
如下圖所示:
上面只是舉了幾個簡單的,也是比較經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型;當然,現(xiàn)在由于具體的任務(wù)類型,又產(chǎn)生了很多新的網(wǎng)絡(luò)模型,比如LSTM,Gan網(wǎng)絡(luò)等;其實本質(zhì)上都是為了解決特定問題或某一領(lǐng)域問題設(shè)計的架構(gòu)。
所以,現(xiàn)在理解上面那句廢話,神經(jīng)網(wǎng)絡(luò)只是神經(jīng)網(wǎng)絡(luò)了嗎?
神經(jīng)網(wǎng)絡(luò)只是一種技術(shù),它就是一種由神經(jīng)元構(gòu)成的結(jié)構(gòu)體,它和具體的任務(wù)沒有關(guān)系;而是把神經(jīng)網(wǎng)絡(luò)技術(shù)與具體的任務(wù)結(jié)合再一塊之后,才形成了各種各樣的神經(jīng)網(wǎng)絡(luò)架構(gòu)和模型。
當有了這些架構(gòu)之后,神經(jīng)網(wǎng)絡(luò)就有了手段或者說工具,就可以在具體領(lǐng)域中解決實際問題了;但由于每個領(lǐng)域中存在各種各樣的問題,因此就根據(jù)不同的問題產(chǎn)生了不同的任務(wù)類型;比如說NLP中有情感分類任務(wù),翻譯任務(wù),文本生成,對話任務(wù)等。而CV中同樣存在圖片分類,圖像識別等任務(wù)。
而這些不同的任務(wù)類型,就是利用神經(jīng)網(wǎng)絡(luò)技術(shù)與具體的場景相結(jié)合而設(shè)計的不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)用來解決的問題。
當然,神經(jīng)網(wǎng)絡(luò)只是一種技術(shù)手段,這些任務(wù)類型也不是因為神經(jīng)網(wǎng)絡(luò)才出現(xiàn)的;而是這些場景中存在這些任務(wù),然后使用神經(jīng)網(wǎng)絡(luò)作為工具來解決這些問題。
而且,在某些任務(wù)中,神經(jīng)網(wǎng)絡(luò)的表現(xiàn)可能還沒有其它機器學習模型效果好,成本低。
所以說,神經(jīng)網(wǎng)絡(luò)并不是萬能的,需要具體問題具體分析。
在這幾種任務(wù)場景中,最困難也可以說最復雜的應(yīng)該就是NLP任務(wù)了;原因在于自然語言處理中,涉及到復雜的語義關(guān)系和邏輯關(guān)系;因此在NLP任務(wù)中,還出現(xiàn)了兩種典型的類型,生成模型和推理模型。
比如說大名鼎鼎的DeepSeek的V2/3模型就是典型的生成模型,而R1模型就是典型的推理模型;當然,并不是說生成模型就不具備推理的能力;而是說推理模型在邏輯推理方面經(jīng)過強化,比如說通過Cot思維鏈的方式來提升模型的推理能力。
當然,目前來看模型的推理能力就像涌現(xiàn)能力一樣,它就是一個黑箱,目前還不知道為什么大模型會具備推理能力?;蛟S就像人類一樣,當你了解基礎(chǔ)的知識體系之后,自然就能夠進行更高層次的思維。
當然,神經(jīng)網(wǎng)絡(luò)與不同任務(wù)還有很多結(jié)合場景,比如以NLP為基礎(chǔ)的代碼生成模型Claude和一些用來進行數(shù)據(jù)分析的模型,這個就需要用戶和開發(fā)人員不斷的進行挖掘。
以上都是關(guān)于神經(jīng)網(wǎng)絡(luò)模型,也就是大模型本身能力的介紹;簡單來說,只要你模型做得好,它就能擁有以上的能力。
但有一個問題就是,怎么把大模型應(yīng)用到我們的工作和生活中,以此來提升工作和生活的效率。而這就需要大模型擁有一種工具來與外界交互。
雖然說我們可以通過API或聊天窗口或其它方式來使用大模型,但大模型并不具備使用外部工具的能力;簡單來說就是,大模型能力再強,都無法去使用我們制造的工具來解決問題。僅僅只能通過聊天等形式,利用大模型本身的能力,來給我們提一些建議,生成一些文字或圖片。
所以,我們就需要一種方式讓大模型使用外部工具,而這就是Agent技術(shù),一種使得大模型能夠自主和外部環(huán)境進行交互的技術(shù),也就是我們常說的智能體。
而大模型是怎么實現(xiàn)Agent功能的呢?
這里就用到了Function call和現(xiàn)在很火的MCP協(xié)議,一種讓大模型能夠通過統(tǒng)一的方式去使用外部工具的中間層協(xié)議。
還有一種技術(shù)叫做RAG技術(shù),原因就在于補充大模型天生的缺陷,數(shù)據(jù)更新不及時,就類似于給大模型配了一個資料室;讓它能夠從外部資料庫中獲取需要的數(shù)據(jù)。
學習一門技術(shù),要從基礎(chǔ)理論到具體實踐都要熟悉才能真正做到技術(shù)閉環(huán);否則你永遠無法了解技術(shù)的本質(zhì)。
本文轉(zhuǎn)載自公眾號AI探索時代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/bLd28xOtXGEfAFfHT7ktYA??
