大模型除了聊天還能做什么?關于大模型的分類和應用
大模型技術發(fā)展到今天,其功能可以說是日新月異;并且很多企業(yè)已經(jīng)在探索大模型的應用場景和技術實現(xiàn);但是很多人到現(xiàn)在對大模型的了解僅僅只限于能聊個天,問個問題。
但實際上,大模型能夠做的事要遠比我們想象中的要多的多;因此,今天我們就從用戶和技術兩個角度來介紹一下大模型的應用。
關于大模型的分類和應用問題
如果想弄清楚大模型是怎么使用的,首先要知道大模型的分類;不同類型的模型適合不同的應用場景,其功能和實現(xiàn)也各不相同。
而關于大模型的分類問題其實是一個復雜的問題,大模型的分類有多個維度,比如從任務類型有分類模型,翻譯模型,摘要模型和文本生成等。
但從與具體的技術場景結合來看,又有NLP任務,CV任務等;而從功能來看又有生成式模型和推理模型;從垂直角度看,有處理圖片的模型,有寫代碼的模型;如果從純粹的技術角度來看,又有Transformer模型,Gan網(wǎng)絡等。
而在實際的模型設計和開發(fā)過程中,很多模型采用的又是混合架構;比如說一個模型既有生成能力,又有推理能力,而能夠生成多種模態(tài)數(shù)據(jù)的模型被稱為多模態(tài)。
再加上大模型技術日新月異的迭代速度,因此很多人很難分清哪個模型是干啥的,有哪些功能;因此在選擇模型時,最好就是根據(jù)自己的任務需求去搜索相關的模型,最后再根據(jù)模型的官方介紹,然后再應用到具體的業(yè)務場景中。
大模型分類困難的四大根源
(1) 技術融合
現(xiàn)代大模型(如GPT-4、Claude 3)已發(fā)展為「通用計算平臺」,同時具備:
- 生成能力(文本/圖像/代碼)
- 推理能力(數(shù)學/邏輯)
- 判別能力(分類/檢測)
- 多模態(tài)理解(文本+圖像+音頻)
(2) 命名混亂
- 商業(yè)命名(如"文心一言")不反映技術架構
- 同一架構不同規(guī)模(LLaMA-2-7B/13B/70B)能力差異巨大
(3) 動態(tài)進化
插件系統(tǒng)的引入(如ChatGPT的Browsing/Code Interpreter)使單模型能力邊界模糊
(4) 評估標準缺失
缺乏統(tǒng)一的「能力維度評估體系」,不同廠商宣傳指標不可比
理解大模型分類的本質(zhì)是:放棄絕對分類,建立多維評估體系。建議從實際任務出發(fā)進行驗證,而非過度依賴理論分類。
前面簡單了解了一下大模型的分類問題,但僅僅知道大模型有哪些類型并沒什么用,最重要的是用大模型解決我們的問題;以此來提高我們的工作和生活效率。
所以,學習大模型沒有最好的辦法,或者說辦法只有一個;那就是多用,多嘗試,多研究。
大模型應用
大模型其實從應用的角度來說,主要有三個方面:
- 第一就是利用大模型本身的能力,比如AIGC去做一些文本,視頻,圖片的生成能力;比如做自媒體,寫文章,修圖,剪輯視頻等。
- 其次,就是RAG給大模型做知識增強,因為大模型本身限制的原因;導致其在某些方面知識缺陷,因此就可以使用外部知識庫的方式讓大模型做知識增強。
- 最后,可以說是最有發(fā)展前景的方向就是——智能體;智能體就是給大模型裝上手和腳,通過思維鏈,工作流,function call/MCP等技術;使得大模型具備獨立思考和使用外部工具的能力。
當然,這三種方式大都是從技術角度來說的;但從用戶角度來說,我們可以使用一些生成模型做一些簡單的工作,如處理圖片,寫文檔等。
而一些企業(yè)基于工作流平臺開發(fā)智能體,比如coze平臺;我們就可以根據(jù)自己的需要構建一個能夠執(zhí)行特定任務的智能體;以此來提高我們的工作效率。
總之,人工智能技術處于一個快速發(fā)展快速迭代的過程;很多新技術和名詞每天都在涌現(xiàn);因此,我們需要做的就是不斷跟進市場的腳步,多去嘗試和試驗;最終我們就會知道大模型能做什么,以及我們需要大模型給我們做什么。