小白也能輕松理解的大模型入門錦囊!
一、何為大模型?
大模型,英文名叫Large Model,也被稱為基礎模型(Foundation Model)。
我們通常說的大模型,主要指的是其中最常用的一類——大語言模型(Large Language Model,簡稱LLM)。除此之外,還有視覺大模型、多模態(tài)大模型等。所有這些類別合在一起,被稱為廣義的大模型;而狹義的大模型則特指「大語言模型」。
1. 大模型的本質
從本質上來講,大模型是包含超大規(guī)模參數(通常在十億個以上)的神經網絡模型。這些參數使得大模型能夠處理和理解復雜的任務,如自然語言處理、圖像識別等。
2. 神經網絡的基礎
神經網絡是AI領域目前最基礎的計算模型。它通過模擬大腦中神經元的連接方式,能夠從輸入數據中學習并生成有用的輸出。
如下圖所示,一個典型的神經網絡結構包括:
- 輸入層:接收外部輸入數據。
- 隱藏層:多個中間層,每層神經元與下一層的所有神經元都有連接(即全連接神經網絡),負責數據的特征提取和轉換。
- 輸出層:生成最終的輸出結果。
常見的神經網絡架構有:
- 卷積神經網絡(CNN):主要用于圖像處理。
- 循環(huán)神經網絡(RNN):適用于序列數據處理,如時間序列分析。
- 長短時記憶網絡(LSTM):改進版的RNN,能更好地處理長期依賴問題。
- Transformer架構:目前業(yè)界大部分大模型都采用了這種架構,尤其擅長處理自然語言任務。
二、大模型的“大”體現在哪些方面?
大模型的“大”,不僅僅是參數規(guī)模大,還包括以下幾個方面:
- 參數規(guī)模大:大模型包含數十億甚至數千億個參數,使其能夠捕捉更復雜的模式和關系。
- 架構規(guī)模大:大模型通常具有非常深的網絡結構,層數可達幾十層甚至上百層。
- 訓練數據大:大模型需要海量的數據進行預訓練,以確保其具備廣泛的知識和能力。
- 算力需求大:訓練大模型需要強大的計算資源,如高性能GPU集群或TPU,以支持大規(guī)模的并行計算。
以OpenAI公司的GPT-3為例,共有96層隱藏層,每層包含2048個神經元,其架構規(guī)模非常龐大。
大模型的參數數量和神經元節(jié)點數之間存在一定的關系。簡單來說,神經元節(jié)點數越多,參數也就越多。GPT-3整個模型的參數數量約為1750億個。
GPT-3的訓練數據也非常龐大,采用了多種高質量的數據集進行預訓練:
- CC數據集:4千億詞
- WebText2:190億詞
- BookCorpus:670億詞
- 維基百科:30億詞
這些數據集加起來,原始數據總量達到了45TB,即使經過清洗后也有570GB。如此海量的數據確保了GPT-3具備廣泛的知識和能力,能夠在各種自然語言任務上表現優(yōu)異。
還有算力需求。很具公開數據顯示,訓練GPT-3大約需要3640PFLOP·天。如果使用512張NVIDIA A100 GPU(單卡算力195 TFLOPS),大約需要1個月的時間。實際上,由于訓練過程中可能會出現中斷或其它問題,實際所需時間可能會更長。
總而言之,大模型就是一個虛擬的龐然大物,具有復雜的架構、龐大的參數量、依賴海量數據,并且訓練過程非常燒錢。
而參數較少(一般在百萬級以下)、層數較淺的小模型,具有輕量級、高效率和易于部署的特點,適用于數據量較小、計算資源有限的垂直領域場景,如簡單的文本分類、情感分析等任務。
三、大模型是如何訓練出來的?
眾所周知,大模型可以通過學習海量數據,吸收數據里面的“知識”。然后再對知識進行運用,例如回答問題、生成內容等。
而「學習知識的過程,就是訓練過程。運用知識的過程,即為推理?!?/p>
大模型的訓練,又分為兩個主要環(huán)節(jié):預訓練(Pre-training)和微調(Fine-tuning)。
1. 預訓練
在預訓練時,首先需要選擇一個合適的模型框架,例如Transformer。然后,通過“投喂”前面提到的海量數據,讓大模型學習到通用的特征表示。
(1) 為什么大模型具有強大的學習能力?
大模型之所以具備如此強大的學習能力,主要歸功于其龐大的參數規(guī)模和復雜的神經網絡結構。我們可以從以下幾個方面來理解這一點:
① 神經元與權重的關系
如上圖,深度學習模型中的每個神經元可以看做是一個函數計算單元。輸入x經過一系列線性變換和非線性激活函數后,產生輸出y。這個過程可以用以下公式表示:
其中,
- W是權重(weights),決定了輸入特征對模型輸出的影響程度。
- b是偏置(bias),影響神經元的激活閾值,即神經元對輸入信號的敏感程度。
- f是激活函數,如ReLU、Sigmoid等,用于引入非線性特性。
權重是最主要的參數之一。通過反復訓練,模型不斷調整權重,使其能夠更好的擬合訓練數據。「這也就是訓練的核心意義——找到最合理的權重和偏置組合,使得模型能夠在新數據上表現良好?!?/p>
② 參數與學習能力的關系
參數越多,模型通常能夠學習到更復雜的模式和特征,從而在各種任務上表現出更強的性能。
我們通常會說大模型具有兩個特征能力——涌現能力和泛化能力。
當模型的訓練數據和參數不斷擴大,直到達到一定的臨界規(guī)模后,會表現出一些未能預測的、更復雜的能力和特性。模型能夠從原始訓練數據中,自動學習并發(fā)現新的、更高層次的特征和模式。這種能力,被稱為“涌現能力”。
“涌現能力”,可以理解為大模型的腦子突然“開竅”了,不再僅僅是復述知識,而是能夠理解知識,并且能夠發(fā)散思維。
泛化能力,是指大模型通過“投喂”海量數據,可以學習復雜的模式和特征,可以對未見過的數據做出準確的預測。就像董宇輝一樣,書讀得多了,有些書雖然沒讀過,他也能說幾句。
③ 過擬合的風險
然而,參數規(guī)模越來越大,雖然能讓大模型變得更強,但是也會帶來更龐大的資源消耗,甚至可能增加“過擬合”的風險。
過擬合,即是指模型對訓練數據學習得過于精確,以至于它開始捕捉并反映訓練數據中的噪聲和細節(jié),而不是數據的總體趨勢或規(guī)律。換句話說,模型變成了“書呆子”,只會死記硬背,不愿意融會貫通。
(2) 預訓練使用的數據
預訓練使用的數據是海量的未標注數據(幾十TB)。之所以使用未標注數據,是因為互聯網上存在大量的此類數據,很容易獲取。而標注數據(基本上靠人工標注)需要消耗大量的時間和金錢,成本太高。
① 數據預處理
為了確保數據的質量和適用性,整個數據需要經過以下預處理步驟:
- 收集:從多個來源收集原始數據。
- 清洗:去除異常數據和錯誤數據。
- 脫敏:刪除隱私信息,確保數據安全。
分類:對數據進行分類,使其更標準化,有利于后續(xù)訓練。
② 獲取數據的方式
獲取數據的方式也是多樣化的:
- 個人和學術研究:可以通過官方論壇、開源數據庫或研究機構獲取。
- 企業(yè):既可以自行收集和處理,也可以直接通過外部渠道(市場上有專門的數據提供商)購買。
(3) 無監(jiān)督學習方法
預訓練模型通過無監(jiān)督學習從未標注數據中學習到通用特征和表示。常見的無監(jiān)督學習方法包括:
- 自編碼器(Autoencoder):通過學習數據的壓縮表示來進行重構。
- 生成對抗網絡(GAN):通過生成器和判別器之間的對抗訓練來學習數據分布。
- 掩碼語言建模(Masked Language Modeling, MLM):隨機遮蔽部分輸入文本,讓模型預測被遮蔽的部分。
- 對比學習(Contrastive Learning):通過對比相似和不相似的數據樣本,學習數據的表示。
2. 微調
預訓練學習之后,我們得到了一個通用大模型,這種模型雖然具備廣泛的知識和能力,但在完成特定任務時往往表現不佳。因此,我們需要對模型進行微調。
(1) 什么是微調?
「微調(Fine-tuning)」是給大模型提供特定領域的標注數據集,對預訓練的模型參數進行微小的調整,使其更好地完成特定任務。通過微調,可以顯著提升模型在特定任務上的性能。
微調之后的大模型可以根據應用場景分為不同層次:
- 通用大模型:類似于中小學生,具有廣泛的基礎知識,但缺乏專業(yè)性。
- 行業(yè)大模型:基于特定行業(yè)的數據集進行微調。如金融證券大模型通過基于金融證券數據集的微調,可以得到一個專門用于金融分析和預測的大模型。這相當于大學本科生,具備了更專業(yè)的知識和技能。
- 專業(yè)大模型(或垂直大模型):進一步細分到更具體的領域,如金融領域的股票預測等。這相當于研究生,具備高度專業(yè)化的能力。
如下圖所示。
(2) 微調的優(yōu)勢
- 減少計算資源需求:微調階段使用的數據量遠小于預訓練階段,因此對算力的需求也小很多。通常只需要少量的GPU或TPU即可完成微調過程。
- 提高任務特定性能:預訓練模型在廣泛的數據上學習到了通用特征,但這些特征不一定能很好地適用于特定任務。通過微調,模型可以在特定任務上表現出更高的準確性和效率。
- 避免重復投入:對于大部分大模型廠商來說,他們一般只做預訓練,不做微調。而對于行業(yè)客戶來說,他們一般只做微調,不做預訓練?!邦A訓練+微調”這種分階段的大模型訓練方式,可以避免重復的投入,節(jié)省大量的計算資源,顯著提升大模型的訓練效率和效果。
(3) 微調的具體步驟
① 選擇合適的標注數據集:標注數據集是微調的關鍵。需要根據具體任務選擇高質量的標注數據,確保數據的多樣性和代表性。
② 調整模型參數:在微調過程中,通過對少量標注數據的訓練,對預訓練模型的參數進行微小的調整,使其更適合特定任務。常見的微調方法包括:
- 全層微調:調整所有層的參數。
- 部分層微調:僅調整部分層的參數,保留其他層的參數不變。
- 凍結部分層:凍結某些層的參數,僅調整新添加的層或特定層的參數。
③ 評估模型性能:微調完成后,需要對大模型進行全面評估。評估內容包括性能、穩(wěn)定性和準確性等,以確認模型是否符合設計要求。常用的評估方法包括:
- 使用實際數據或模擬場景進行測試。
- 比較模型在不同任務上的表現。
- 分析模型的推理速度和資源消耗。
④ 部署與推理:評估和驗證完成后,大模型就可以部署到生產環(huán)境中,用于推理任務。此時,模型的參數已經定型,不再變化,可以真正開始工作。推理過程就是用戶通過提問或提供提示詞(Prompt),讓大模型回答問題或生成內容。
完整的流程圖如下圖所示:
四、大模型到底有什么作用?
1. 按訓練數據類型分類的大模型
根據訓練的數據類型和應用方向,大模型通常分為以下幾類:
- 語言大模型(以文本數據進行訓練)
- 音頻大模型(以音頻數據進行訓練)
- 視覺大模型(以圖像數據進行訓練)
- 多模態(tài)大模型(結合文本、圖像、音頻等多種模態(tài)的數據)
每種類型的大模型在不同領域中發(fā)揮著重要作用。其中,
(1) 語言大模型
應用場景:自然語言處理(NLP)
功能特點:
- 理解、生成和處理人類語言:能夠理解和生成高質量的自然語言文本。
- 文本內容創(chuàng)作:生成文章、詩歌、代碼等。
- 文獻分析:自動摘要、關鍵詞提取、情感分析等。
- 機器翻譯:將一種語言翻譯成另一種語言。
- 對話系統:如ChatGPT,用于構建智能聊天機器人。
典型應用:
- 內容創(chuàng)作:自動生成新聞報道、博客文章、技術文檔等。
- 客服支持:自動化客戶服務,回答用戶問題。
- 教育輔助:幫助學生學習語言、編寫作文等。
- 法律文件處理:審查合同、撰寫法律意見書等。
(2) 音頻大模型
應用場景:語音識別與合成
功能特點:識別和生成語音內容:能夠準確識別語音并轉換為文本,或根據文本生成自然的語音。
典型應用:
- 語音助手:如Siri、Alexa等智能語音助手。
- 語音客服:自動應答電話客服系統。
- 智能家居控制:通過語音命令控制家電設備。
- 語音轉文字:會議記錄、采訪轉錄等。
(3) 視覺大模型
應用場景:計算機視覺(CV)
功能特點:識別、生成和修復圖像:能夠識別物體、場景、人臉等,并生成或修復圖像。
典型應用:
- 安防監(jiān)控:實時監(jiān)控和異常檢測。
- 自動駕駛:識別道路、行人、交通標志等。
- 醫(yī)學影像分析:輔助醫(yī)生診斷疾病,如X光、CT掃描等。
- 天文圖像分析:識別星系、行星等天體。
(4) 多模態(tài)大模型
應用場景:跨領域任務
功能特點:整合并處理來自不同模態(tài)的信息:可以處理文本、圖像、音頻和視頻等多種形式的數據。
典型應用:
- 文生圖:根據文本描述生成相應的圖像。
- 文生視頻:根據文本描述生成視頻內容。
- 跨媒體搜索:通過上傳圖片搜索相關的文字描述,或通過文字搜索相關圖片。
- 多媒體內容創(chuàng)作:生成包含文本、圖像、音頻的綜合內容。
2. 按應用場景分類的大模型
除了按照數據類型分類,大模型還可以根據具體應用場景進一步細分。
- 金融大模型:用于風險管理、信用評估、交易監(jiān)控、市場預測、合同審查、客戶服務等。
- 醫(yī)療大模型:用于疾病診斷、藥物研發(fā)、基因分析、健康管理等。
- 法律大模型:用于法律咨詢、合同審查、案例分析、法規(guī)檢索等。
- 教育大模型:用于個性化學習、在線輔導、考試評估、課程推薦等。
- 代碼大模型:用于代碼生成、代碼補全、代碼審查、編程助手等。
- 能源大模型:用于能源管理、故障預測、優(yōu)化調度等。
- 政務大模型:用于政策分析、輿情監(jiān)測、公共服務等。
- 通信大模型:用于網絡優(yōu)化、故障診斷、服務質量提升等。
五、大模型的發(fā)展趨勢
截至2024年3月25日,中國10億參數規(guī)模以上的大模型數量已經超過100個,號稱“百模大戰(zhàn)”。這些大模型的應用領域、參數規(guī)模各有不同,但背后都是高昂的成本。根據行業(yè)估測的數據,訓練一個大模型的成本可能在幾百萬美元到上億美元之間。例如,GPT-3的訓練成本約為140萬美元,而Claude 3模型的訓練費用高達約1億美元。
隨著行業(yè)的逐漸理性化,大模型的發(fā)展趨勢也發(fā)生了顯著變化,主要體現在以下幾個方面:
(1) 從追求參數規(guī)模到注重實際應用
- 頭部企業(yè)繼續(xù)探索超大規(guī)模模型:盡管大部分企業(yè)已經將萬卡和萬億參數視為天花板,但是仍有一些頭部企業(yè)在死磕參數規(guī)模更大的超大模型(擁有數萬億到數千萬億個參數),如OpenAI、xAI等。馬斯克宣布xAI團隊成功啟動了世界上最強大的AI訓練集群,由10萬塊H100組成,主要用于Grok 2和Grok 3的訓練和開發(fā)。
- 其他企業(yè)轉向實用化:對于大部分企業(yè)來說,再往上走的意愿不強烈,錢包也不允許。因此,越來越多的企業(yè)將關注點從“打造大模型”轉向“使用大模型”,如何將大模型投入具體應用、吸引更多用戶、通過大模型創(chuàng)造收入成為各大廠商的頭等任務。
(2) 大模型的輕量化與端側部署
- AI手機、AI PC、具身智能的概念越來越火:為了將大模型的能力下沉到終端設備,AI手機、AI PC、具身智能等概念成為新的發(fā)展熱點。高通、聯發(fā)科等芯片廠商推出了具有更強AI算力的手機芯片,OPPO、vivo等手機廠商也在手機中內置了大模型,并推出了許多原生AI應用。
- 第三方AI應用的數量激增:根據行業(yè)數據顯示,具有AI功能的APP數量已達到300多萬款。2024年6月,AIGC類APP的月活躍用戶規(guī)模達6170萬,同比增長653%。
- 輕量化技術的應用:為了在資源受限的設備上運行,大模型將通過剪枝、量化、蒸餾等技術進行輕量化,保持性能的同時減少計算資源需求。這使得大模型可以在移動設備、嵌入式系統等環(huán)境中高效運行。
(3) 開源與閉源并行
- 開源大模型的廣泛應用:大部分大模型是基于開源大模型框架和技術打造的,實際上是為了迎合資本市場的需求或蹭熱度。開源大模型為中小型企業(yè)提供了低成本進入AI領域的途徑,促進了創(chuàng)新和應用的多樣化。
- 閉源大模型的高端競爭:有能力做閉源大模型的企業(yè)并不多,但這些企業(yè)的閉源大模型往往具備更高的安全性和定制化能力,適用于對數據隱私和性能要求較高的場景。
(4) 多模態(tài)融合的趨勢
- 跨領域任務處理:多模態(tài)大模型結合了NLP和CV的能力,通過整合并處理來自不同模態(tài)的信息(文本、圖像、音頻和視頻等),可以處理復雜的跨領域任務,如文生圖、文生視頻、跨媒體搜索等。
六、大模型會帶來哪些挑戰(zhàn)?
大模型確實是一個強大的工具,能夠幫助我們節(jié)約時間、提升效率,但同時也是一把雙刃劍,帶來了多方面的挑戰(zhàn)。以下是大模型在倫理、法律、社會和經濟層面的主要挑戰(zhàn):
(1) 影響失業(yè)率
- 崗位替代:大模型所掀起的AI人工智能浪潮可能導致一些人類工作崗位被替代,尤其是那些重復性高、規(guī)則明確的工作,如客服、數據錄入、內容審核等。
- 失業(yè)率上升:隨著自動化程度的提高,短期內可能會導致失業(yè)率上升,給社會穩(wěn)定帶來壓力。
(2) 版權與知識產權問題
- 內容生成爭議:大模型基于已有數據進行學習,生成的內容(文本、圖像、音樂、視頻等)可能引發(fā)版權和知識產權問題。這些內容雖然幫助了創(chuàng)作,但也“引用”了人類創(chuàng)作者的作品,界限難以區(qū)分。
- 打擊創(chuàng)作熱情:長此以往,可能會打擊人類的原生創(chuàng)作熱情,減少原創(chuàng)作品的數量和質量。
(3) 算法偏見和不公平
- 偏差傳遞:訓練數據中存在的偏差會導致大模型學習到這些偏差,從而在預測和生成內容時表現出不公平的行為。例如,性別、種族、宗教等方面的偏見可能被無意中強化。
- 社會影響:大模型生成的內容可能被用于政治宣傳和操縱,影響選舉和公共輿論,進一步加劇社會不平等。
(4) 被用于犯罪
- 惡意用途:大模型可以生成逼真的文本、圖像、語音和視頻,這些內容可能被用于詐騙、誹謗、虛假信息傳播等惡意用途。
- 監(jiān)管難度:由于大模型生成的內容難以區(qū)分真假,給監(jiān)管帶來了巨大挑戰(zhàn)。
(5) 能耗問題
- 資源消耗:大模型的訓練和推理需要大量的計算資源,這不僅增加了成本,還帶來了巨大的碳排放。
- 無意義的碳排放:很多企業(yè)為了服務于資本市場或跟風,盲目進行大模型訓練,消耗了大量的資源,導致了無意義的碳排放。
總之,大模型在倫理、法律、社會和經濟層面帶來的挑戰(zhàn)是多方面的,需要社會各界共同努力來解決。通過完善法律法規(guī)、加強技術研發(fā)、提高公眾意識等手段,可以在充分發(fā)揮大模型優(yōu)勢的同時,有效應對這些挑戰(zhàn),推動人工智能的健康發(fā)展。