LLM 大語言模型定義以及關(guān)鍵技術(shù)術(shù)語認(rèn)知
大語言模型定義
LLM(Large Language Models)是基于 Transformer 架構(gòu)(可以理解為不同尋常的大腦)的深度神經(jīng)網(wǎng)絡(luò),通過海量文本數(shù)據(jù)訓(xùn)練獲得語言理解和生成能力。其核心特征包括:
參數(shù)規(guī)模達(dá)數(shù)十億級別(GPT-3 175B參數(shù))
知識儲備驚人,可以理解為腦細(xì)胞數(shù)量是普通人的千億倍(1750億參數(shù)),相當(dāng)于把整個圖書館的書都裝進(jìn)大腦
自回歸生成機制(逐詞預(yù)測)
說話方式像接龍,當(dāng)它寫作文時,就像我們玩詞語接龍:先寫"今天",然后根據(jù)"今天"想"天氣",接著根據(jù)"今天天氣"想"晴朗",逐字逐句生成內(nèi)容。
注意力機制實現(xiàn)長程依賴建模
特別會抓重點就像我們讀小說時,會自動記住關(guān)鍵人物關(guān)系(比如注意到"陳平安喜歡寧姚"),它能自動捕捉文字間的深層聯(lián)系。
涌現(xiàn)能力(Emergent Abilities)
無師自通的學(xué)霸,腹有詩書氣自華,典型案例:GPT-3在未專門訓(xùn)練情況下通過上下文學(xué)習(xí)掌握翻譯、數(shù)學(xué)運算等能力,展示出突破性的零樣本學(xué)習(xí)能力。
關(guān)鍵技術(shù)術(shù)語
Transformer架構(gòu)
1. 核心創(chuàng)新:自注意力機制突破序列建模瓶頸
- 傳統(tǒng) RNN 的缺陷:類似快遞站分揀員逐個處理包裹(單詞),RNN 必須按順序處理序列。當(dāng)處理長序列時(如第 50 個詞),早期信息易丟失(如忘記“我”還是“他”),導(dǎo)致長距離依賴失效。
- Transformer 的革新:通過自注意力機制(Self-Attention),所有包裹(單詞)同時被“透視掃描”,每個詞直接關(guān)聯(lián)全局信息(如“蘋果”關(guān)聯(lián)到“水果店”“紅富士”),徹底解決長序列依賴問題。
2. 關(guān)鍵架構(gòu)特點
(1)并行化計算架構(gòu)
- 傳統(tǒng) RNN:需按順序處理(如包裹1→2→3),效率低下。
- Transformer:所有詞通過矩陣運算并行處理(如同時拆包掃描),計算速度提升百倍。
(2)編碼器-解碼器協(xié)作
- 編碼器(理解部):分析輸入序列的全局語義(如將“我想吃蘋果”解析為人物、動作、對象)。
- 解碼器(生成部):基于編碼器信息生成輸出(如翻譯為英文),GPT 系列僅用解碼器實現(xiàn)文本生成。
(3)位置編碼與多頭注意力
- 位置編碼:為詞嵌入添加位置信息(如“蘋果”是第3個詞),彌補并行計算丟失的順序性。
- 多頭注意力:多個“專家”并行分析不同語義維度(語法、情感、事實),綜合結(jié)果增強模型理解能力。
3. 典型應(yīng)用場景
- 生成式模型:GPT 系列(僅解碼器)用于文本創(chuàng)作、對話。
- 理解式模型:BERT(僅編碼器)用于文本分類、問答。
- 跨模態(tài)任務(wù):圖像生成(如 DALL·E)、視頻生成(如 Sora)、代碼生成(如 GitHub Copilot)。
技術(shù)價值總結(jié)
Transformer 通過自注意力全局建模和并行計算架構(gòu),解決了 RNN 的長序列依賴與低效問題,成為大模型時代的核心技術(shù)。其模塊化設(shè)計(編碼器/解碼器可拆分)和靈活擴(kuò)展性(如多頭注意力),使其在 NLP、CV 等領(lǐng)域?qū)崿F(xiàn)突破性應(yīng)用。
語言建模(Language Modeling)
核心目標(biāo)
語言建模的核心是通過學(xué)習(xí)自然語言的統(tǒng)計規(guī)律,建立詞序列(token)的概率分布模型,實現(xiàn)基于上下文預(yù)測序列中下一個詞的能力。
主要方法
- 自回歸語言模型(如GPT,DeepSeek)
特點:以單向上下文建模為基礎(chǔ),通過序列生成方式逐詞預(yù)測(即當(dāng)前預(yù)測依賴已生成的全部歷史信息)
典型應(yīng)用:文本生成(如對話系統(tǒng)、故事創(chuàng)作)、開放式任務(wù)(無需特定任務(wù)標(biāo)注數(shù)據(jù))
- 掩碼語言模型(如BERT)
特點:基于雙向上下文建模,通過隨機掩碼部分詞匯并預(yù)測被遮蔽內(nèi)容,捕捉全局語義關(guān)系
典型應(yīng)用:語義理解任務(wù)(如文本分類、問答系統(tǒng))、需要深層語義推理的場景
技術(shù)演進(jìn)
- 傳統(tǒng)方法:基于N-gram統(tǒng)計模型,依賴局部詞頻統(tǒng)計,但無法捕捉長距離依賴
- 深度學(xué)習(xí)方法:
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN/LSTM)解決序列建模的時序依賴問題
Transformer架構(gòu)突破性引入自注意力機制,實現(xiàn)并行化計算與全局上下文建模
- 預(yù)訓(xùn)練范式:通過大規(guī)模無監(jiān)督預(yù)訓(xùn)練(如GPT-3、BERT)學(xué)習(xí)通用語言表示,再通過微調(diào)適配下游任務(wù)
預(yù)訓(xùn)練范式是當(dāng)前人工智能領(lǐng)域(尤其是自然語言處理)的核心技術(shù)之一。它的核心思想是通過兩個階段的學(xué)習(xí),讓模型從“通用語言理解”逐步過渡到“特定任務(wù)適配”。
分詞(Tokenization)
將文本分割成一個個小的單元,即 token。比如,“I love apples” 這句話可能被分成 【“I”“l(fā)ove”“apples”】 這三個 token ,我是中國人被分解成 【我,是,中國人】三個 token 以便模型進(jìn)行處理。
子詞分詞(Byte-Pair Encoding等),遇到"樂高飛船"時,拆成"底座+翅膀+駕駛艙"標(biāo)準(zhǔn)組件, 為什么要分詞:
- 影響模型詞匯表大小:控制詞匯表大小,就像用1000個基礎(chǔ)樂高塊,能拼出10萬種造型
- 處理未登錄詞能力:應(yīng)對意外情況,遇到陌生詞"抗核抗體":拆成"抗"+"核"+"抗體"(醫(yī)學(xué)常見組件)
- 跨語言統(tǒng)一表示: 跨語言通用,中文"人工智能" → ["人工","智能"],英文"Artificial Intelligence" → ["Artificial","Intelligence"]
嵌入(Embeddings)
嵌入是指將離散 token 映射為連續(xù)向量,高維,捕獲語義和語法關(guān)系,通過模型訓(xùn)練學(xué)習(xí)分布,通俗的話講,就是把 token 轉(zhuǎn)化為 Transformer 可以理解的數(shù)據(jù)
通俗解釋: 嵌入就像給每個樂高零件貼上"屬性條形碼" 當(dāng)AI拿到"color"這個樂高塊時,不是直接使用塑料塊本身,而是掃描它身上的隱形條形碼:
- 紅色 → 0.87
- 動詞屬性 → 0.92
- 與"paint"相似度 → 0.85
- 與"dark"關(guān)聯(lián)度 → 0.63
- ...(總共12,000種屬性)
就像每個樂高塊的固有指紋或者屬性的,顏色代碼(決定能拼什么風(fēng)格的建筑),形狀指紋(決定能連接哪些零件),材質(zhì)DNA(決定適合做飛船還是城堡),比如我需要做一個紅色的房子,那么我就會考慮選擇所有 紅色的樂高零件
嵌入的特點:高維度(如GPT-3使用12,000維),捕獲語義/語法關(guān)系(相似詞向量距離近),通過模型自動學(xué)習(xí)語義空間分布
通俗解釋:
高維度=超能力觀察鏡
人類看樂高:只能分辨顏色/形狀/大小,AI的12,000維"觀察鏡"能看到:適合做機甲關(guān)節(jié)的弧度(維度127),與中世紀(jì)套裝的兼容性(維度582),兒童抓握舒適度評分(維度7048)
自動學(xué)習(xí)零件屬性
初期:AI以為"紅色塊"只適合做消防車,看多了圖紙后發(fā)現(xiàn),紅色也能做蘋果(維度202→水果關(guān)聯(lián)+0.7),還能做超級英雄披風(fēng)(維度916→動態(tài)感+0.8),類似人類發(fā)現(xiàn)回形針除了夾文件,還能當(dāng)手機支架
捕獲語義
當(dāng)AI看到"硅谷創(chuàng)業(yè)公司融資千萬美元"時:
- "硅谷" → 科技=0.95,美國=0.88,創(chuàng)新=0.93...
- "融資" → 金錢=0.97,風(fēng)險=0.85,增長=0.91...
- 自動聯(lián)想到:
- 相似案例:維度2048與"字節(jié)跳動早期融資"匹配度89%
- 潛在風(fēng)險:維度6975與"估值泡沫"關(guān)聯(lián)度76%
- 就像樂高大師看到幾個零件,立刻知道能拼出直升機還是潛水艇
這相當(dāng)于給每個詞語裝上GPS定位器,讓AI在12,000維的語義宇宙中,精確找到它們所在的星座位置!
訓(xùn)練與微調(diào)
預(yù)訓(xùn)練就像九年義務(wù)教育+3年中學(xué),什么都學(xué),掌握文理科基礎(chǔ)知識,有認(rèn)知世界的能力,微調(diào)就像讀高中,分文理,讀大學(xué)分專業(yè),最終變成某個領(lǐng)域的打工人(落地應(yīng)用)
預(yù)訓(xùn)練:
- 海量通用文本(如CommonCrawl)
- 目標(biāo):基礎(chǔ)語言理解能力
用做飯來比喻:預(yù)訓(xùn)練 就像是 大廚的基本功訓(xùn)練,讓廚師學(xué)徒先吃遍全國各種菜系(通用文本),掌握切菜、火候、調(diào)味的基礎(chǔ)規(guī)律(語言規(guī)律)。這時候他不懂做具體菜品,但能憑經(jīng)驗判斷"西紅柿炒蛋應(yīng)該先放蛋"這類常識(基礎(chǔ)理解能力)。
微調(diào):
- 領(lǐng)域特定數(shù)據(jù)(如醫(yī)學(xué)/金融文本)
- 任務(wù)特定訓(xùn)練(如翻譯/摘要)
微調(diào),開餐廳前的專項培訓(xùn),比如要開川菜館:先給學(xué)徒看10本川菜菜譜(領(lǐng)域數(shù)據(jù)),記住豆瓣醬和花椒的使用場景(領(lǐng)域知識),再手把手教他做宮保雞?。ㄈ蝿?wù)訓(xùn)練),直到他能穩(wěn)定復(fù)刻這個菜(任務(wù)適配),最終他既保留通用廚藝,又成為川菜專家(領(lǐng)域?qū)<夷P停?/p>
預(yù)測生成
預(yù)測生成(Autoregressive Generation)是指大型語言模型(LLM)基于已輸入的上下文逐詞生成后續(xù)內(nèi)容的過程。
預(yù)測過程:
- 輸入序列編碼
- 自回歸生成(逐token預(yù)測)
- 采樣策略(貪婪搜索/核采樣等)
- 限制條件:受上下文窗口約束
還是使用用做菜流程比喻預(yù)測生成,連限制條件都容易記:預(yù)測生成,大廚現(xiàn)炒客制化菜品
- 看訂單(輸入編碼):客人說"微辣的水煮牛肉加萵筍",大廚先拆解需求(把文本轉(zhuǎn)成向量)
- 顛勺式推進(jìn)(自回歸生成):
- 先熱油→爆香辣椒→下牛肉→... 每個步驟都基于前序動作決定下一步(逐token預(yù)測)
- 類似菜譜接龍:每次只寫下一句,但必須和前文連貫
- 調(diào)味自由度(采樣策略):
嚴(yán)格派:必須按經(jīng)典菜譜放3克鹽(貪婪搜索,選最高概率token)
創(chuàng)意派:允許隨機從"2-4克鹽+半勺糖"里選(核采樣,增加多樣性)
限制: 廚房工作臺太?。ㄉ舷挛拇翱冢?/p>
- 比喻:灶臺只能同時擺5種食材,如果客人突然加需求"順便做個魚香肉絲",大廚可能忘記最初要微辣(長文本生成時可能丟失前文信息)
- 實際表現(xiàn):生成到3000字時,模型可能復(fù)讀調(diào)料比例(重復(fù)生成)或突然開始炒西蘭花(邏輯漂移)
就像廚師不會無限度記住兩小時前的訂單細(xì)節(jié),模型也無法突破上下文窗口的記憶極限
上下文窗口(Context Window)
定義:模型單次處理的最大token數(shù),直接影響其對長文本的連貫理解和多輪對話的記憶能力
- 典型值:
GPT-4:32K tokens(約50頁)
Claude 3:200K tokens
DeepSeek-V3: 128K tokens
- 優(yōu)化技術(shù):
FlashAttention
稀疏注意力
位置編碼改進(jìn)(如ALiBi)
大模型的“上下文窗口”就像一個人同時能記住的對話內(nèi)容范圍。舉個例子,假設(shè)你在讀一本小說,可以理解為AI的“短期記憶容量”。比如GPT-4能記住約32頁書的內(nèi)容(32K token),而DeepSeek-V3能記住128頁(128K token),Claude 3更是能記住整本中篇小說(200K token)。這直接影響AI能否連貫分析長文章,或者在聊天時不忘記你10分鐘前提過的事情。
技術(shù)優(yōu)化類比:
- FlashAttention:像快速翻書時用熒光筆標(biāo)重點,只關(guān)注關(guān)鍵部分,既快又省腦力(減少計算量)。
- 稀疏注意力:類似讀書時跳著看目錄和章節(jié)標(biāo)題,忽略無關(guān)段落(只處理部分內(nèi)容)。
- 位置編碼改進(jìn):相當(dāng)于給書本每頁編號+貼彩色標(biāo)簽,防止記混頁數(shù)順序(解決長文本位置錯亂問題)。比如DeepSeek用“分段頁碼法”,前一半頁碼正常標(biāo),后一半自動擴(kuò)展,還能無限續(xù)寫。
擴(kuò)展法則(Scaling Laws)
擴(kuò)展法則三要素:
- 參數(shù)量(N)
- 訓(xùn)練數(shù)據(jù)量(D)
- 計算量(FLOPs)
擴(kuò)展法則的三要素可以想象成做菜:
- 參數(shù)量(N):相當(dāng)于廚師的廚藝水平。就像經(jīng)驗豐富的廚師能處理更多復(fù)雜菜品,模型參數(shù)越多,"經(jīng)驗"越豐富,能處理更復(fù)雜的任務(wù)。
- 訓(xùn)練數(shù)據(jù)量(D):相當(dāng)于食材的數(shù)量。要做一鍋夠百人吃的佛跳墻,食材必須足夠多,否則再好的廚師也會"巧婦難為無米之炊"。
- 計算量(FLOPs):相當(dāng)于廚具的性能。用柴火灶做菜可能需要10小時,但用高壓鍋1小時就能完成,計算量就是這口"鍋"的做飯效率。
Chinchilla法則(N×20≈D 可以理解為廚師和食材的黃金配比。假設(shè)你請了70位廚師(70B參數(shù)),按照法則需要準(zhǔn)備1.4噸食材(1.4T tokens),也就是每位廚師分配20公斤食材。這背后的邏輯是:
- 如果只給10公斤食材(數(shù)據(jù)不足),廚師們會互相搶食材,導(dǎo)致浪費才華(模型欠擬合)
- 如果給100公斤食材(數(shù)據(jù)過多),廚師們累死也處理不完(訓(xùn)練效率低下)
這個法則顛覆了以往"廚師越多越好"的認(rèn)知。比如過去大家覺得1750億參數(shù)的GPT-3(相當(dāng)于175位廚師),用3000億token(相當(dāng)于1.7噸食材)已經(jīng)很多,但Chinchilla指出應(yīng)該配3.5萬億token(35噸食材),相當(dāng)于每位廚師分到200公斤——這說明之前的訓(xùn)練其實讓廚師們"餓著肚子工作"。
涌現(xiàn)能力(Emergent Abilities)
用蘇軾的一句詩最能表達(dá) 腹有詩書氣自華。 涌現(xiàn)能力很容易理解,不多講
涌現(xiàn)能力表現(xiàn):
- 算術(shù)運算
- 復(fù)雜推理(如思維鏈)
- 跨任務(wù)泛化
重點需要關(guān)注一下 評估基準(zhǔn)
評估基準(zhǔn):
- BIG-Bench(200+任務(wù))
- MMLU(57學(xué)科測試)
- TruthfulQA(真實性評估)
如何評估這些能力? 科學(xué)家用各種“考題”測試模型,類似人類考試:
- BIG-Bench(200+任務(wù)) :像是綜合題庫,包含數(shù)學(xué)、語言游戲(比如從亂序字母猜單詞)、冷知識(比如波斯語問答)。大模型在這些任務(wù)中突然“開竅”,小模型卻像學(xué)渣一樣蒙圈。
- MMLU(57學(xué)科測試) : 考法律、歷史、數(shù)學(xué)等學(xué)科知識。大模型像突然變成“百科全書”,而小模型連基礎(chǔ)題都答不對。
- TruthfulQA(真實性測試) 比如問“地球是平的嗎?”大模型能避開陷阱,誠實回答“地球是球體”,而小模型可能被錯誤問題帶偏。
為什么會有爭議?
有人質(zhì)疑:“涌現(xiàn)能力可能只是統(tǒng)計假象!”比如斯坦福研究發(fā)現(xiàn),某些評估指標(biāo)(如非線性的打分方式)會讓能力看起來是“突然出現(xiàn)”,實際上模型進(jìn)步是連續(xù)的。但無論如何,大模型表現(xiàn)出的“類人智能”確實讓研究者驚喜,也推動著技術(shù)發(fā)展。
簡而言之,涌現(xiàn)能力=大數(shù)據(jù)+大模型+意外驚喜,就像給AI喂了“知識酵母”,讓它發(fā)酵出超乎預(yù)料的本領(lǐng)。
提示工程(Prompting)
提示工程(Prompting)是指通過設(shè)計有效的輸入提示(Prompt)來引導(dǎo)大語言模型(如GPT)生成符合預(yù)期的輸出。通俗來說,就是“怎么問問題,才能讓AI更好地回答你”。
設(shè)計原則:
- 明確性("寫500字關(guān)于...")
- 上下文提供(時代/場景設(shè)定)
- 示例引導(dǎo)(few-shot learning)
- 明確性:簡單來說,就是“問得清楚”。比如,如果你想讓AI寫一篇500字的文章,直接告訴它“寫500字關(guān)于氣候變化的文章”,而不是模糊地問“寫點關(guān)于氣候變化的東西”。明確的指令能幫助AI更準(zhǔn)確地理解你的需求。
- 上下文提供: 就是“給AI一些背景信息”。比如,如果你想讓它寫一篇關(guān)于19世紀(jì)工業(yè)革命的文章,可以告訴它“假設(shè)你是19世紀(jì)的歷史學(xué)家,寫一篇關(guān)于工業(yè)革命的文章”。這樣AI就能更好地代入場景,生成更符合你期望的內(nèi)容。
- 示例引導(dǎo)(few-shot learning): 就是“給AI舉例子”。比如,如果你想讓它寫一段產(chǎn)品描述,可以先給它幾個例子:“這是一款輕便的筆記本電腦,適合商務(wù)人士?!?、“這是一款高性價比的智能手機,適合學(xué)生?!比缓笞屗鶕?jù)這些例子生成新的描述。這樣AI更容易理解你的要求。
高級技巧:
- 思維鏈(Chain-of-Thought)
- 自洽性(Self-Consistency)
簡單來說:
- 思維鏈(Chain-of-Thought): 就是“讓AI一步步思考”。比如,如果你問AI“一個商店有350個蘋果,第一天賣出40%,第二天賣出剩余的30%,還剩多少個蘋果?”,AI可能會直接給出答案。但如果你讓它“一步步思考:先算第一天賣了多少,再算第二天賣了多少,最后算剩下的”,AI會更準(zhǔn)確地解決問題。
- 自洽性(Self-Consistency): 就是“讓AI多試幾次,選最靠譜的答案”。比如,如果你讓AI解一個數(shù)學(xué)題,它可以嘗試用不同的方法(如因式分解、求根公式)來解,然后比較結(jié)果是否一致。如果幾種方法得出的答案一樣,那這個答案就更可信。
幻覺與偏見
幻覺:生成事實錯誤內(nèi)容
幻覺在心理學(xué)中指“沒有客觀刺激時的虛假知覺體驗”,如幻聽、幻視等。而在AI領(lǐng)域,幻覺表現(xiàn)為模型生成與事實不符的內(nèi)容,例如虛構(gòu)事件、錯誤數(shù)據(jù)或邏輯矛盾。
成因與影響
- 數(shù)據(jù)局限性:訓(xùn)練數(shù)據(jù)覆蓋不足或存在噪聲,導(dǎo)致模型“腦補”信息。
- 生成機制缺陷:模型過度依賴概率預(yù)測,缺乏真實世界驗證機制。
- 影響:可能誤導(dǎo)用戶決策,降低可信度(如醫(yī)療建議中的錯誤信息)。
緩解方法
- RAG(檢索增強生成):通過外部知識庫實時檢索事實數(shù)據(jù),約束生成內(nèi)容的準(zhǔn)確性。
- 事實核查與后處理:引入第三方驗證工具(如知識圖譜)或人工審核流程,修正錯誤輸出。
- 多模態(tài)輸入:結(jié)合圖像、文本等多源信息,減少單一模態(tài)的歧義。
偏見:訓(xùn)練數(shù)據(jù)偏差導(dǎo)致輸出偏頗
偏見是“基于片面或不正確信息形成的偏頗態(tài)度”。AI中的偏見表現(xiàn)為輸出隱含性別、種族、職業(yè)等刻板印象,例如將“護(hù)士”關(guān)聯(lián)為女性、“程序員”關(guān)聯(lián)為男性。
成因與影響
- 數(shù)據(jù)偏差:訓(xùn)練數(shù)據(jù)反映社會歷史偏見(如性別不平等)。
- 算法放大效應(yīng):模型可能強化數(shù)據(jù)中的少數(shù)群體負(fù)面標(biāo)簽。
- 影響:加劇社會歧視,損害公平性(如招聘算法中的性別歧視)。
緩解方法
- 數(shù)據(jù)去偏:
- 重采樣與平衡:增加少數(shù)群體數(shù)據(jù)比例(如女性工程師案例)。
- 義過濾:識別并刪除含偏見的語料(如貶義詞匯)。
- RLHF(人類反饋強化學(xué)習(xí)):
通過人工標(biāo)注修正偏頗輸出,引導(dǎo)模型學(xué)習(xí)公平表達(dá)。
公平性評估框架:
開發(fā)評估指標(biāo)(如群體平等性分?jǐn)?shù)),監(jiān)控模型輸出的偏差程度。