自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型系列:一文帶你梳理Large Language Model發(fā)展歷程

發(fā)布于 2025-3-14 00:04
瀏覽
0收藏

在這個系列文章中,我會用通俗的語言,為大家介紹學習大模型的核心知識點。讀完這個系列的文章,你會深入理解語言大模型、多模態(tài)大模型的核心技術點,包括模型結構、訓練方式、數據處理、多模態(tài)融合等。

大模型的前身是語言模型,圓圓是很早就開始在工業(yè)界研究和應用語言模型的一批人,因此對整個深度學習時代語言模型的發(fā)展歷程都有見證。當時還沒有Transformer、BERT,只有LSTM、Attention這種結構。工業(yè)界效果最好、應用最穩(wěn)定的語言模型,還是基于n-gram的統(tǒng)計版語言模型。

后來,隨著Transformer和BERT的相繼出現,基于深度學習的語言模型才開始取得主導型的效果和地位。隨后的三四年,BERT這種判別式的模型一直是工業(yè)界的主流,模型的尺寸和訓練數據量也不斷增大。直到ChatGPT的出現,開啟了真正的生成式大語言模型時代,直到近期的DeepSeek。過程中,也伴隨著多模態(tài)方向的研究。

在第一節(jié)中,會重點給大家梳理一下從n-gram到DeepSeek,整個大模型的發(fā)展歷史。針對每個演進版本語言模型的詳細介紹,將在后續(xù)章節(jié)逐一介紹。

1.N-gram統(tǒng)計語言模型

N-gram是語言模型最基礎的建模方法,也是深度學習之前主要的語言模型建模方法。N-gram的核心思路是,根據大量的語料,統(tǒng)計出前面n-1個詞已知的情況下,第n個詞的概率。比如最基礎的2-gram,統(tǒng)計連續(xù)2個單詞出現的概率,當根據前序單詞預測下一個單詞時,之前出現次數頻率最高的就是更加合理。

N-gram這種統(tǒng)計模型的問題在于,N太大時數據很稀疏,N太小能考慮的上下文信息就比較少,雖然有一些平滑方法能夠提升N-gram在稀疏數據下的表現,但是上限仍然比較低。

大模型系列:一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

2.詞向量

詞向量是機器學習時代的NLP領域常見方法,也是后續(xù)深度學習語言模型的基礎。通過將每個單詞映射成一個向量,向量之間的距離能夠反應2個詞語義的相似度,實現相比n-gram更具泛化性的文本表征方法。

詞向量的本質思路是,一個詞的含義,可以由其上下文出現的其他詞表示。統(tǒng)計大量語料中,詞之間的共現關系。兩個詞的上下文越相似,這兩個詞的語義就越相似。這個統(tǒng)計過程,使用神經網絡在大量的文本語料上自動學習,實現了表征的泛化性。Skip-gram、CBOW、Glove等都是最常用的詞向量模型。

大模型系列:一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

3.LSTM/Attention深度語言模型

隨著深度學習的發(fā)展,LSTM網絡、Attention結構等被用來構建深度學習的語言模型。語言是序列形式的,天然適合LSTM這種序列建模模型。在統(tǒng)計n-gram時,前序單詞決定下一個單詞,LSTM就具備這種建模能力。所以一個最基礎的基于LSTM的語言模型,就是對于每段文本輸入到一個LSTM網絡中,讓其預測下一個單詞,通過這種訓練方式實現對任務長度gram的。這種基于LSTM的語言模型也經過了多個階段的發(fā)展,最后發(fā)展到2018年的ELMo,通過兩組單向LSTM融合的方式提取兩側的上下文信息。

大模型系列:一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

此外,Attention也經常用來和LSTM相結合,彌補LSTM在長周期建模中的不足。例如在機器翻譯中,使用LSTM和Attention相結合,快速獲取歷史長文本中和當前待預測位置相關的部分。

4.Transformer:GPT和BERT

Transformer的出現,以及其衍生出來的GPT和BERT,開啟了深度學習語言模型的新時代,也是大模型的基礎。Transformer結構至今仍然是各個開源大模型的基礎模型結構。它完全基于Attention結構進行一段文本中單詞之間的關系計算。

大模型系列:一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

根據建模方式的差異,又分為以BERT為代表的判別式模型和以GPT為代表的生成式模型。BERT這種判別式,只有一個Encoder,Mask掉部分token用上下文其他token還原。GPT這種生成式模型,則仍然采用n-grapm的形式,根據前面token生成下一個token。

在最開始的幾年中,BERT一直是工業(yè)界主要使用的方法,而GPT因為其相對復雜的生成式過程,應用較少。當然,后續(xù)ChatGPT等的出現,證明GPT才是更適合作為人機接口的語言模型建模形式,是BERT等判別式模型無法替代的。

BERT和GPT分別有一系列的改進工作。和BERT相關的,包括ALBERT、RoBERTa、DeBERTa等各種從性能角度、效果角度的優(yōu)化,也包括ELECTRA等引入外部知識庫的優(yōu)化。GPT相關的改進則相對較少(當時BERT更火,主流都在研究如何優(yōu)化BERT),主要還是GPT后的GPT2、GPT3等。

5.大模型時代:ChatGPT

ChatGPT的出現開啟了大模型的時代。其前序工作包括GPT1、GPT2、GPT3、InstructGPT等。GPT1的核心是無監(jiān)督語言模型預訓練;GPT2的核心是更多的訓練數據、更大的模型尺寸;GPT3的核心是prompt和in-context learning,挖掘語言模型的理解能力;InstructGPT的核心是如何讓GPT生成的回答更符合人類的需求,核心是引入了強化學習機制,基于強化學習的思想去優(yōu)化無監(jiān)督預訓練模型產出的文本,讓其更符合人類的需求。

大模型系列:一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

ChatGPT的數據處理方法、模型結構和強化學習方法,是LLM最核心的組件。在模型結構方面,后續(xù)出現的LLaMA,則是現在包括DeepSeek等大模型的基礎模型結構。

6.DeepSeek/千問

在ChatGPT后,各大機構都開始研究LLM,提出了一系列的LLM建模方式、應用方式。在這個過程中,LLM的應用越來越廣泛,到目前為止很多人都已經開始使用LLM。這里重點介紹兩個國內比較有代表性的,目前最先進的LLM。一個是DeepSeek,一個是阿里的通義千問。它們基于前序的LLM成功經驗,對模型結構、訓練流程、性能優(yōu)化等做了大量改造,逐步提升了LLM性能。比如DeepSeek,目前的應用版本,經歷了V1~V3,再到R1的升級,引入了包括MoE、深度思維鏈樣本強化學習等,逐步提升LLM性能。

在后續(xù)的章節(jié)中,會進一步展開詳細介紹LLM的上述發(fā)展過程中,各個階段的代表性工作、技術原理等的深度解析。

大模型系列:一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

本文轉載自 ??圓圓的算法筆記??,作者: Fareise

已于2025-3-14 00:04:17修改
收藏
回復
舉報
回復
相關推薦