《Python 機(jī)器學(xué)習(xí)》作者新作:從頭開始構(gòu)建大型語言模型,代碼已開源
自 ChatGPT 發(fā)布以來,大型語言模型(LLM)已經(jīng)成為推動人工智能發(fā)展的關(guān)鍵技術(shù)。
近期,機(jī)器學(xué)習(xí)和 AI 研究員、暢銷書《Python 機(jī)器學(xué)習(xí)》作者 Sebastian Raschka 又寫了一本新書 ——《Build a Large Language Model (From Scratch)》,旨在講解從頭開始構(gòu)建大型語言模型的整個過程,包括如何創(chuàng)建、訓(xùn)練和調(diào)整大型語言模型。
最近,Sebastian Raschka 在 GitHub 上開源了這本新書對應(yīng)的代碼庫。
項(xiàng)目地址:https://github.com/rasbt/LLMs-from-scratch/tree/main?tab=readme-ov-file
對 LLM 來說,指令微調(diào)能夠有效提升模型性能,因此各種指令微調(diào)方法陸續(xù)被提出。Sebastian Raschka 發(fā)推重點(diǎn)介紹了項(xiàng)目中關(guān)于指令微調(diào)的部分,其中講解了:
- 如何將數(shù)據(jù)格式化為 1100 指令 - 響應(yīng)對;
- 如何應(yīng)用 prompt-style 模板;
- 如何使用掩碼。
《Build a Large Language Model (From Scratch)》用清晰的文字、圖表和示例解釋每個階段,從最初的設(shè)計(jì)和創(chuàng)建,到采用通用語料庫進(jìn)行預(yù)訓(xùn)練,一直到針對特定任務(wù)進(jìn)行微調(diào)。
具體來說,新書和項(xiàng)目講解了如何:
- 規(guī)劃和編碼 LLM 的所有部分;
- 準(zhǔn)備適合 LLM 訓(xùn)練的數(shù)據(jù)集;
- 使用自己的數(shù)據(jù)微調(diào) LLM;
- 應(yīng)用指令調(diào)整方法來確保 LLM 遵循指令;
- 將預(yù)訓(xùn)練權(quán)重加載到 LLM 中。
作者介紹
個人主頁:https://sebastianraschka.com/
Sebastian Raschka 是一名機(jī)器學(xué)習(xí)和人工智能研究員,曾在威斯康星大學(xué)麥迪遜分校擔(dān)任統(tǒng)計(jì)學(xué)助理教授,專門研究深度學(xué)習(xí)和機(jī)器學(xué)習(xí)。他讓關(guān)于 AI 和深度學(xué)習(xí)相關(guān)的內(nèi)容更加容易獲得,并教人們?nèi)绾未笠?guī)模利用這些技術(shù)。
此外,Sebastian 熱衷于開源軟件,十多年來一直是一個充滿熱情的開源貢獻(xiàn)者。他提出的方法現(xiàn)已成功應(yīng)用于 Kaggle 等機(jī)器學(xué)習(xí)競賽。
除了編寫代碼,Sebastian 還喜歡寫作,并撰寫了暢銷書《Python Machine Learning》(《Python 機(jī)器學(xué)習(xí)》)和《Machine Learning with PyTorch and ScikitLearn》。