大模型技術(shù)基礎(chǔ)學(xué)習(xí)路線,想要學(xué)好大模型應(yīng)該具備哪些能力? 原創(chuàng)
“ 大模型技術(shù)的基礎(chǔ)學(xué)習(xí),是未來在大模型領(lǐng)域能否站穩(wěn)腳跟的關(guān)鍵”
隨著大模型技術(shù)的發(fā)展,越來越多的人開始進(jìn)入大模型領(lǐng)域,但大模型作為一門技術(shù),因此它的本質(zhì)上是一個(gè)工具,因此這也讓學(xué)習(xí)大模型有了不同的學(xué)習(xí)方向。
從工具的角度來看,學(xué)習(xí)一個(gè)工具主要有兩個(gè)方向,一個(gè)是使用工具,一個(gè)是制造工具;而今天我們主要講的是后者,也就是怎么制造一個(gè)大模型工具,它需要哪些技術(shù)基礎(chǔ)。
大模型基礎(chǔ)技術(shù)路線
下面主要從以下幾個(gè)技術(shù)基礎(chǔ)講解一下大模型的學(xué)習(xí)路線:
- 理論基礎(chǔ)?
- 編程基礎(chǔ)
- 深度學(xué)習(xí)框架
- 特定領(lǐng)域知識
- 實(shí)踐經(jīng)驗(yàn)
- 算法基礎(chǔ)
理論基礎(chǔ)
理論基礎(chǔ)是一切技術(shù)的開始,對學(xué)習(xí)一門技術(shù)來說至關(guān)重要,沒有理論就無法指導(dǎo)技術(shù)的發(fā)展方向和實(shí)現(xiàn)方法。
什么是理論?
理論其實(shí)就是一套描述和解決問題的方法論,只不過不同的技術(shù)有不同的方法,也就是理論。
理論的發(fā)展有兩種方式,一種是基于實(shí)踐檢驗(yàn)結(jié)果總結(jié)出來的經(jīng)驗(yàn);二種是以嚴(yán)謹(jǐn)?shù)目茖W(xué)理論推導(dǎo)出邏輯自洽的解決某個(gè)問題的方法。
比如說,火是人類生存和進(jìn)化的重要條件之一,而在遠(yuǎn)古時(shí)期人類對于火的認(rèn)知還比較淺顯,因此那時(shí)關(guān)于火的理論也比較基礎(chǔ),比如它可以取暖,可以烤熟食物等;這就是基于經(jīng)驗(yàn)的理論基礎(chǔ)。
而隨著科學(xué)技術(shù)的發(fā)展,人類對于火的研究更加的深入,比如火的形態(tài),火本無形,但又是流體,而這就是基于嚴(yán)謹(jǐn)?shù)目茖W(xué)研究和理論推導(dǎo)的結(jié)果。
那學(xué)習(xí)大模型需要哪些理論?
基礎(chǔ)理論有,人工智能的概念,機(jī)器學(xué)習(xí),深度學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)原理,激活函數(shù),損失函數(shù),正向傳播,反向傳播等基礎(chǔ)理論,對這些基礎(chǔ)理論等理解是非常必要的。
有了理論之后就能讓你知道大模型能干啥,以及怎么干。
編程基礎(chǔ)
編程基礎(chǔ)就不用多說了,所有的計(jì)算機(jī)軟件都是基于編程技術(shù)開發(fā)的,大模型也不例外。
但需要說的是,大模型開發(fā)主要使用的是Python作為其主流的開發(fā)語言,當(dāng)然并不是說開發(fā)大模型必須用python,用其它語言也可以,畢竟語言只是工具,算法才是核心;而算法是脫離計(jì)算機(jī)語言獨(dú)立存在的。
還有就是,大模型本身是主要基于Python開發(fā)的,但基于大模型構(gòu)建上層應(yīng)用可以使用其它工程性語言,比如Java,Go,Rust等,當(dāng)然也可以使用Python。
大模型作為一個(gè)服務(wù),一般由Python開發(fā),然后封裝成對外接口,然后使用其它開發(fā)語言調(diào)用構(gòu)建上層應(yīng)用。
深度學(xué)習(xí)框架
什么是框架?
框架就類似于模具,大模型是一個(gè)非常復(fù)雜的系統(tǒng)性工程,從0開始構(gòu)建難度非常大,因此就有了一些開源框架來處理一些基礎(chǔ)性工作和一些常用的工具。
比如說數(shù)據(jù)處理,在大模型技術(shù)中數(shù)據(jù)處理是非常重要的一環(huán),但面對復(fù)雜的數(shù)據(jù)種類以及數(shù)據(jù)格式,如果全部自己手動(dòng)處理將是一個(gè)巨大的工程量;因此為了提高開發(fā)效率,排除這些外在干擾,讓技術(shù)人員把心思放在大模型的核心節(jié)點(diǎn)上,框架就出現(xiàn)了。
還有就是,這些深度學(xué)習(xí)框架一般會(huì)內(nèi)置一些經(jīng)典架構(gòu)的實(shí)現(xiàn),比如Transformer架構(gòu),和一些常見的神經(jīng)網(wǎng)絡(luò)模型,比如CNN和RNN,這樣對一些初學(xué)者就可以直接使用這些工具構(gòu)建屬于自己的大模型。
常見的深度學(xué)習(xí)框架,如PyTorch,Tensorflow等。
特定領(lǐng)域的知識
大模型是一個(gè)非?;\統(tǒng)的技術(shù),但細(xì)分下去又有多種不同的方向,比如說自然語言處理,計(jì)算機(jī)視覺等。
畢竟大模型也是用來解決問題的,如果大模型沒有具體的落腳點(diǎn),那么它就成為了一個(gè)純理論性質(zhì)的研究,這樣它就失去了應(yīng)有的價(jià)值。
而不論是自然語言處理,還是計(jì)算機(jī)視覺都是獨(dú)立的應(yīng)用領(lǐng)域,它們和大模型的關(guān)系就是大模型可以作為其研究的一個(gè)方法或手段,沒有大模型也可以研究自然語言處理和計(jì)算機(jī)視覺;但自然語言處理和計(jì)算機(jī)視覺可以利用大模型進(jìn)行更加高效的研究。
因此,如果只是單純的學(xué)習(xí)大模型技術(shù),不與這些具體的應(yīng)用領(lǐng)域相結(jié)合,那么學(xué)習(xí)大模型技術(shù)就失去了應(yīng)有的意義。
而用大模型去研究這些應(yīng)用領(lǐng)域,或者說用大模型作為解決這些領(lǐng)域的一個(gè)方法,那么就需要有對應(yīng)領(lǐng)域的基礎(chǔ)知識,只有大模型本身的技術(shù)是遠(yuǎn)遠(yuǎn)不夠的。
自然語言處理所涉及的知識有語言分析,語義分析,分詞,自然語言理解,自然語言生成等。
實(shí)踐經(jīng)驗(yàn)
實(shí)踐 實(shí)踐 再實(shí)踐,重要的事情說三遍?。?!
大模型技術(shù)是一項(xiàng)實(shí)操性很強(qiáng)的技術(shù),或者說任何技術(shù)都離不開實(shí)操,純粹的理論研究終究只是空中樓閣。
從學(xué)習(xí)方法的角度來說,理論應(yīng)該與實(shí)踐相結(jié)合,很多人在學(xué)習(xí)理論的過程中總喜歡打破砂鍋問到底,鉆進(jìn)理論中出不來。
當(dāng)然,并不是說打破砂鍋問到底不好,作為技術(shù)研究人員有必須要有打破砂鍋問到底的決心。
但是,理論一方面是由嚴(yán)謹(jǐn)?shù)目茖W(xué)邏輯推導(dǎo)出來的,還一部分是根據(jù)實(shí)踐總結(jié)和調(diào)整的;單純的研究理論很難讓你真正理解技術(shù)的本質(zhì)。這也是為什么有些問題在學(xué)習(xí)的時(shí)候怎么都想不明白,但等真正去實(shí)操的時(shí)候突然之間就豁然開朗。
最好的學(xué)習(xí)方式就是,在了解一些理論的基本概念之后,就上手找個(gè)大模型進(jìn)行實(shí)操;然后用實(shí)操去驗(yàn)證理論,這樣才能明白別人為什么會(huì)這樣設(shè)計(jì),為什么可以這樣做,不可以那樣做。
鉆進(jìn)理論出不來,并且不肯動(dòng)手實(shí)踐的人,就是那種經(jīng)常鉆牛角尖的,理論一套一套的,但啥都干不好;而且最重要的是,這種鉆牛角尖的方式往往會(huì)事半功倍,導(dǎo)致半途而廢。
算法基礎(chǔ)
算法的重要性就不用多說了,任何和計(jì)算機(jī)有關(guān)的東西都離不開算法,如果說硬件是計(jì)算機(jī)的身體,那么算法就是計(jì)算機(jī)的靈魂。
大模型可以說是算法的集大成者,因?yàn)榇竽P褪腔趪?yán)謹(jǐn)?shù)臄?shù)學(xué)理論推導(dǎo)的,而算法是數(shù)學(xué)在計(jì)算機(jī)中的載體,離開了算法大模型將不復(fù)存在。
以上就是一些學(xué)習(xí)大模型技術(shù)所需要的基礎(chǔ),但并不是全部;大模型技術(shù)是人工智能技術(shù)的一種實(shí)現(xiàn)方式,而人工智能技術(shù)是一個(gè)多學(xué)科交叉的科學(xué),涉及到數(shù)學(xué),社會(huì)學(xué),哲學(xué),計(jì)算機(jī)科學(xué),工程學(xué),控制論等等,甚至包括文學(xué)與藝術(shù)。
因此,要想學(xué)好大模型,技術(shù)只是最基礎(chǔ)的東西。萬丈高樓平地起,全靠有個(gè)好地基。
本文轉(zhuǎn)載自公眾號AI探索時(shí)代 作者:DFires
