自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

怎么學(xué)習(xí)設(shè)計(jì)和訓(xùn)練一個(gè)大模型——也就是神經(jīng)網(wǎng)絡(luò)? 原創(chuàng)

發(fā)布于 2025-1-15 15:43
瀏覽
0收藏

“ 學(xué)習(xí)一門技術(shù),先找一套工具和理論研究下去;千萬(wàn)不要反復(fù)橫跳,什么都想學(xué) ”

大模型作為未來(lái)重要的發(fā)展方向,很多人想學(xué)習(xí)大模型技術(shù),但又苦于無(wú)從下手;而本公眾號(hào)前前后后也寫過(guò)一些怎么學(xué)習(xí)大模型技術(shù)的方法論;但大部分都是從應(yīng)用的角度作為切入點(diǎn)。

但是,有一個(gè)問題就是,如果你是一個(gè)技術(shù)從業(yè)者,想學(xué)習(xí)和設(shè)計(jì)一款屬于自己的大模型,應(yīng)該怎么做?

設(shè)計(jì)一個(gè)自己的大模型

大模型作為一門快速發(fā)展的新型技術(shù),其理論與實(shí)現(xiàn)也是日新月異;因此,對(duì)我們大部分人來(lái)說(shuō)很難緊跟大模型的發(fā)展趨勢(shì),因此我們需要做的是先從一個(gè)技術(shù)點(diǎn)作為切入。

而最好的方向就是選擇一個(gè)合適的工具,框架或者理論;比如說(shuō)PyTorch和Transformer架構(gòu)。

怎么學(xué)習(xí)設(shè)計(jì)和訓(xùn)練一個(gè)大模型——也就是神經(jīng)網(wǎng)絡(luò)?-AI.x社區(qū)

PyTorch是一種可以實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的開發(fā)框架,而Transformer是實(shí)現(xiàn)一種NLP自然語(yǔ)言處理的神經(jīng)網(wǎng)絡(luò)模型的理論;雖然業(yè)內(nèi)還有其它多種理論和框架,但對(duì)我們這些初學(xué)者來(lái)說(shuō),我們需要的是先學(xué)習(xí)和研究其中的一種理論框架。而不是貪多嚼不爛,這個(gè)也想學(xué),那個(gè)也想會(huì)。

所以,從個(gè)人的角度來(lái)說(shuō),后續(xù)學(xué)習(xí)大模型技術(shù)主要就以PyTorch開發(fā)框架和Transformer理論架構(gòu)為主。畢竟雖然框架和理論不盡相同,但其核心思想還是相似的,因此在理解一種理論和框架的基礎(chǔ)之上,就可以做到一法通到萬(wàn)法通。

怎么學(xué)習(xí)設(shè)計(jì)和訓(xùn)練一個(gè)大模型——也就是神經(jīng)網(wǎng)絡(luò)?-AI.x社區(qū)

PyTorch作為一個(gè)神經(jīng)網(wǎng)絡(luò)開發(fā)框架,其實(shí)現(xiàn)了目前常見的大部分神經(jīng)網(wǎng)絡(luò)模型算法,如嵌入,損失計(jì)算,反向傳播,優(yōu)化函數(shù),矩陣運(yùn)算等等。其不但包含了自然語(yǔ)言處理,同時(shí)還包含了圖像處理,視頻處理等功能。

而Transformer理論,也可以被可以被稱為算法;則詳細(xì)解釋了為什么文本數(shù)據(jù)經(jīng)過(guò)一系列的編碼器和解碼器處理,就可以得到提取數(shù)據(jù)的基本特征,并且可以生成新的我們需要的數(shù)據(jù)——也就是特征重建的過(guò)程。

在編碼器和解碼器中,通過(guò)實(shí)現(xiàn)(自)注意力機(jī)制,前饋神經(jīng)網(wǎng)絡(luò)等一系列的網(wǎng)絡(luò)層;本質(zhì)上就是一系列的矩陣運(yùn)算,來(lái)實(shí)現(xiàn)上面的特征提取功能;而這些都可以使用PyTorch科學(xué)計(jì)算框架來(lái)實(shí)現(xiàn)。

所以總之就是,PyTorch解決的是怎么計(jì)算的問題,而Transformer解決的是為什么這么計(jì)算的問題。

怎么學(xué)習(xí)設(shè)計(jì)和訓(xùn)練一個(gè)大模型——也就是神經(jīng)網(wǎng)絡(luò)?-AI.x社區(qū)

當(dāng)然,除了PyTorch開發(fā)框架和Transformer架構(gòu)之外;同時(shí)還有谷歌公司開發(fā)的Tensorflow框架,以及CNN——卷積神經(jīng)網(wǎng)絡(luò)和RNN——循環(huán)神經(jīng)網(wǎng)絡(luò),以及LSTM——長(zhǎng)短期記憶網(wǎng)絡(luò)等變種神經(jīng)網(wǎng)絡(luò)架構(gòu)模型。

因此,每個(gè)對(duì)神經(jīng)網(wǎng)絡(luò)技術(shù)感興趣的愛好者,都可以選擇其中的一種或多種框架和網(wǎng)絡(luò)模型來(lái)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)原理以及搭建一個(gè)自己的神經(jīng)網(wǎng)絡(luò)模型。

不過(guò)還是那個(gè)建議,對(duì)新學(xué)者來(lái)說(shuō),還是先不要好高騖遠(yuǎn);先選擇一個(gè)簡(jiǎn)單易學(xué)的框架來(lái)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn),而不是什么都想學(xué),什么都想會(huì)。等你能自己搭建一個(gè)神經(jīng)網(wǎng)絡(luò)的時(shí)候,你自然就知道神經(jīng)網(wǎng)絡(luò)到底解決了哪些問題,以及是怎么解決這些問題的;以及不同神經(jīng)網(wǎng)絡(luò)之間的區(qū)別和優(yōu)缺點(diǎn)是什么。


本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/XjI3CoBvXoP9jikxqsOZzg??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦