自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="yexvb"></style>

<cite id="yexvb"></cite>

<legend id="yexvb"></legend>

<sub id="yexvb"><p id="yexvb"></p></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+ 精華

發(fā)布于 2024-5-21 09:23

瀏覽

0收藏

讓大神Andrej Karpathy一鍵三連??（點(diǎn)贊+轉(zhuǎn)發(fā)+評(píng)論），一個(gè)教你從頭開始實(shí)現(xiàn)Llama3的代碼庫爆火。

X上轉(zhuǎn)贊收藏量超6.8k，GitHub攬星2k+。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

火就火在，它教你從頭用Meta開源的權(quán)重進(jìn)行推理，詳細(xì)解釋和展開了注意力機(jī)制中多個(gè)頭的矩陣乘法、位置編碼以及所有中間層。

換句話說，他解釋了每行代碼都在干啥。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

Karpathy看后直呼打造者Nishant Aklecha（后文暫稱“納哥”）是個(gè)有品的人：

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

完全展開后，比起模塊相互嵌套和調(diào)用時(shí)，更容易理解每一步具體在做什么。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

網(wǎng)友們對(duì)其也是贊不絕口，紛紛致敬：

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

話不多說，一起來看納哥是如何手把手教的。

（量子位在不改變?cè)獾幕A(chǔ)上，進(jìn)行了編譯整理）

從頭實(shí)現(xiàn)llama3

在運(yùn)行納哥提供的文件前，大伙兒需要預(yù)先下載Meta官方提供的Llama3模型權(quán)重。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

納哥表示自己沒搞分詞器，推薦用Karpathy的現(xiàn)成簡(jiǎn)潔版BPE代碼。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

PS：

“字節(jié)級(jí)（byte-level）”BPE算法，在UTF-8編碼的字符串上運(yùn)行，廣泛應(yīng)用于大模型分詞。Karpathy提供的這個(gè)代碼庫包含兩個(gè)分詞器，都能在給定文本上訓(xùn)練分詞器的詞匯表和合并規(guī)則、將文本編碼為token、將token解碼為文本。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

讀取模型文件的方式通常取決于model classes的編寫方式以及class中變量的命名。但由于納哥是從頭開始實(shí)現(xiàn)Llama3，所以將逐個(gè)張量地讀取文件內(nèi)容。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

通過此配置可以推斷出模型的結(jié)構(gòu)和參數(shù)信息，例如模型包含的Transformer層數(shù)、多頭注意力塊中的頭數(shù)，以及詞匯表的大小等細(xì)節(jié)。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

將文本轉(zhuǎn)換為token時(shí)，納哥使用tiktoken作為分詞器。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

接下來，納哥展示了在代碼中將token轉(zhuǎn)換為高維的嵌入表示。這是代碼庫中唯一使用內(nèi)置神經(jīng)網(wǎng)絡(luò)模塊的部分。

[17x1]的token矩陣變成了[17x4096]的嵌入矩陣。也就是說，每個(gè)token被轉(zhuǎn)換為一個(gè)長(zhǎng)度為4096的嵌入向量，總共有17個(gè)這樣的嵌入向量。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

然后，納哥對(duì)嵌入進(jìn)行RMS歸一化。經(jīng)過這一步后，嵌入的形狀不會(huì)改變，只有數(shù)值被歸一化了。納哥強(qiáng)調(diào)需要一個(gè)norm_eps，避免意外將RMS值設(shè)為0導(dǎo)致除以0的錯(cuò)誤。

以下是公式：

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

構(gòu)建Transformer的第一層，進(jìn)行歸一化處理，從模型字典中訪問layer.0（即第一層）。歸一化之后，張量的形狀仍然是[17x4096]，與嵌入時(shí)相同，但數(shù)值已被歸一化。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

跟著納哥從頭實(shí)現(xiàn)注意力機(jī)制，加載Transformer第一層的注意力頭。

從模型中加載query、key、value和output向量時(shí)，它們的形狀分別是 [4096x4096]、[1024x4096]、[1024x4096] 和 [4096x4096]。

納哥表示乍一看有點(diǎn)奇怪，因?yàn)槔硐肭闆r是每個(gè)注意力頭的q、k、v和o向量是獨(dú)立的。而代碼作者將它們捆綁在一起，是為了方便并行計(jì)算注意力頭的矩陣乘法。

把所有這些向量解包開來：

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

下一步，納哥將從多個(gè)注意力頭中解包query，解包后的形狀是[32x128x4096]，32是Llama3中的注意力頭數(shù)量，128是query向量的大小，4096是token嵌入的大小。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

在這里，納哥訪問了第一層第一個(gè)注意力頭的query權(quán)重矩陣，query權(quán)重矩陣的大小是[128x4096]。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

將query權(quán)重矩陣與token嵌入相乘，獲得每個(gè)token的query向量。結(jié)果的形狀為[17x128]，有17個(gè)token，每個(gè)token對(duì)應(yīng)一個(gè)長(zhǎng)度為128的query向量。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

接下來需要位置編碼。

現(xiàn)在已經(jīng)為prompt中的每個(gè)token生成了query向量，但每個(gè)單獨(dú)的query向量并不知道它在prompt中的具體位置。

例如，query：“the answer to the ultimate question of life, the universe, and everything is ”（生命、宇宙和一切的終極問題的答案是）。

在這個(gè)prompt中，使用了三次”the”，需要根據(jù)它們?cè)趐rompt中的位置，使這三個(gè)”the”token的query向量有所不同（每個(gè)向量的大小為[1x128]）。

通過使用RoPE（旋轉(zhuǎn)位置嵌入）來進(jìn)行這些旋轉(zhuǎn)操作。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

上一步中，納哥將query向量分成對(duì)，并對(duì)每一對(duì)應(yīng)用一個(gè)旋轉(zhuǎn)角度偏移。

由此，得到的向量大小為 [17x64x2]，這是將長(zhǎng)度為128的query向量對(duì)每個(gè)prompt中的token分成64對(duì)。這64對(duì)中的每一對(duì)都會(huì)根據(jù)m*(theta) 進(jìn)行旋轉(zhuǎn)，其中m是要旋轉(zhuǎn)query的token的位置。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

使用復(fù)數(shù)的點(diǎn)積來旋轉(zhuǎn)一個(gè)向量：

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

現(xiàn)在每個(gè)token的query元素都有一個(gè)復(fù)數(shù)（角度變化向量），可以將query向量（之前分成的對(duì)）轉(zhuǎn)換為復(fù)數(shù)，然后通過點(diǎn)積根據(jù)位置旋轉(zhuǎn)query向量。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

獲得旋轉(zhuǎn)后的向量后，可以通過將復(fù)數(shù)重新視為實(shí)數(shù)來得到成對(duì)的query向量。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

旋轉(zhuǎn)后的對(duì)現(xiàn)在已經(jīng)合并，有一個(gè)新的query向量（旋轉(zhuǎn)后的query向量），其形狀為[17x128]，其中17是token的數(shù)量，128是query向量的維度。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

key與query幾乎相同。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

納哥表示自己不會(huì)詳細(xì)講解key的數(shù)學(xué)原理，只需要記住以下幾點(diǎn)：

key生成的key向量維度也是128；key的權(quán)重只有query的四分之一，這是因?yàn)閗ey的權(quán)重在同一時(shí)間內(nèi)被4個(gè)頭共享，來減少計(jì)算量；key也會(huì)旋轉(zhuǎn)添加位置信息，原因與query相同。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

此時(shí)，納哥已經(jīng)為每個(gè)token獲得了旋轉(zhuǎn)后的query和key。每個(gè)query和key現(xiàn)在的形狀都是[17x128]。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

下一步，納哥將對(duì)query矩陣和key矩陣進(jìn)行相乘操作。這樣做會(huì)生成一個(gè)評(píng)分矩陣，將每個(gè)token關(guān)聯(lián)起來。這些評(píng)分描述了每個(gè)token的query與每個(gè)token的key之間的相關(guān)性，這就是自注意力機(jī)制。

注意力評(píng)分矩陣（qk_per_token）的形狀為[17x17]，其中17是prompt中的token數(shù)量。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

接下來需要對(duì)query key評(píng)分進(jìn)行掩碼處理。在Llama3的訓(xùn)練過程中，未來token的qk評(píng)分是被掩碼的，只通過過去的token來預(yù)測(cè)token。

因此，在推理時(shí)，要將未來的token評(píng)分設(shè)置為0。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

接下來是value，接近注意力機(jī)制的最后一步。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

這些評(píng)分（0-1）用于確定每個(gè)token使用多少value矩陣。

和key一樣，value的權(quán)重也在每4個(gè)注意力頭之間共享，所以下面value權(quán)重矩陣的形狀是[8x128x4096]。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

第一層，第一個(gè)注意力頭的value權(quán)重矩陣如下所示：

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

然后是value向量。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

使用value權(quán)重來獲取每個(gè)token的注意力值，矩陣的大小是[17x128]，其中17是prompt中的token數(shù)量，128是每個(gè)token的value向量的維度。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

注意力：與每個(gè)token的value相乘后得到的注意力向量的形狀為[17x128]。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

現(xiàn)在有了第一層第一個(gè)頭的注意力value。然后納哥運(yùn)行一個(gè)循環(huán)，對(duì)第一層的每個(gè)頭執(zhí)行與上面的計(jì)算完全相同的數(shù)學(xué)運(yùn)算。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

然后得到了第一層所有32個(gè)頭的qkv_attention矩陣，接下來將所有注意力得分合并成一個(gè)大小為[17x4096]的大矩陣。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

對(duì)于第0層注意力機(jī)制的最后步驟，其一是將注意力得分矩陣與權(quán)重矩陣相乘。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

這是一個(gè)簡(jiǎn)單的線性層，所以只需進(jìn)行矩陣乘法。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

現(xiàn)在得到了注意力機(jī)制后的嵌入value變化，應(yīng)該被添加到原始的token嵌入中。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

對(duì)嵌入增量進(jìn)行歸一化處理，然后通過嵌入增量運(yùn)行一個(gè)前饋神經(jīng)網(wǎng)絡(luò)。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

在Llama3中，加載前饋權(quán)重并實(shí)現(xiàn)前饋網(wǎng)絡(luò)。使用了一種名為SwiGLU的前饋網(wǎng)絡(luò)，這種網(wǎng)絡(luò)結(jié)構(gòu)在模型需要的時(shí)候，能夠有效地增加非線性。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

現(xiàn)在完成了第一層之后每個(gè)token的新嵌入。現(xiàn)在只剩下31層了，只需通過一個(gè)循環(huán)來完成。

納哥表示可以將這個(gè)編輯后的嵌入想象成包含了第一層中所有查詢信息的嵌入。隨著層數(shù)的增加，每一層都會(huì)對(duì)輸入的信息進(jìn)行越來越復(fù)雜的處理，直到最終得到一個(gè)能夠全面了解下一個(gè)需要預(yù)測(cè)的token的嵌入。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

之前做的所有事情，對(duì)每一層都重復(fù)一次。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

然后得到了最終的嵌入，這是模型對(duì)下一個(gè)token的最優(yōu)預(yù)測(cè)。這個(gè)嵌入的形狀與常規(guī)的token嵌入相同，為[17x4096]，其中17是token的數(shù)量，4096是嵌入的維度。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

最后，將嵌入解碼成token值。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

使用輸出解碼器將最終的嵌入轉(zhuǎn)換成一個(gè)token。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

接下來看納哥使用最后一個(gè)token的嵌入來預(yù)測(cè)下一個(gè)value，希望預(yù)測(cè)的結(jié)果是42。

因?yàn)楦鶕?jù)《銀河系漫游指南》一書中的說法，42是“生命、宇宙及一切的終極問題的答案”。大多數(shù)LLM在這里都會(huì)回答42，這將驗(yàn)證整個(gè)代碼的正確性。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

模型預(yù)測(cè)下一個(gè)token的編號(hào)為2983。這個(gè)編號(hào)對(duì)應(yīng)數(shù)字42嗎？

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

OK，結(jié)束。

“讓研究變得更加觸手可及”

簡(jiǎn)單介紹一下Nishant Aklecha。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

Nishant Aklecha是構(gòu)建和改進(jìn)定制語言模型平臺(tái)Glaive AI的研究員，曾任職于摩根士丹利，負(fù)責(zé)訓(xùn)練和微調(diào)大語言模型。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

此外，他還和朋友一同創(chuàng)立了一個(gè)研究實(shí)驗(yàn)室，名為A10（AAAAAAAAAA）。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

他們的目標(biāo)可以總結(jié)成一句話：讓研究變得更加觸手可及。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

除了放出這個(gè)代碼庫，Nishant Aklecha可謂好人做到底。

網(wǎng)友想更好地理解這個(gè)代碼庫的內(nèi)容，Nishant直接一個(gè)YouTube視頻甩了過來：

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

之前Nishant Aklecha還曾寫過一篇Blog，詳解了潛在一致性模型（LCM），同樣收獲了不少好評(píng)。

從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+-AI.x社區(qū)

啥也不說了，感興趣的家人們趕緊碼住吧。

GitHub鏈接：https://github.com/naklecha/llama3-from-scratch

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/z2lvKwZYSzi_35YOeVWWjw??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

如何在淘寶人生2一鍵定制你的專屬3D數(shù)字人

pangguiyu ? 4796瀏覽 ? 0回復(fù)
今日arXiv最熱NLP大模型論文：Github萬星！北航發(fā)布零代碼大模型微調(diào)平臺(tái)LlamaFactory

pangguiyu ? 4166瀏覽 ? 0回復(fù)
用Replicate一鍵部署

開發(fā)者阿橙 ? 4435瀏覽 ? 0回復(fù)
1000行C語言搓出GPT-2！AI大神Karpathy新項(xiàng)目剛上線就狂攬2.5k星

duhorse ? 2763瀏覽 ? 0回復(fù)
Llama3實(shí)操增強(qiáng)的三種方式：RAG/Agent/Function Calling?。?！

玄姐聊AGI ? 5122瀏覽 ? 0回復(fù)
Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練

Crystalcxt ? 2679瀏覽 ? 0回復(fù)
一大堆Chinese Llama3正在襲來

NLP工作站 ? 2511瀏覽 ? 0回復(fù)
ControlNet作者又出爆款！一張圖生成繪畫全過程，兩天狂攬1.4k Star

輕薄滴假象 ? 2706瀏覽 ? 0回復(fù)
快手可靈團(tuán)隊(duì)最新開源項(xiàng)目火了：大叔實(shí)時(shí)變身少女，GitHub狂攬7.5K星

Crystalcxt ? 2531瀏覽 ? 0回復(fù)
3分鐘零代碼打造自己的量化選股機(jī)器人

開發(fā)者阿橙 ? 6099瀏覽 ? 0回復(fù)
「分割一切」進(jìn)化2.0！一鍵跟蹤運(yùn)動(dòng)物體，代碼權(quán)重?cái)?shù)據(jù)全開源

angel ? 2045瀏覽 ? 0回復(fù)
最大可生成面數(shù)提升至1600，GitHub攬星1.9k項(xiàng)目發(fā)布V2版本

Crystalcxt ? 2150瀏覽 ? 0回復(fù)
爆改二郎神，送自家狗子一鍵「成精」

duhorse ? 2118瀏覽 ? 0回復(fù)
將代碼庫或網(wǎng)站一鍵轉(zhuǎn)成單個(gè)文件供給LLM，這些項(xiàng)目你應(yīng)該知道！

Syrupup ? 2264瀏覽 ? 0回復(fù)
放棄折騰，AutoRAG一鍵鎖定最佳RAG技術(shù)棧！

PaperAgent ? 2439瀏覽 ? 0回復(fù)
HuggingFace模型轉(zhuǎn)一鍵llamafile包完整教程，通義千問成功案例分享

凝固的雨_1 ? 3352瀏覽 ? 0回復(fù)
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動(dòng)了全球 AI 圈

玄姐聊AGI ? 6527瀏覽 ? 1回復(fù)
3D動(dòng)畫革命！北航團(tuán)隊(duì)破解交互難題，一鍵生成影視級(jí)打斗場(chǎng)面

穿越時(shí)空111 ? 1240瀏覽 ? 0回復(fù)
爆火 | API 終將淘汰，MCP+LLM+向量數(shù)據(jù)庫才是 Agent 開發(fā)新范式

玄姐聊AGI ? 2150瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計(jì)算效率提高4000倍，首次實(shí)現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： GPT-4o再秀神操作，“復(fù)現(xiàn)”O(jiān)penAI總裁講課，網(wǎng)友當(dāng)真了

下一篇： LoRA數(shù)學(xué)編程任務(wù)不敵全量微調(diào) | 哥大&Databricks新研究

社區(qū)精華內(nèi)容

目錄

<cite id="e1h5n"><rp id="e1h5n"></rp></cite>