自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練 精華

發(fā)布于 2024-5-30 09:36
瀏覽
0收藏

大神Karpathy已經(jīng)不滿足于用C語言造Llama了!


他給自己的最新挑戰(zhàn):復(fù)現(xiàn)OpenAI經(jīng)典成果,從基礎(chǔ)版GPT-2開始。


挑戰(zhàn)成功本身并不意外,但是只花費(fèi)20美元、90分鐘完成訓(xùn)練,Loss和評(píng)測(cè)還超越原版,就!有!點(diǎn)!過!分!了!。

Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

不僅如此,他把復(fù)現(xiàn)過程寫成了完整教程,果不其然再次火爆。

Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

由于Karpathy自己租用的是A100云服務(wù),訓(xùn)練124M版本花費(fèi)20了美元。


不過有人按照教程用H100跑了一把,不僅訓(xùn)練時(shí)間更短,還更省錢了:43分鐘完成,只花14美元。

Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

另外Karpathy還自掏腰包200美元,為大家復(fù)現(xiàn)了350M版本的GPT-2。


但1.5B大杯版,照計(jì)算要花1周時(shí)間和2500美元,有點(diǎn)玩不起了,主要他手里也沒有H100。

Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

還好各路卡壕非常仗義,該出手時(shí)就出手:

有需要隨時(shí)給你用!

Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

只收你2美元一小時(shí)!

Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

90分鐘復(fù)現(xiàn)GPT-2

這次Karpathy復(fù)現(xiàn)GPT-2,還是基于他的llama.c代碼庫,端到端完成訓(xùn)練。


代碼庫這些日子被他不斷完善,現(xiàn)在啟動(dòng)訓(xùn)練非常簡(jiǎn)單:

Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

具體來說,網(wǎng)絡(luò)結(jié)構(gòu)是GPT-2,但許多超參數(shù)設(shè)置遵循了GPT-3的那一套。


Karpathy分析,按照Chinchilla定律的標(biāo)準(zhǔn),GPT-2在100B tokens上訓(xùn)練應(yīng)該屬于過度訓(xùn)練了,后面收益遞減,124M模型按計(jì)算2.5Btokens就夠。


不過他自己訓(xùn)練了10B tokens,訓(xùn)練數(shù)據(jù)也用剛剛發(fā)布不久FineWeb,比起OpenAI原版WebText數(shù)據(jù)集token質(zhì)量更高。


原版WebText從未公開,無法在控制變量在相同條件下實(shí)驗(yàn),另外今天的互聯(lián)網(wǎng)數(shù)據(jù)分布,也可能與5年前大不相同了。


據(jù)推測(cè),評(píng)測(cè)分?jǐn)?shù)比原版更高的原因可能就在這些差別了。

Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

另外有網(wǎng)友注意到,訓(xùn)練時(shí)的GPU利用效率也比OpenAI的工作高,不過Karpathy表示主要是由于用了單個(gè)云服務(wù)節(jié)點(diǎn),不需要考慮服務(wù)器間通信問題。

Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

最后,對(duì)于已訓(xùn)練完的350M版本GPT-2,同樣取得了超越原版的成績(jī)。

Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

掌聲響起來~

大神也不是那么卷

自今年二月份再次從OpenAI辭職之后,Karpathy已經(jīng)用C語言搞出不少大模型成果,從Llama到GPT玩了一遍。


觀察他的GitHub熱力圖,只有剛開始休息了一段時(shí)間,進(jìn)入4月以后就越來越卷了。

Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

這是辭職在家還要997的節(jié)奏?


其實(shí)Karpathy這段時(shí)間也旅游過,也分享過在打的游戲,并沒那么卷。

Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

根據(jù)他曬出的一周時(shí)間表:在職時(shí)975,離職后工作4-20小時(shí)不等,看心情。

  • 周一工作4小時(shí),
  • 周二工作14小時(shí)到晚上11點(diǎn)
  • 周三失眠了,4點(diǎn)爬起來寫代碼,到中午崩潰
  • 周四干了20小時(shí)
  • 周五休息
  • 周六12小時(shí)
  • 周日4小時(shí)
  • 然后出去旅游兩周。

Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

大家看到這里也比較好奇,是規(guī)律的安排感覺更好,還是隨心所欲能有奇效呢?


Karpathy自己也不確定,不過混亂的日程安排肯定更有趣。

Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

最后他還分享了一條自由職業(yè)心得:


起床后直接開始工作,不看任何消息,吃完午飯?jiān)偕暇W(wǎng),避免外界信息分散注意力。

Karpathy新教程爆火,網(wǎng)友搶著送他H100:從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

有條件的朋友可以試試了。


教程:https://github.com/karpathy/llm.c/discussions/481


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/y3tYldBX9DML4f5XT6EPMw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦