自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練

2024-05-30 07:02:00

網(wǎng)絡(luò)結(jié)構(gòu)是GPT-2，但許多超參數(shù)設(shè)置遵循了GPT-3的那一套。Karpathy分析，按照Chinchilla定律的標(biāo)準(zhǔn)，GPT-2在100B tokens上訓(xùn)練應(yīng)該屬于過度訓(xùn)練了，后面收益遞減，124M模型按計(jì)算2.5Btokens就夠。

大神Karpathy已經(jīng)不滿足于用C語言造Llama了！

他給自己的最新挑戰(zhàn)：復(fù)現(xiàn)OpenAI經(jīng)典成果，從基礎(chǔ)版GPT-2開始。

挑戰(zhàn)成功本身并不意外，但是只花費(fèi)20美元、90分鐘完成訓(xùn)練，Loss和評測還超越原版，就！有！點(diǎn)！過！分！了！。

不僅如此，他把復(fù)現(xiàn)過程寫成了完整教程，果不其然再次火爆。

由于Karpathy自己租用的是A100云服務(wù)，訓(xùn)練124M版本花費(fèi)20了美元。

不過有人按照教程用H100跑了一把，不僅訓(xùn)練時間更短，還更省錢了：43分鐘完成，只花14美元。

另外Karpathy還自掏腰包200美元，為大家復(fù)現(xiàn)了350M版本的GPT-2。

但1.5B大杯版，照計(jì)算要花1周時間和2500美元，有點(diǎn)玩不起了，主要他手里也沒有H100。

還好各路卡壕非常仗義，該出手時就出手：

有需要隨時給你用！

只收你2美元一小時！

90分鐘復(fù)現(xiàn)GPT-2

這次Karpathy復(fù)現(xiàn)GPT-2，還是基于他的llama.c代碼庫，端到端完成訓(xùn)練。

代碼庫這些日子被他不斷完善，現(xiàn)在啟動訓(xùn)練非常簡單：

具體來說，網(wǎng)絡(luò)結(jié)構(gòu)是GPT-2，但許多超參數(shù)設(shè)置遵循了GPT-3的那一套。

Karpathy分析，按照Chinchilla定律的標(biāo)準(zhǔn)，GPT-2在100B tokens上訓(xùn)練應(yīng)該屬于過度訓(xùn)練了，后面收益遞減，124M模型按計(jì)算2.5Btokens就夠。

不過他自己訓(xùn)練了10B tokens，訓(xùn)練數(shù)據(jù)也用剛剛發(fā)布不久FineWeb，比起OpenAI原版WebText數(shù)據(jù)集token質(zhì)量更高。

原版WebText從未公開，無法在控制變量在相同條件下實(shí)驗(yàn)，另外今天的互聯(lián)網(wǎng)數(shù)據(jù)分布，也可能與5年前大不相同了。

據(jù)推測，評測分?jǐn)?shù)比原版更高的原因可能就在這些差別了。

另外有網(wǎng)友注意到，訓(xùn)練時的GPU利用效率也比OpenAI的工作高，不過Karpathy表示主要是由于用了單個云服務(wù)節(jié)點(diǎn)，不需要考慮服務(wù)器間通信問題。

最后，對于已訓(xùn)練完的350M版本GPT-2，同樣取得了超越原版的成績。

掌聲響起來～

大神也不是那么卷

自今年二月份再次從OpenAI辭職之后，Karpathy已經(jīng)用C語言搞出不少大模型成果，從Llama到GPT玩了一遍。

觀察他的GitHub熱力圖，只有剛開始休息了一段時間，進(jìn)入4月以后就越來越卷了。

這是辭職在家還要997的節(jié)奏？

其實(shí)Karpathy這段時間也旅游過，也分享過在打的游戲，并沒那么卷。

根據(jù)他曬出的一周時間表：在職時975，離職后工作4-20小時不等，看心情。

周一工作4小時，
周二工作14小時到晚上11點(diǎn)
周三失眠了，4點(diǎn)爬起來寫代碼，到中午崩潰
周四干了20小時
周五休息
周六12小時
周日4小時
然后出去旅游兩周。

大家看到這里也比較好奇，是規(guī)律的安排感覺更好，還是隨心所欲能有奇效呢？

Karpathy自己也不確定，不過混亂的日程安排肯定更有趣。

最后他還分享了一條自由職業(yè)心得：

起床后直接開始工作，不看任何消息，吃完午飯?jiān)偕暇W(wǎng)，避免外界信息分散注意力。

有條件的朋友可以試試了。

教程：https://github.com/karpathy/llm.c/discussions/481。

參考鏈接：
[1]https://x.com/karpathy/status/1795484547267834137。
[2]https://www.threads.net/@karpathy。

責(zé)任編輯：姜華來源：量子位

Karpathy GPT-2 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="xhzfx"></sub>

<legend id="xhzfx"><track id="xhzfx"></track></legend>