自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tfoot id="67oeb"><strike id="67oeb"></strike></tfoot>

<em id="67oeb"><rt id="67oeb"></rt></em>

<u id="67oeb"><tr id="67oeb"><tbody id="67oeb"></tbody></tr></u>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練精華

發(fā)布于 2024-5-30 09:36

瀏覽

0收藏

大神Karpathy已經(jīng)不滿足于用C語言造Llama了！

他給自己的最新挑戰(zhàn)：復(fù)現(xiàn)OpenAI經(jīng)典成果，從基礎(chǔ)版GPT-2開始。

挑戰(zhàn)成功本身并不意外，但是只花費(fèi)20美元、90分鐘完成訓(xùn)練，Loss和評(píng)測(cè)還超越原版，就！有！點(diǎn)！過！分！了！。

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

不僅如此，他把復(fù)現(xiàn)過程寫成了完整教程，果不其然再次火爆。

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

由于Karpathy自己租用的是A100云服務(wù)，訓(xùn)練124M版本花費(fèi)20了美元。

不過有人按照教程用H100跑了一把，不僅訓(xùn)練時(shí)間更短，還更省錢了：43分鐘完成，只花14美元。

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

另外Karpathy還自掏腰包200美元，為大家復(fù)現(xiàn)了350M版本的GPT-2。

但1.5B大杯版，照計(jì)算要花1周時(shí)間和2500美元，有點(diǎn)玩不起了，主要他手里也沒有H100。

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

還好各路卡壕非常仗義，該出手時(shí)就出手：

有需要隨時(shí)給你用！

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

只收你2美元一小時(shí)！

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

90分鐘復(fù)現(xiàn)GPT-2

這次Karpathy復(fù)現(xiàn)GPT-2，還是基于他的llama.c代碼庫，端到端完成訓(xùn)練。

代碼庫這些日子被他不斷完善，現(xiàn)在啟動(dòng)訓(xùn)練非常簡(jiǎn)單：

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

具體來說，網(wǎng)絡(luò)結(jié)構(gòu)是GPT-2，但許多超參數(shù)設(shè)置遵循了GPT-3的那一套。

Karpathy分析，按照Chinchilla定律的標(biāo)準(zhǔn)，GPT-2在100B tokens上訓(xùn)練應(yīng)該屬于過度訓(xùn)練了，后面收益遞減，124M模型按計(jì)算2.5Btokens就夠。

不過他自己訓(xùn)練了10B tokens，訓(xùn)練數(shù)據(jù)也用剛剛發(fā)布不久FineWeb，比起OpenAI原版WebText數(shù)據(jù)集token質(zhì)量更高。

原版WebText從未公開，無法在控制變量在相同條件下實(shí)驗(yàn)，另外今天的互聯(lián)網(wǎng)數(shù)據(jù)分布，也可能與5年前大不相同了。

據(jù)推測(cè)，評(píng)測(cè)分?jǐn)?shù)比原版更高的原因可能就在這些差別了。

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

另外有網(wǎng)友注意到，訓(xùn)練時(shí)的GPU利用效率也比OpenAI的工作高，不過Karpathy表示主要是由于用了單個(gè)云服務(wù)節(jié)點(diǎn)，不需要考慮服務(wù)器間通信問題。

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

最后，對(duì)于已訓(xùn)練完的350M版本GPT-2，同樣取得了超越原版的成績(jī)。

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

掌聲響起來～

大神也不是那么卷

自今年二月份再次從OpenAI辭職之后，Karpathy已經(jīng)用C語言搞出不少大模型成果，從Llama到GPT玩了一遍。

觀察他的GitHub熱力圖，只有剛開始休息了一段時(shí)間，進(jìn)入4月以后就越來越卷了。

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

這是辭職在家還要997的節(jié)奏？

其實(shí)Karpathy這段時(shí)間也旅游過，也分享過在打的游戲，并沒那么卷。

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

根據(jù)他曬出的一周時(shí)間表：在職時(shí)975，離職后工作4-20小時(shí)不等，看心情。

周一工作4小時(shí)，
周二工作14小時(shí)到晚上11點(diǎn)
周三失眠了，4點(diǎn)爬起來寫代碼，到中午崩潰
周四干了20小時(shí)
周五休息
周六12小時(shí)
周日4小時(shí)
然后出去旅游兩周。

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

大家看到這里也比較好奇，是規(guī)律的安排感覺更好，還是隨心所欲能有奇效呢？

Karpathy自己也不確定，不過混亂的日程安排肯定更有趣。

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

最后他還分享了一條自由職業(yè)心得：

起床后直接開始工作，不看任何消息，吃完午飯?jiān)偕暇W(wǎng)，避免外界信息分散注意力。

Karpathy新教程爆火，網(wǎng)友搶著送他H100：從頭復(fù)現(xiàn)GPT-2訓(xùn)練-AI.x社區(qū)

有條件的朋友可以試試了。

教程：https://github.com/karpathy/llm.c/discussions/481

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/y3tYldBX9DML4f5XT6EPMw??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

OpenAI曾轉(zhuǎn)錄100萬小時(shí)視頻數(shù)據(jù)，訓(xùn)練GPT-4

Aceryt ? 2149瀏覽 ? 0回復(fù)
1000行C語言搓出GPT-2！AI大神Karpathy新項(xiàng)目剛上線就狂攬2.5k星

duhorse ? 2766瀏覽 ? 0回復(fù)
全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火！200參數(shù)頂30萬，MIT華人一作，輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究

Crystalcxt ? 3469瀏覽 ? 0回復(fù)
OpenAI神秘gpt2正在A/B測(cè)試，奧特曼搶先劇透，網(wǎng)友已玩嗨

Crystalcxt ? 2044瀏覽 ? 0回復(fù)
史上最丑AI生圖一夜爆火！又一款妙鴨級(jí)爆品來了？

duhorse ? 3287瀏覽 ? 0回復(fù)
GPT-4o再秀神操作，“復(fù)現(xiàn)”O(jiān)penAI總裁講課，網(wǎng)友當(dāng)真了

Crystalcxt ? 2522瀏覽 ? 0回復(fù)
從零復(fù)現(xiàn)Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+

Crystalcxt ? 2244瀏覽 ? 0回復(fù)
Imbue-70B 的 AI Infra：從0到1搭建和運(yùn)維4088 H100集群的最佳實(shí)踐

amei2000go ? 4832瀏覽 ? 1回復(fù)
Meta 開源最強(qiáng)大模型Llama 3.1，參數(shù)多達(dá) 405B，超16000塊H100訓(xùn)練，燃燒數(shù)億經(jīng)費(fèi)！小扎：堅(jiān)定開源不動(dòng)搖！

51CTO技術(shù)棧 ? 3735瀏覽 ? 0回復(fù)
Grok-2震撼發(fā)布！性能打平GPT-4o，神速牽手爆火的FLUX 生成超逼真圖像！缺點(diǎn)：生成的每個(gè)總統(tǒng)都是特朗普

51CTO技術(shù)棧 ? 2506瀏覽 ? 0回復(fù)
AI Scientist爆火背后的技術(shù)詳解以及優(yōu)缺點(diǎn)分析

arnoldzhw ? 2827瀏覽 ? 0回復(fù)
最近爆火的GraphRAG是什么，真的能用于商業(yè)應(yīng)用嗎？

AI博物院 ? 2164瀏覽 ? 0回復(fù)
16張H100只訓(xùn)練了26分鐘，與R1訓(xùn)練方法不同！

51CTO技術(shù)棧 ? 2237瀏覽 ? 0回復(fù)
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動(dòng)了全球 AI 圈

玄姐聊AGI ? 6529瀏覽 ? 1回復(fù)
20萬塊H100顯卡覺醒！馬斯克連夜官宣Grok 3：這8個(gè)功能讓程序員集體失業(yè)

Halo咯咯 ? 2399瀏覽 ? 0回復(fù)
DeepSeek爆火后的新Scaling Law究竟是什么？

51CTO技術(shù)棧 ? 1667瀏覽 ? 0回復(fù)
爆火 | API 終將淘汰，MCP+LLM+向量數(shù)據(jù)庫才是 Agent 開發(fā)新范式

玄姐聊AGI ? 2159瀏覽 ? 0回復(fù)
推理、編碼打平DeepSeek V3但參數(shù)減一半，一張H100就能跑，還有巨獸2萬億參數(shù)模型！

51CTO技術(shù)棧 ? 1152瀏覽 ? 0回復(fù)
這才是MCP 爆火的原因！

hm673c38238a021 ? 271瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計(jì)算效率提高4000倍，首次實(shí)現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： 3D生成競(jìng)技場(chǎng)來了！比拼360°環(huán)繞視頻，最強(qiáng)模型由你pick

下一篇： AlphaFold 3不開源，統(tǒng)一生物語言大模型阿里云先開了！

社區(qū)精華內(nèi)容

目錄

<cite id="qhqkf"></cite>