自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="n0zk5"><p id="n0zk5"><li id="n0zk5"></li></p></sub>

<u id="n0zk5"><acronym id="n0zk5"><small id="n0zk5"></small></acronym></u>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

OpenAI內(nèi)斗時，Karpathy在錄視頻：《大型語言模型入門》上線

作者：機器之心 2023-11-24 14:05:00

人工智能新聞

視頻的主題為《大型語言模型入門》，涵蓋了 LLM 的推理、訓練、微調以及新出現(xiàn)的 LLM 操作系統(tǒng)和 LLM 安全。視頻主打「非技術性」，偏科普，所以更加容易理解。

OpenAI 的風波暫時告一段落，員工也忙著「干活了」。

年初回歸 OpenAI 的 Andrej Karpathy 最近做了一場關于大型語言模型（LLM）的 30 分鐘入門講座，但該講座當時沒錄制。因此，他基于這場講座重新錄制了一個長達 1 小時的視頻，希望讓更多人看到和學習。

視頻的主題為《大型語言模型入門》，涵蓋了 LLM 的推理、訓練、微調以及新出現(xiàn)的 LLM 操作系統(tǒng)和 LLM 安全。視頻主打「非技術性」，偏科普，所以更加容易理解。

想要了解更詳細內(nèi)容，大家可觀看原視頻。

我們接下來整體了解一下 Karpathy 都講到了哪些內(nèi)容。視頻主要分為三大部分展開，分別是 LLMs、LLMs 的未來和 LLM 安全。

在第一部分，Karpathy 首先介紹了 LLM 的一些入門知識，并以 Meta 推出的開源大模型 Llama 2-70b 為例講解。該模型有 700 億參數(shù)，它主要包含兩個文件，分別是參數(shù)文件（文件大小為 140GB）和運行這些參數(shù)的代碼（以 C 語言為例需要約 500 行代碼）。

因此，在 LLM 推理階段，Karpathy 表示只要有這兩個文件再加上一臺 MacBook，我們就可以構建一個獨立的系統(tǒng)，無需聯(lián)網(wǎng)或其他設施。這里他展示了跑 70 億參數(shù)大模型的例子。

LLM 訓練比推理復雜得多。Karpathy 表示，模型推理可以在一臺 MacBook 上運行，但模型訓練過程耗費的計算量就非常大了。因此，我們需要對互聯(lián)網(wǎng)內(nèi)容進行壓縮。他以 Llama 2-70b 為例來說明，訓練該模型需要從網(wǎng)絡爬取約 10TB 的文本，大約需要 6000 個 GPU 訓練約 12 天，耗資 200 萬美元，參數(shù)文件大小約為 140GB。

顯然 Llama 2-70b 并不是最大的，如果訓練 ChatGPT、Claude 或 Bard，這些數(shù)字可能會增加 10 倍或者更多，耗資可能高達千萬甚至上億美元。

不過，一旦擁有了這些參數(shù)，運行神經(jīng)網(wǎng)絡的計算成本就相對較低了。Karpathy 解釋了什么是神經(jīng)網(wǎng)絡，它的基本任務是預測序列中的下一個單詞。他將訓練過程視為一種互聯(lián)網(wǎng)的壓縮，如果可以準確地預測下一個單詞，則能夠用來壓縮數(shù)據(jù)集。

神經(jīng)網(wǎng)絡是如何預測下一個單詞的呢？Karpathy 介紹稱，正如以下 Transformer 神經(jīng)網(wǎng)絡架構示意圖，1000 億參數(shù)分布在整個神經(jīng)網(wǎng)絡中。這就需要迭代地調整這些參數(shù)，使網(wǎng)絡作為一個整體來更好地執(zhí)行預測下一個單詞的任務。

上面這些是訓練的第一階段，稱為預訓練，顯然還不足以訓練出一個真正的助理模型。這就要進入微調階段。預訓練階段需要大量來自互聯(lián)網(wǎng)的文本數(shù)據(jù)，這些數(shù)據(jù)可能質量不高。但微調階段看重數(shù)據(jù)的質量而非數(shù)量，比如需要非常高質量的對話文檔。

Karpathy 總結了如何訓練自己的 ChatGPT。預訓練階段獲得基礎模型，微調階段則需要編寫標簽指令、雇人收集高質量的 QA 響應、對基礎模型進一步微調、進行大量評估以及部署等步驟。

第二部分講的是 LLMs 的未來，包括 LLM 縮放法則、工具使用、多模態(tài)、思考及 System 1/2、自我改進及 LLM AlphaGo、LLM 定制、GPTs Store 以及 LLM 操作系統(tǒng)等。

所謂 LLM 縮放法則，即 LLM 的性能可以表示為非常平滑、表現(xiàn)良好且可以預測的兩個變量函數(shù)，分別是網(wǎng)絡中的參數(shù)量（N）和要訓練的文本量（D）。我們可以根據(jù)這兩個變量通過縮放來預測下一個單詞預測任務中的準確率。

至于工具使用，Karpathy 提到了瀏覽器、計算器、解釋器和 DALL-E。這里著重講一下 DALL-E，它是 OpenAI 開發(fā)的文生圖工具。目前，最新版本 DALL-E 3 已經(jīng)集成到了 ChatGPT 中，可以輸入自然語言描述來生成圖像。

多模態(tài)也是近來領域關注的重點，比如視覺、音頻等。在視覺領域，大模型不僅可以生成圖像，還可以看到（See）圖像。Karpathy 提到了 OpenAI 聯(lián)合創(chuàng)始人 Greg Brockman 的一個演示，后者向 ChatGPT 展示了一張 MyJoke 網(wǎng)站的手寫小圖。結果 ChatGPT 看明白了這張圖，并創(chuàng)建一個 MyJoke 網(wǎng)站。我們可以訪問這個網(wǎng)站，還可以看到笑話。

在談到 LLM 的未來發(fā)展時，Karpathy 提到了 System 1 和 System 2 的思維模式。System 1 是快速、本能和自動的思維過程，System 2 則是有意識、有思考的思維過程?，F(xiàn)在，人們希望為 LLM 引入更多類似 Sytem 2 的思維能力。此外 LLM 的自我改進也是需要關注的重點問題之一。

LLMs 的定制化更是近來的熱點。OpenAI CEO Sam Altman 在開發(fā)者日上宣布推出的 GPTs 商店走出了模型定制化的第一步。用戶可以創(chuàng)建自己的 GPT，根據(jù)需求進行定制，或者添加更多知識。未來對 LLM 進行微調和定制的可能性越來越大。

至于 LLM 操作系統(tǒng)，與當前的傳統(tǒng)操作系統(tǒng)有很多相似之處。在未來幾年，LLM 可以閱讀和生成文本，擁有比任何個人都豐富的知識，瀏覽互聯(lián)網(wǎng)，使用現(xiàn)有軟件基礎架構，具備查看和生成圖像、視頻的能力，聽到、發(fā)出并創(chuàng)作音樂，利用 System 2 進行深入思考，能夠自我改進，針對特有任務微調和定制，等等。

第三部分是 LLM 安全性。Karpathy 講了越獄（Jailbreak）、提示注入（Prompt injection）、數(shù)據(jù)投毒或后門打擊（Data poisoning or Backdoor atteck）等三種打擊方式。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<menuitem id="lj6jm"><span id="lj6jm"></span></menuitem>

<blockquote id="lj6jm"><b id="lj6jm"></b></blockquote><sub id="lj6jm"></sub>

<sub id="lj6jm"><i id="lj6jm"></i></sub>

<kbd id="lj6jm"><acronym id="lj6jm"></acronym></kbd>