自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

模仿Jeff Dean神總結(jié),前谷歌工程師分享「LLM開發(fā)秘籍」:每個開發(fā)者都應(yīng)知道的數(shù)字!

人工智能 新聞
傳奇工程師Jeff Dean曾整理過一份文件,名為「每個工程師都應(yīng)該知道的數(shù)字」。一位前谷歌工程師仿照這個模式,總結(jié)了一份「每個LLM開發(fā)者都應(yīng)該知道的數(shù)字」。

最近,一位網(wǎng)友整理了一份「每個LLM開發(fā)者都應(yīng)該知道的數(shù)字」,同時解釋了這些數(shù)字為何重要,以及我們應(yīng)該如何利用它們。

他在谷歌的時候,就有一份由傳奇工程師Jeff Dean整理的文件,叫做「每個工程師都應(yīng)該知道的數(shù)字」。

圖片

Jeff Dean:「每個工程師都應(yīng)該知道的數(shù)字」

而對于LLM(Large Language Model)開發(fā)者來說,有一組類似的用于粗略估算的數(shù)字也是非常有用的。

圖片

Prompt

40-90%:在提示中添加「簡明扼要」之后節(jié)省的成本

要知道,你是按照LLM在輸出時用掉的token來付費的。

這意味著,讓模型簡明扼要(be concise)地進行表述,可以省下很多錢。

與此同時,這個理念還可以擴展到更多地方。

比如,你本來想用GPT-4生成10個備選方案,現(xiàn)在也許可以先要求它提供5個,就可以留下另一半的錢了。

1.3:每個詞的平均token數(shù)

LLM是以token為單位進行操作的。

而token是單詞或單詞的子部分,比如「eating」可能被分解成兩個token「eat」和「ing」。

一般來說,750個英文單詞將產(chǎn)生大約1000個token。

對于英語以外的語言,每個詞的token會有所增加,具體數(shù)量取決于它們在LLM的嵌入語料庫中的通用性。

圖片

價格

考慮到LLM的使用成本很高,因此和價格相關(guān)的數(shù)字就變得尤為重要了。

~50:GPT-4與GPT-3.5 Turbo的成本比

使用GPT-3.5-Turbo大約比GPT-4便宜50倍。說「大約」是因為GPT-4對提示和生成的收費方式不同。

所以在實際應(yīng)用時,最好確認(rèn)一下GPT-3.5-Turbo是不是就足夠完成你的需求。

例如,對于概括總結(jié)這樣的任務(wù),GPT-3.5-Turbo綽綽有余。

圖片

圖片

5:使用GPT-3.5-Turbo與OpenAI嵌入進行文本生成的成本比

這意味著在向量存儲系統(tǒng)中查找某個內(nèi)容比使用用LLM生成要便宜得多。

具體來說,在神經(jīng)信息檢索系統(tǒng)中查找,比向GPT-3.5-Turbo提問要少花約5倍的費用。與GPT-4相比,成本差距更是高達250倍!

10:OpenAI嵌入與自我托管嵌入的成本比

注意:這個數(shù)字對負載和嵌入的批大小非常敏感,因此請將其視為近似值。

通過g4dn.4xlarge(按需價格:1.20美元/小時),我們可以利用用HuggingFace的SentenceTransformers(與OpenAI的嵌入相當(dāng))以每秒約9000個token的速度進行嵌入。

在這種速度和節(jié)點類型下進行一些基本的計算,表明自我托管的嵌入可以便宜10倍。

6:OpenAI基礎(chǔ)模型與微調(diào)模型查詢的成本比

在OpenAI上,微調(diào)模型的成本是基礎(chǔ)模型的6倍。

這也意味著,相比微調(diào)定制模型,調(diào)整基礎(chǔ)模型的提示更具成本效益。

1:自我托管基礎(chǔ)模型與微調(diào)模型查詢的成本比

如果你自己托管模型,那么微調(diào)模型和基礎(chǔ)模型的成本幾乎相同:這兩種模型的參數(shù)數(shù)量是一樣的。

訓(xùn)練和微調(diào)

~100萬美元:在1.4萬億個token上訓(xùn)練130億參數(shù)模型的成本

論文地址:https://arxiv.org/pdf/2302.13971.pdf

LLaMa的論文中提到,他們花了21天的時間,使用了2048個A100 80GB GPU,才訓(xùn)練出了LLaMa模型。

假設(shè)我們在Red Pajama訓(xùn)練集上訓(xùn)練自己的模型,假設(shè)一切正常,沒有任何崩潰,并且第一次就成功,就會得到上述的數(shù)字。

此外,這個過程還涉及到2048個GPU之間的協(xié)調(diào)。

大多數(shù)公司,并沒有條件做到這些。

不過,最關(guān)鍵的信息是:我們有可能訓(xùn)練出自己的LLM,只是這個過程并不便宜。

并且每次運行,都需要好幾天時間。

相比之下,使用預(yù)訓(xùn)練模型,會便宜得多。

< 0.001:微調(diào)與從頭開始訓(xùn)練的成本費率

這個數(shù)字有點籠統(tǒng),總的來說,微調(diào)的成本可以忽略不計。

例如,你可以用大約7美元的價格,微調(diào)一個6B參數(shù)的模型。

圖片

即使按照OpenAI對其最昂貴的微調(diào)模型Davinci的費率,每1000個token也只要花費3美分。

這意味著,如果要微調(diào)莎士比亞的全部作品(大約100萬個單詞),只需要花費四五十美元。

不過,微調(diào)是一回事,從頭開始訓(xùn)練,就是另一回事了......

GPU顯存

如果您正在自托管模型,了解GPU顯存就非常重要,因為LLM正在將GPU的顯存推向極限。

以下統(tǒng)計信息專門用于推理。如果要進行訓(xùn)練或微調(diào),就需要相當(dāng)多的顯存。

V100:16GB,A10G:24GB,A100:40/80GB:GPU顯存容量

了解不同類型的GPU的顯存量是很重要的,因為這將限制你的LLM可以擁有的參數(shù)量。

一般來說,我們喜歡使用A10G,因為它們在AWS上的按需價格是每小時1.5到2美元,并且用有24G的GPU顯存,而每個A100的價格約為5美元/小時。

2x 參數(shù)量:LLM的典型GPU顯存要求

舉個例子,當(dāng)你擁有一個70億參數(shù)的模型時,就需要大約14GB的GPU顯存。

這是因為大多數(shù)情況下,每個參數(shù)需要一個16位浮點數(shù)(或2個字節(jié))。

通常不需要超過16位精度,但大多數(shù)時候,當(dāng)精度達到8位時,分辨率就開始降低(在某些情況下,這也可以接受)。

當(dāng)然,也有一些項目改善了這種情況。比如llama.cpp就通過在6GB GPU上量化到4位(8位也可以),跑通了130億參數(shù)的模型,但這并不常見。

~1GB:嵌入模型的典型GPU顯存要求

每當(dāng)你嵌入語句(聚類、語義搜索和分類任務(wù)經(jīng)常要做的事)時,你就需要一個像語句轉(zhuǎn)換器這樣的嵌入模型。OpenAI也有自己的商用嵌入模型。

圖片

通常不必擔(dān)心GPU上的顯存嵌入占用多少,它們相當(dāng)小,甚至可以在同一GPU上嵌入LLM。

>10x:通過批處理LLM請求,提高吞吐量

通過GPU運行LLM查詢的延遲非常高:吞吐量為每秒0.2個查詢的話,延遲可能需要5秒。

有趣的是,如果你運行兩個任務(wù),延遲可能只需要5.2秒。

這意味著,如果能將25個查詢捆綁在一起,則需要大約10秒的延遲,而吞吐量已提高到每秒2.5個查詢。

不過,請接著往下看。

~1 MB:130億參數(shù)模型輸出1個token所需的GPU顯存

你所需要的顯存與你想生成的最大token數(shù)量直接成正比。

比如,生成最多512個token(大約380個單詞)的輸出,就需要512MB的顯存。

你可能會說,這沒什么大不了的——我有24GB的顯存,512MB算什么?然而,如果你想運行更大的batch,這個數(shù)值就會開始累加了。

比如,如果你想做16個batch,顯存就會直接增加到8GB。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-08-10 08:31:53

工具實用網(wǎng)站

2023-06-27 07:55:03

前端開發(fā)工具

2023-11-27 15:49:55

軟件開發(fā)系統(tǒng)設(shè)計

2013-06-26 09:42:52

Web開發(fā)URL編碼URL

2019-11-23 23:38:51

開發(fā)者微服務(wù)安全

2023-11-17 14:18:48

開發(fā)編程

2019-11-20 12:09:01

JavaScriptGitHub工具

2022-04-27 09:48:56

JS前端開發(fā)

2020-02-01 16:27:45

Web開發(fā)JavaScript

2011-07-31 19:44:43

程序員

2023-08-11 18:11:49

2025-03-05 09:21:08

2013-04-02 09:23:37

2018-10-16 11:03:19

API開發(fā)者AR

2023-09-14 10:20:56

前端布局自適應(yīng)

2021-03-09 10:26:24

Python開發(fā)工具

2011-05-11 13:42:18

谷歌開發(fā)者大會谷歌

2016-12-26 11:00:57

Java開發(fā)者工具

2013-03-18 09:58:52

2011-04-06 16:49:48

AndroidAndroid Mar
點贊
收藏

51CTO技術(shù)棧公眾號