自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大型語(yǔ)言模型中最大的瓶頸:速率限制

譯文 精選
人工智能
生態(tài)系統(tǒng)在渴望利用LLM力量的公司的壓力下變得緊張。那些希望在人工智能方面開(kāi)辟新天地的人可能需要等到GPU供應(yīng)在未來(lái)漫長(zhǎng)的道路上進(jìn)一步開(kāi)放。具有諷刺意味的是,這些限制可能有助于緩和圍繞生成性人工智能的一些泡沫炒作,讓行業(yè)有時(shí)間適應(yīng)積極的模式,高效、經(jīng)濟(jì)地使用它。

作者 | Matt Asay

策劃 | 言征 

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

速率限制意味著每個(gè)人都在等待更好的計(jì)算資源或不同的生成人工智能模型。

大型語(yǔ)言模型(LLM),如OpenAI的GPT-4和Anthropic的Claude 2,憑借其生成類(lèi)人文本的能力,吸引了公眾的想象力。企業(yè)也同樣熱情高漲,許多企業(yè)正在探索如何利用LLM來(lái)改進(jìn)產(chǎn)品和服務(wù)。然而,一個(gè)主要瓶頸嚴(yán)重制約了在生產(chǎn)環(huán)境中采用最先進(jìn)的LLM:速率限制。有一些方法可以通過(guò)這些費(fèi)率限制收費(fèi)站,但如果沒(méi)有計(jì)算資源的改進(jìn),真正的進(jìn)展可能不會(huì)到來(lái)。

1、為瓶頸付出的代價(jià)

允許訪(fǎng)問(wèn)OpenAI和Anthropic等公司模型的公共LLM API對(duì)每分鐘可處理的令牌(文本單位)數(shù)量、每分鐘的請(qǐng)求數(shù)量和每天的請(qǐng)求數(shù)量施加了嚴(yán)格限制。

例如,這句話(huà)將消耗九個(gè)標(biāo)記。目前,對(duì)OpenAI GPT-4的API調(diào)用限制為每分鐘三個(gè)請(qǐng)求(RPM)、每天200個(gè)請(qǐng)求和每分鐘最多10000個(gè)令牌(TPM)。

最高級(jí)別允許10000 RPM和300000 TPM的限制。對(duì)于每分鐘需要處理數(shù)百萬(wàn)個(gè)代幣的大型生產(chǎn)應(yīng)用程序,這些速率限制使得使用最先進(jìn)的LLM基本上不可行。請(qǐng)求堆積起來(lái),需要幾分鐘或幾個(gè)小時(shí),無(wú)法進(jìn)行任何實(shí)時(shí)處理。

大多數(shù)企業(yè)仍在努力在規(guī)模上安全有效地采用LLM。但是,即使他們?cè)趹?yīng)對(duì)數(shù)據(jù)敏感度和內(nèi)部流程方面的挑戰(zhàn)時(shí),速率限制也是一個(gè)頑固的障礙。當(dāng)產(chǎn)品使用量和數(shù)據(jù)積累時(shí),圍繞LLM構(gòu)建產(chǎn)品的初創(chuàng)企業(yè)很快就會(huì)達(dá)到峰值,但擁有龐大用戶(hù)基礎(chǔ)的大型企業(yè)受到的限制最大。如果沒(méi)有特殊訪(fǎng)問(wèn)權(quán)限,他們的應(yīng)用程序?qū)⒏緹o(wú)法工作。

怎么辦?

2、繞過(guò)速率限制

一種方法是完全跳過(guò)速率限制技術(shù)。例如,有一些特定用途的生成人工智能模型沒(méi)有LLM瓶頸。Diffblue是一家總部位于英國(guó)牛津的初創(chuàng)公司,它依賴(lài)于不受費(fèi)率限制的強(qiáng)化學(xué)習(xí)技術(shù)。它做一件事非常好,非常高效,可以覆蓋數(shù)百萬(wàn)行代碼。

它以開(kāi)發(fā)人員250倍的速度自主創(chuàng)建Java單元測(cè)試,編譯速度快10倍。Diffblue Cover編寫(xiě)的單元測(cè)試能夠快速理解復(fù)雜的應(yīng)用程序,使企業(yè)和初創(chuàng)公司都能滿(mǎn)懷信心地進(jìn)行創(chuàng)新,例如,這是將傳統(tǒng)應(yīng)用程序轉(zhuǎn)移到云的理想選擇。它還可以自主編寫(xiě)新代碼,改進(jìn)現(xiàn)有代碼,加速CI/CD管道,并在不需要手動(dòng)審查的情況下深入了解與更改相關(guān)的風(fēng)險(xiǎn)。還不錯(cuò)。

當(dāng)然,有些公司不得不依賴(lài)LLM。他們有什么選擇?

3、請(qǐng)多加計(jì)算

一種選擇是簡(jiǎn)單地要求提高公司的利率限制。到目前為止,這還可以,但潛在的問(wèn)題是,許多LLM提供商實(shí)際上沒(méi)有額外的能力提供服務(wù)。這就是問(wèn)題的癥結(jié)所在。GPU的可用性取決于從臺(tái)積電等鑄造廠(chǎng)開(kāi)始的總硅片數(shù)量。占主導(dǎo)地位的GPU制造商英偉達(dá)無(wú)法采購(gòu)足夠的芯片來(lái)滿(mǎn)足人工智能工作負(fù)載驅(qū)動(dòng)的爆炸性需求,大規(guī)模推理需要數(shù)千個(gè)GPU聚集在一起。

增加GPU供應(yīng)的最直接方法是建造新的半導(dǎo)體制造廠(chǎng),即晶圓廠(chǎng)。但一個(gè)新的晶圓廠(chǎng)成本高達(dá)200億美元,需要數(shù)年時(shí)間才能建成。英特爾、三星鑄造、臺(tái)積電和德州儀器等主要芯片制造商正在美國(guó)建造新的半導(dǎo)體生產(chǎn)設(shè)施??傆幸惶?,那會(huì)很棒?,F(xiàn)在,每個(gè)人都必須等待。

因此,利用GPT-4的實(shí)際生產(chǎn)部署很少。這樣做的范圍不大,將LLM用于輔助功能,而不是作為核心產(chǎn)品組件。大多數(shù)公司仍在評(píng)估試點(diǎn)和概念驗(yàn)證。在考慮費(fèi)率限制之前,將LLM集成到企業(yè)工作流程中所需的提升本身就相當(dāng)大。

4、尋找答案

限制GPT-4吞吐量的GPU限制促使許多公司使用其他生成人工智能模型。例如,AWS有自己的專(zhuān)門(mén)芯片用于訓(xùn)練和推理(訓(xùn)練后運(yùn)行模型),使其客戶(hù)具有更大的靈活性。重要的是,并不是每個(gè)問(wèn)題都需要最強(qiáng)大、最昂貴的計(jì)算資源。AWS提供了一系列更便宜、更容易微調(diào)的型號(hào),如Titan Light。

一些公司正在探索其他選擇,比如微調(diào)開(kāi)源模型,比如Meta的Llama 2。對(duì)于涉及檢索增強(qiáng)生成(RAG)的簡(jiǎn)單用例,需要將上下文附加到提示并生成響應(yīng),功能較弱的模型就足夠了。

跨多個(gè)具有更高限制的舊LLM并行請(qǐng)求、數(shù)據(jù)分塊和模型提取等技術(shù)也會(huì)有所幫助。有幾種技術(shù)可以使推理更便宜、更快。量化降低了模型中權(quán)重的精度,這些權(quán)重通常是32位浮點(diǎn)數(shù)字。這不是一種新方法。例如,谷歌的推理硬件張量處理單元(TPU)僅適用于權(quán)重已量化為八位整數(shù)的模型。該模型失去了一些準(zhǔn)確性,但變得更小,運(yùn)行速度更快。一種名為“稀疏模型”的新流行技術(shù)可以降低訓(xùn)練和推理的成本,而且它比蒸餾技術(shù)勞動(dòng)密集度更低。您可以將LLM視為許多較小語(yǔ)言模型的集合。例如,當(dāng)你用法語(yǔ)問(wèn)GPT-4一個(gè)問(wèn)題時(shí),只需要使用模型的法語(yǔ)處理部分,這就是稀疏模型所利用的。

你可以進(jìn)行稀疏訓(xùn)練,只需要用法語(yǔ)訓(xùn)練模型的一個(gè)子集,也可以進(jìn)行稀疏推理,只運(yùn)行模型的法語(yǔ)部分。當(dāng)與量化一起使用時(shí),這可以是一種從LLM中提取較小專(zhuān)用模型的方法,LLM可以在CPU而不是GPU上運(yùn)行(盡管精度損失很小)。問(wèn)題是什么?GPT-4之所以出名,是因?yàn)樗且粋€(gè)通用的文本生成器,而不是一個(gè)更窄、更具體的模型。

在硬件方面,專(zhuān)門(mén)用于人工智能工作負(fù)載的新處理器架構(gòu)有望提高效率。Cerebras已經(jīng)構(gòu)建了一個(gè)為機(jī)器學(xué)習(xí)優(yōu)化的巨大晶圓級(jí)引擎,Manticore正在重新利用制造商丟棄的“被拒絕的”GPU硅來(lái)提供可用的芯片。最終,最大的收益將來(lái)自于需要更少計(jì)算的下一代LLM。結(jié)合優(yōu)化的硬件,未來(lái)的LLM可以突破今天的速率限制障礙。

目前,生態(tài)系統(tǒng)在渴望利用LLM力量的公司的壓力下變得緊張。那些希望在人工智能方面開(kāi)辟新天地的人可能需要等到GPU供應(yīng)在未來(lái)漫長(zhǎng)的道路上進(jìn)一步開(kāi)放。具有諷刺意味的是,這些限制可能有助于緩和圍繞生成性人工智能的一些泡沫炒作,讓行業(yè)有時(shí)間適應(yīng)積極的模式,高效、經(jīng)濟(jì)地使用它。

參考鏈接:https://www.infoworld.com/article/3712300/the-biggest-bottleneck-in-a-large-language-model.html

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2024-03-06 09:00:00

大語(yǔ)言模型人工智能

2024-04-16 16:14:01

人工智能LLMRAG

2023-06-19 16:05:22

大型語(yǔ)言模型人工智能

2024-08-13 08:09:34

2024-12-12 09:11:58

2023-11-15 17:56:23

2023-06-09 08:00:00

QLoRa語(yǔ)言模型微調(diào)

2024-11-21 08:22:45

2023-07-10 08:00:00

2023-10-08 15:54:12

2021-10-25 16:25:07

模型人工智能計(jì)算

2024-05-16 16:37:33

大型語(yǔ)言模型人工智能

2024-12-23 08:03:13

2018-04-13 08:44:40

存儲(chǔ)大型網(wǎng)站

2024-09-23 08:03:59

2023-11-06 08:38:50

LLM語(yǔ)言模型ChatGPT

2024-06-13 10:52:43

2023-06-05 07:10:00

編碼人工工具

2024-03-29 15:43:32

大型語(yǔ)言模型人工智能

2023-05-09 07:09:02

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)