大模型推理成本排行榜來了:賈揚(yáng)清公司效率領(lǐng)跑
「大模型的 API 是個(gè)虧本買賣嗎?」
隨著大語言模型技術(shù)的逐漸實(shí)用化,越來越多的科技公司提出了大模型 API 供開發(fā)者們使用。但前有 OpenAI「每天燒掉 70 萬美元」,我們也有理由懷疑以大模型為基礎(chǔ)的業(yè)務(wù)到底能不能持續(xù)。
本周四,AI 創(chuàng)業(yè)公司 Martian 為我們仔細(xì)盤算了一下。
排行榜鏈接:https://leaderboard.withmartian.com/
The LLM Inference Provider Leaderboard 是一個(gè)開源的大模型 API 推理產(chǎn)品排行榜。對(duì)于每個(gè)供應(yīng)商的 Mixtral-8x7B 和 Llama-2-70B-Chat 公共端點(diǎn),該榜單對(duì)成本、速率限制、吞吐量和 TTFT 的 P50 和 P90 進(jìn)行了基準(zhǔn)測試。
雖然互為競爭關(guān)系,但 Martian 發(fā)現(xiàn)各家公司提供的大模型服務(wù)之間存在大于 5 倍的成本差異,大于 6 倍的吞吐量,甚至還存在更大的速率限制差異。雖然在不同性能的大模型之間進(jìn)行選擇只是業(yè)務(wù)開展的一部分,但選擇不同的 API 對(duì)于獲得最佳性能顯然至關(guān)重要。
在目前的榜單上可見,Anyscale 提供的服務(wù)對(duì)于 Llama-2-70B 的中等服務(wù)負(fù)載具有最佳的吞吐量。Together AI 對(duì)于 Llama-2-70B 和 Mixtral-8x7B 的大型服務(wù)負(fù)載具有最佳的 P50 和 P90 吞吐量。
此外,賈揚(yáng)清的 LeptonAI 在短輸入 + 長輸出提示的小服務(wù)負(fù)載上能夠提供最佳的吞吐量。130 tks/s 的 P50 是所有廠商提供的所有模型產(chǎn)品中可以觀察到的最快吞吐量。
知名 AI 學(xué)者、Lepton AI 創(chuàng)始人賈揚(yáng)清在排行榜放出后第一時(shí)間進(jìn)行了點(diǎn)評(píng),讓我們看看他是如何說的。
賈揚(yáng)清首先闡述了人工智能領(lǐng)域行業(yè)現(xiàn)狀,然后肯定了基準(zhǔn)測試的意義,最后指出 LeptonAI 將幫用戶找到最好的 AI 基礎(chǔ)策略。
1. 大模型 API 正在「燒錢」
如果模型在高工作負(fù)載基準(zhǔn)測試中處于領(lǐng)先地位,那么恭喜,它正在「燒錢」。
LLM 推理公共 API 的容量就像是經(jīng)營一家餐館:有廚師,需要估算客流量。聘請(qǐng)廚師是要花錢的。延遲和吞吐量可以理解為「你為顧客做飯的速度有多快」。對(duì)于一個(gè)合理的生意,你需要有「合理」數(shù)量的廚師。換句話說,你希望擁有能夠承載正常流量的容量,而不是在幾秒鐘內(nèi)突然爆發(fā)的流量。流量激增意味著需要等待;反之,「廚師」則會(huì)無所事事。
在人工智能世界中,GPU 扮演著「廚師」的角色?;鶞?zhǔn)負(fù)載是突發(fā)的。在低工作負(fù)載下,基準(zhǔn)負(fù)載會(huì)混合到正常的流量中,并且測量結(jié)果可以準(zhǔn)確表示服務(wù)在當(dāng)前工作負(fù)載下的情況。
高服務(wù)負(fù)載場景則很有趣,因?yàn)闀?huì)帶來中斷?;鶞?zhǔn)測試每天 / 每周僅運(yùn)行幾次,因此不是人們應(yīng)該期望的常規(guī)流量。想象一下,讓 100 個(gè)人涌入當(dāng)?shù)氐牟宛^來檢查廚師做菜的速度,結(jié)果會(huì)很不錯(cuò)。借用量子物理學(xué)的術(shù)語,這被稱為「觀察者效應(yīng)」。干擾越強(qiáng)(即突發(fā)負(fù)載越大),其精度就越低。換句話說:如果您給某個(gè)服務(wù)突然提供高負(fù)載,并發(fā)現(xiàn)該服務(wù)響應(yīng)速度非???,那么您就知道該服務(wù)有相當(dāng)多的閑置容量。作為投資者,看到這種情況,你應(yīng)該質(zhì)問:這種燒錢的方式負(fù)責(zé)任嗎?
2. 模型最終會(huì)達(dá)到相似的表現(xiàn)
人工智能領(lǐng)域很喜歡競爭比賽,這的確很有趣。大家都會(huì)很快收斂到相同的解決方案,并且,由于 GPU 的原因,英偉達(dá)總是最終的贏家。這要?dú)w功于偉大的開源項(xiàng)目,vLLM 就是一個(gè)很好的例子。這意味著,作為提供商,如果您的模型性能比其他模型差很多,您可以通過查看開源解決方案并應(yīng)用良好的工程來輕松趕上。
3.「作為客戶,我不關(guān)心提供商的成本」
對(duì)于人工智能應(yīng)用程序構(gòu)建者來說,我們很幸運(yùn):總是有 API 提供商愿意「燒錢」。AI 行業(yè)正在燒錢來獲得流量,下一步才是擔(dān)心利潤。
基準(zhǔn)測試是一項(xiàng)乏味且容易出錯(cuò)的工作。無論好壞,通常都會(huì)發(fā)生成功者贊揚(yáng)你而失敗者指責(zé)你的情況。上一輪卷積神經(jīng)網(wǎng)絡(luò)基準(zhǔn)測試就是如此。這不是一件容易的事,但基準(zhǔn)測試將幫助我們?cè)谌斯ぶ悄芑A(chǔ)設(shè)施方面獲得下一個(gè) 10 倍的收益。
基于人工智能框架和云基礎(chǔ)設(shè)施,LeptonAI 將幫用戶找到最好的 AI 基礎(chǔ)策略。