三個(gè)程序員奮戰(zhàn)三天重寫推理堆棧,Grok-2 mini直接提速兩倍,馬斯克親發(fā)賀電
一直在用 Grok-2 的用戶可能察覺(jué)到,這兩天,它好像變快了:
上周,xAI 發(fā)布了 Grok-2 聊天機(jī)器人,并在 X 平臺(tái)上以每月 8 美元的價(jià)格提供服務(wù)。
用戶的感覺(jué)也不是錯(cuò)覺(jué),Grok-2 的兩個(gè)版本 Grok-2 和 Grok-2 mini(后者功能更弱但速度更快),確實(shí)都提高了分析信息和輸出回復(fù)的速度。
xAI 的開(kāi)發(fā)人員 Igor Babuschkin 發(fā)布了一條動(dòng)態(tài),揭示了這次提速背后的原因:
正如這條動(dòng)態(tài)所說(shuō),他和 xAI 的另外兩名開(kāi)發(fā)人員 Lianmin Zheng 和 Saeed Maleki 奮戰(zhàn)了三天,用 SGLang 重寫了推理技術(shù)棧。
這次奮戰(zhàn)的結(jié)果很理想:在評(píng)價(jià)人工智能模型性能的第三方 Lmsys Chatbot Arena 排行榜更新中,Grok-2 主模型在 6686 次投票中獲得了 1293 分的成績(jī)。這使得 Grok-2 成為世界上最強(qiáng)人工智能模型中的第二名,與谷歌的 Gemini-1.5 Pro 模型并列,僅次于 OpenAI 的最新版本 ChatGPT-4o,且超越了 GPT-4o(2024 年 5 月)。
圖源:https://x.com/lmsysorg/status/1827041269534879784
Grok-2-mini 也受益于這次改進(jìn),排名上升到第 5 位,從 7266 票中獲得了 1268 分的 Arena 分?jǐn)?shù),僅次于 GPT-4o mini 和 Claude 3.5 Sonnet。
努力沒(méi)有白費(fèi),老板馬斯克發(fā)來(lái)表?yè)P(yáng):
根據(jù) Babuschkin 在 X 上的回復(fù),與完整的 Grok-2 模型相比,使用 Grok-2-mini 的主要優(yōu)勢(shì)在于速度更快。
Babuschkin 還承諾,xAI 會(huì)進(jìn)一步提高 Grok-2-mini 的處理速度,這將使其成為尋求高性能、低計(jì)算開(kāi)銷的用戶更有吸引力的選擇。同時(shí)透露了一些關(guān)于 API 的消息:
當(dāng)然,這讓人們有些好奇,SGLang 為什么如此「效果顯著」?
今年初,SGLang 剛剛誕生的時(shí)候,機(jī)器之心曾進(jìn)行過(guò)報(bào)道(參見(jiàn)《吞吐量提升 5 倍,聯(lián)合設(shè)計(jì)后端系統(tǒng)和前端語(yǔ)言的 LLM 接口來(lái)了》)。具體來(lái)說(shuō),這是一種用于執(zhí)行復(fù)雜的語(yǔ)言模型程序的開(kāi)源(Apache 2.0 授權(quán))高效系統(tǒng)。SGLang 能夠增強(qiáng)與 LLM 的交互,通過(guò)聯(lián)合設(shè)計(jì)后端運(yùn)行時(shí)系統(tǒng)和前端語(yǔ)言,使 LLM 更快、更可控。
SGLang 由加州大學(xué)伯克利分校、加州大學(xué)圣地亞哥分校以及卡內(nèi)基梅隆大學(xué)的研究人員開(kāi)發(fā)。
SGLang 目前支持 Llama、Mistral 和 LLaVA 等多種模型,兼容 OpenAI 的 GPT-4 等基于 API 的開(kāi)放式模型。SGLang 能夠在單個(gè)程序中通過(guò)自動(dòng)緩存重用和并行來(lái)優(yōu)化執(zhí)行,這使它成為開(kāi)發(fā)人員處理大規(guī)模語(yǔ)言模型的強(qiáng)大工具。
7 月底,團(tuán)隊(duì)還推出了全新的 SGLang Runtime v0.2。這是一個(gè)用于 LLM 和 VLM 的通用服務(wù)引擎。在運(yùn)行 Llama 3.1 405B 時(shí),它的吞吐量和延遲表現(xiàn)都優(yōu)于 vLLM 和 TensorRT-LLM。在某些情況下(運(yùn)行 Llama 系列模型),它的吞吐量甚至能達(dá)到 TensorRT-LLM 的 2.1 倍,vLLm 的 3.8 倍。