自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<big id="q1uzz"></big>

<tt id="q1uzz"></tt>

<cite id="q1uzz"></cite>

<abbr id="q1uzz"><rp id="q1uzz"></rp></abbr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

三個(gè)程序員奮戰(zhàn)三天重寫推理堆棧，Grok-2 mini直接提速兩倍，馬斯克親發(fā)賀電

作者：機(jī)器之心 2024-08-26 09:20:00

人工智能新聞

用戶的感覺(jué)也不是錯(cuò)覺(jué)，Grok-2 的兩個(gè)版本 Grok-2 和 Grok-2 mini（后者功能更弱但速度更快），確實(shí)都提高了分析信息和輸出回復(fù)的速度。

一直在用 Grok-2 的用戶可能察覺(jué)到，這兩天，它好像變快了：

上周，xAI 發(fā)布了 Grok-2 聊天機(jī)器人，并在 X 平臺(tái)上以每月 8 美元的價(jià)格提供服務(wù)。

用戶的感覺(jué)也不是錯(cuò)覺(jué)，Grok-2 的兩個(gè)版本 Grok-2 和 Grok-2 mini（后者功能更弱但速度更快），確實(shí)都提高了分析信息和輸出回復(fù)的速度。

xAI 的開(kāi)發(fā)人員 Igor Babuschkin 發(fā)布了一條動(dòng)態(tài)，揭示了這次提速背后的原因：

正如這條動(dòng)態(tài)所說(shuō)，他和 xAI 的另外兩名開(kāi)發(fā)人員 Lianmin Zheng 和 Saeed Maleki 奮戰(zhàn)了三天，用 SGLang 重寫了推理技術(shù)棧。

這次奮戰(zhàn)的結(jié)果很理想：在評(píng)價(jià)人工智能模型性能的第三方 Lmsys Chatbot Arena 排行榜更新中，Grok-2 主模型在 6686 次投票中獲得了 1293 分的成績(jī)。這使得 Grok-2 成為世界上最強(qiáng)人工智能模型中的第二名，與谷歌的 Gemini-1.5 Pro 模型并列，僅次于 OpenAI 的最新版本 ChatGPT-4o，且超越了 GPT-4o（2024 年 5 月）。

圖源：https://x.com/lmsysorg/status/1827041269534879784

Grok-2-mini 也受益于這次改進(jìn)，排名上升到第 5 位，從 7266 票中獲得了 1268 分的 Arena 分?jǐn)?shù)，僅次于 GPT-4o mini 和 Claude 3.5 Sonnet。

努力沒(méi)有白費(fèi)，老板馬斯克發(fā)來(lái)表?yè)P(yáng)：

根據(jù) Babuschkin 在 X 上的回復(fù)，與完整的 Grok-2 模型相比，使用 Grok-2-mini 的主要優(yōu)勢(shì)在于速度更快。

Babuschkin 還承諾，xAI 會(huì)進(jìn)一步提高 Grok-2-mini 的處理速度，這將使其成為尋求高性能、低計(jì)算開(kāi)銷的用戶更有吸引力的選擇。同時(shí)透露了一些關(guān)于 API 的消息：

當(dāng)然，這讓人們有些好奇，SGLang 為什么如此「效果顯著」？

今年初，SGLang 剛剛誕生的時(shí)候，機(jī)器之心曾進(jìn)行過(guò)報(bào)道（參見(jiàn)《吞吐量提升 5 倍，聯(lián)合設(shè)計(jì)后端系統(tǒng)和前端語(yǔ)言的 LLM 接口來(lái)了》）。具體來(lái)說(shuō)，這是一種用于執(zhí)行復(fù)雜的語(yǔ)言模型程序的開(kāi)源（Apache 2.0 授權(quán)）高效系統(tǒng)。SGLang 能夠增強(qiáng)與 LLM 的交互，通過(guò)聯(lián)合設(shè)計(jì)后端運(yùn)行時(shí)系統(tǒng)和前端語(yǔ)言，使 LLM 更快、更可控。

SGLang 由加州大學(xué)伯克利分校、加州大學(xué)圣地亞哥分校以及卡內(nèi)基梅隆大學(xué)的研究人員開(kāi)發(fā)。

SGLang 目前支持 Llama、Mistral 和 LLaVA 等多種模型，兼容 OpenAI 的 GPT-4 等基于 API 的開(kāi)放式模型。SGLang 能夠在單個(gè)程序中通過(guò)自動(dòng)緩存重用和并行來(lái)優(yōu)化執(zhí)行，這使它成為開(kāi)發(fā)人員處理大規(guī)模語(yǔ)言模型的強(qiáng)大工具。

7 月底，團(tuán)隊(duì)還推出了全新的 SGLang Runtime v0.2。這是一個(gè)用于 LLM 和 VLM 的通用服務(wù)引擎。在運(yùn)行 Llama 3.1 405B 時(shí)，它的吞吐量和延遲表現(xiàn)都優(yōu)于 vLLM 和 TensorRT-LLM。在某些情況下（運(yùn)行 Llama 系列模型），它的吞吐量甚至能達(dá)到 TensorRT-LLM 的 2.1 倍，vLLm 的 3.8 倍。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

程序員代碼

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)