自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="lojla"></s>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

10倍英偉達(dá)GPU：大模型專(zhuān)用芯片一夜成名，來(lái)自谷歌TPU創(chuàng)業(yè)團(tuán)隊(duì)

作者：機(jī)器之心 2024-02-20 12:30:53

人工智能新聞

有名為 Groq 的初創(chuàng)公司開(kāi)發(fā)出一種機(jī)器學(xué)習(xí)處理器，據(jù)稱(chēng)在大語(yǔ)言模型任務(wù)上徹底擊敗了 GPU—— 比英偉達(dá)的 GPU 快 10 倍，而成本僅為 GPU 的 10%，只需要十分之一的電力。

我們知道，大模型到 GPT-3.5 這種千億體量以后，訓(xùn)練和推理的算力就不是普通創(chuàng)業(yè)公司所能承擔(dān)的了，人們用起來(lái)速度也會(huì)很慢。

但自本周起，這種觀念已成為歷史。

有名為 Groq 的初創(chuàng)公司開(kāi)發(fā)出一種機(jī)器學(xué)習(xí)處理器，據(jù)稱(chēng)在大語(yǔ)言模型任務(wù)上徹底擊敗了 GPU—— 比英偉達(dá)的 GPU 快 10 倍，而成本僅為 GPU 的 10%，只需要十分之一的電力。

這是在 Groq 上運(yùn)行 Llama 2 的速度：

來(lái)源：https://twitter.com/emollick/status/1759633391098732967

這是 Groq（Llama 2）和 ChatGPT 面對(duì)同一個(gè) prompt 的表現(xiàn)：

圖源：https://x.com/JayScambler/status/1759372542530261154?s=20

盡管看起來(lái)不可思議，但事實(shí)就是如此，感興趣的朋友不妨一試。

目前，Groq 的官網(wǎng)提供了試用體驗(yàn)，有這些模型可選：

官網(wǎng)地址：https://groq.com/

Groq 的處理器名為 LPU（語(yǔ)言處理單元），是一種新型的端到端處理單元系統(tǒng)，可以為具備序列組件的計(jì)算密集型應(yīng)用（比如 LLM）提供極快的推理速度。

它帶動(dòng)的大模型速度能達(dá)到前所未有的 500 Token/s，并且實(shí)現(xiàn)了極低的延遲。

用硬件加速軟件，總能給人一種力大磚飛的感覺(jué)。Groq 還在 LPU 上運(yùn)行了最新銳的開(kāi)源模型 Mixtral，模型在不到一秒的時(shí)間內(nèi)回復(fù)了包含數(shù)百個(gè)單詞的事實(shí)性的、引用的答案（其中四分之三的時(shí)間是用來(lái)搜索）：

Groq 放出的 Demo 視頻下，有人評(píng)論道：這也太快了，不該這么快。

有網(wǎng)友因此提出建議：因?yàn)榇竽Ｐ蜕蓛?nèi)容的速度太快，所以從用戶體驗(yàn)的角度來(lái)看不應(yīng)該再自動(dòng)翻頁(yè)了，因?yàn)槿搜劭床贿^(guò)來(lái)。

或許在 LPU 的加持下，生成式 AI 真的要如同 Gartner 最近預(yù)測(cè)所言：在兩年內(nèi)對(duì)搜索引擎構(gòu)成巨大威脅了。仔細(xì)一想也確實(shí)合理，畢竟當(dāng)年神經(jīng)網(wǎng)絡(luò)就是被 GPU 算力的發(fā)展帶飛的。

至于為什么這么快？

有人分析，GPU 專(zhuān)為具有數(shù)百個(gè)核心的并行處理而設(shè)計(jì)，主要用于圖形渲染，而 LPU 的架構(gòu)旨在為 AI 計(jì)算提供確定性的性能。

LPU 的架構(gòu)不同于 GPU 使用的 SIMD（單指令、多數(shù)據(jù)）模型，而是采用更精簡(jiǎn)的方法，消除了對(duì)復(fù)雜調(diào)度硬件的需求。這種設(shè)計(jì)允許有效利用每個(gè)時(shí)鐘周期，確保一致的延遲和吞吐量。

能源效率是 LPU 相對(duì)于 GPU 的另一個(gè)值得注意的優(yōu)勢(shì)。通過(guò)減少與管理多個(gè)線程相關(guān)的開(kāi)銷(xiāo)并避免核心利用率不足，LPU 可以提供更多的每瓦計(jì)算量，將其定位為更環(huán)保的替代方案。

Groq 的芯片設(shè)計(jì)允許將多個(gè) TSP 連接在一起，不會(huì)出現(xiàn) GPU 集群中的傳統(tǒng)瓶頸，使其具有極高的可擴(kuò)展性。隨著更多 LPU 的添加，這可以實(shí)現(xiàn)性能的線性擴(kuò)展，從而簡(jiǎn)化大規(guī)模 AI 模型的硬件要求，并使開(kāi)發(fā)人員更輕松地?cái)U(kuò)展其應(yīng)用程序，而無(wú)需重新架構(gòu)其系統(tǒng)。

在 A100 和 H100 相對(duì)緊缺的時(shí)代，LPU 或許會(huì)成為大模型開(kāi)發(fā)商的新選擇。

Groq 成立于 2016 年，這家公司的創(chuàng)始團(tuán)隊(duì)出自谷歌，曾經(jīng)設(shè)計(jì)了谷歌自研 AI 芯片張量處理單元 TPU 系列。據(jù)官網(wǎng)介紹，Groq 公司創(chuàng)始人、首席執(zhí)行官 Jonathan Ross 曾經(jīng)承擔(dān)了 TPU 的 20% 工作。

Jonathan Ross。

在去年的高性能計(jì)算會(huì)議 SC23 上，Groq 就展示過(guò)在 LPU 上運(yùn)行 LLM 的全球最佳低延遲性能。當(dāng)時(shí)，Groq 能夠以每秒超過(guò) 280 個(gè) Token 的速度生成回復(fù)，刷新了 Llama-2 70B 推理的性能記錄。

今年 1 月，Groq 首次參與公開(kāi)基準(zhǔn)測(cè)試，就在 Anyscale 的 LLMPerf 排行榜上取得了突出的成績(jī)，遠(yuǎn)超其他基于云的推理提供商。

圖源：https://github.com/ray-project/llmperf-leaderboard?tab=readme-ov-file

人工智能已經(jīng)在科技界掀起了一場(chǎng)風(fēng)暴。2023 年可能是世界意識(shí)到人工智能將成為現(xiàn)實(shí)的一年，而 2024 年則是人工智能真正成為現(xiàn)實(shí)而不僅僅是假設(shè)的一年。這是 Jonathan Ross 曾經(jīng)表達(dá)的一個(gè)觀點(diǎn)。

當(dāng)我們擁有 100 萬(wàn) Token 上下文的 Gemini Pro 1.5、每秒 500 Token 推理速度的 Groq、推理能力更進(jìn)一步的 GPT-5，夢(mèng)想還會(huì)遠(yuǎn)嗎？

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<ruby id="qv99q"></ruby><u id="qv99q"><table id="qv99q"></table></u><bdo id="qv99q"></bdo>

<u id="qv99q"></u>

<bdo id="qv99q"><fieldset id="qv99q"><label id="qv99q"></label></fieldset></bdo>