自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

10倍英偉達(dá)GPU:大模型專(zhuān)用芯片一夜成名,來(lái)自谷歌TPU創(chuàng)業(yè)團(tuán)隊(duì)

人工智能 新聞
有名為 Groq 的初創(chuàng)公司開(kāi)發(fā)出一種機(jī)器學(xué)習(xí)處理器,據(jù)稱(chēng)在大語(yǔ)言模型任務(wù)上徹底擊敗了 GPU—— 比英偉達(dá)的 GPU 快 10 倍,而成本僅為 GPU 的 10%,只需要十分之一的電力。

我們知道,大模型到 GPT-3.5 這種千億體量以后,訓(xùn)練和推理的算力就不是普通創(chuàng)業(yè)公司所能承擔(dān)的了,人們用起來(lái)速度也會(huì)很慢。

但自本周起,這種觀念已成為歷史。

有名為 Groq 的初創(chuàng)公司開(kāi)發(fā)出一種機(jī)器學(xué)習(xí)處理器,據(jù)稱(chēng)在大語(yǔ)言模型任務(wù)上徹底擊敗了 GPU—— 比英偉達(dá)的 GPU 快 10 倍,而成本僅為 GPU 的 10%,只需要十分之一的電力。

這是在 Groq 上運(yùn)行 Llama 2 的速度:

來(lái)源:https://twitter.com/emollick/status/1759633391098732967

這是 Groq(Llama 2)和 ChatGPT 面對(duì)同一個(gè) prompt 的表現(xiàn):

圖片圖源:https://x.com/JayScambler/status/1759372542530261154?s=20

盡管看起來(lái)不可思議,但事實(shí)就是如此,感興趣的朋友不妨一試。

目前,Groq 的官網(wǎng)提供了試用體驗(yàn),有這些模型可選:

圖片

官網(wǎng)地址:https://groq.com/

Groq 的處理器名為 LPU(語(yǔ)言處理單元),是一種新型的端到端處理單元系統(tǒng),可以為具備序列組件的計(jì)算密集型應(yīng)用(比如 LLM)提供極快的推理速度。

它帶動(dòng)的大模型速度能達(dá)到前所未有的 500 Token/s,并且實(shí)現(xiàn)了極低的延遲。

圖片

用硬件加速軟件,總能給人一種力大磚飛的感覺(jué)。Groq 還在 LPU 上運(yùn)行了最新銳的開(kāi)源模型 Mixtral,模型在不到一秒的時(shí)間內(nèi)回復(fù)了包含數(shù)百個(gè)單詞的事實(shí)性的、引用的答案(其中四分之三的時(shí)間是用來(lái)搜索):

圖片

Groq 放出的 Demo 視頻下,有人評(píng)論道:這也太快了,不該這么快。

有網(wǎng)友因此提出建議:因?yàn)榇竽P蜕蓛?nèi)容的速度太快,所以從用戶體驗(yàn)的角度來(lái)看不應(yīng)該再自動(dòng)翻頁(yè)了,因?yàn)槿搜劭床贿^(guò)來(lái)。

圖片

或許在 LPU 的加持下,生成式 AI 真的要如同 Gartner 最近預(yù)測(cè)所言:在兩年內(nèi)對(duì)搜索引擎構(gòu)成巨大威脅了。仔細(xì)一想也確實(shí)合理,畢竟當(dāng)年神經(jīng)網(wǎng)絡(luò)就是被 GPU 算力的發(fā)展帶飛的。

至于為什么這么快?

有人分析,GPU 專(zhuān)為具有數(shù)百個(gè)核心的并行處理而設(shè)計(jì),主要用于圖形渲染,而 LPU 的架構(gòu)旨在為 AI 計(jì)算提供確定性的性能。

LPU 的架構(gòu)不同于 GPU 使用的 SIMD(單指令、多數(shù)據(jù))模型,而是采用更精簡(jiǎn)的方法,消除了對(duì)復(fù)雜調(diào)度硬件的需求。這種設(shè)計(jì)允許有效利用每個(gè)時(shí)鐘周期,確保一致的延遲和吞吐量。

能源效率是 LPU 相對(duì)于 GPU 的另一個(gè)值得注意的優(yōu)勢(shì)。通過(guò)減少與管理多個(gè)線程相關(guān)的開(kāi)銷(xiāo)并避免核心利用率不足,LPU 可以提供更多的每瓦計(jì)算量,將其定位為更環(huán)保的替代方案。

Groq 的芯片設(shè)計(jì)允許將多個(gè) TSP 連接在一起,不會(huì)出現(xiàn) GPU 集群中的傳統(tǒng)瓶頸,使其具有極高的可擴(kuò)展性。隨著更多 LPU 的添加,這可以實(shí)現(xiàn)性能的線性擴(kuò)展,從而簡(jiǎn)化大規(guī)模 AI 模型的硬件要求,并使開(kāi)發(fā)人員更輕松地?cái)U(kuò)展其應(yīng)用程序,而無(wú)需重新架構(gòu)其系統(tǒng)。 

在 A100 和 H100 相對(duì)緊缺的時(shí)代,LPU 或許會(huì)成為大模型開(kāi)發(fā)商的新選擇。

圖片

Groq 成立于 2016 年,這家公司的創(chuàng)始團(tuán)隊(duì)出自谷歌,曾經(jīng)設(shè)計(jì)了谷歌自研 AI 芯片張量處理單元 TPU 系列。據(jù)官網(wǎng)介紹,Groq 公司創(chuàng)始人、首席執(zhí)行官 Jonathan Ross 曾經(jīng)承擔(dān)了 TPU 的 20% 工作。

Jonathan Ross。

在去年的高性能計(jì)算會(huì)議 SC23 上,Groq 就展示過(guò)在 LPU 上運(yùn)行 LLM 的全球最佳低延遲性能。當(dāng)時(shí),Groq 能夠以每秒超過(guò) 280 個(gè) Token 的速度生成回復(fù),刷新了 Llama-2 70B 推理的性能記錄。

今年 1 月,Groq 首次參與公開(kāi)基準(zhǔn)測(cè)試,就在 Anyscale 的 LLMPerf 排行榜上取得了突出的成績(jī),遠(yuǎn)超其他基于云的推理提供商。

圖片

圖片圖源:https://github.com/ray-project/llmperf-leaderboard?tab=readme-ov-file

人工智能已經(jīng)在科技界掀起了一場(chǎng)風(fēng)暴。2023 年可能是世界意識(shí)到人工智能將成為現(xiàn)實(shí)的一年,而 2024 年則是人工智能真正成為現(xiàn)實(shí)而不僅僅是假設(shè)的一年。這是 Jonathan Ross 曾經(jīng)表達(dá)的一個(gè)觀點(diǎn)。

當(dāng)我們擁有 100 萬(wàn) Token 上下文的 Gemini Pro 1.5、每秒 500 Token 推理速度的 Groq、推理能力更進(jìn)一步的 GPT-5,夢(mèng)想還會(huì)遠(yuǎn)嗎?

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-03-22 13:53:26

芯片英偉達(dá)

2015-07-14 11:39:08

Docker容器DevOps虛擬機(jī)

2024-02-20 12:50:51

GPT-4人工智能芯片

2024-08-29 10:47:27

2023-10-31 19:20:29

語(yǔ)言模型英偉達(dá)芯片

2025-02-19 15:40:44

2023-05-26 17:15:40

AI搜索

2020-07-30 14:05:53

谷歌華為芯片

2023-04-06 09:37:22

谷歌AI

2023-10-18 18:17:15

2021-08-20 15:32:14

機(jī)器人人工智能系統(tǒng)

2024-03-28 08:18:54

芯片人工智能大語(yǔ)言模型

2024-02-20 13:31:26

AI訓(xùn)練

2024-06-06 13:19:46

2019-03-05 10:03:17

阿里云云廠商硬盤(pán)

2024-09-04 13:30:00

2023-04-11 08:37:30

TPUAI芯片

2024-11-25 08:54:41

2020-12-30 11:13:03

Graphcore

2020-12-22 11:05:12

深度學(xué)習(xí)GPU人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)