自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPU壟斷AI讓人擔憂 是時候讓CPU發(fā)揚光大

商務辦公
人工智能公司Hugging Face的首席布道者Julien Simon最近通過英特爾的Q8-Chat展示了CPU 尚未開發(fā)的潛力,這是一種大型語言模型 (LLM),能夠在具有 32 個內(nèi)核的單個英特爾至強處理器上運行。

是時候讓不起眼的 CPU 再次攻克 AI 了。

這是一小群 AI 研究人員得出的結(jié)論,但他們的聲音越來越大。

人工智能公司Hugging Face的首席布道者Julien Simon最近通過英特爾的Q8-Chat展示了CPU 尚未開發(fā)的潛力,這是一種大型語言模型 (LLM),能夠在具有 32 個內(nèi)核的單個英特爾至強處理器上運行。

該演示提供了一個類似于OpenAI 的 ChatGPT 的聊天界面,并以驚人的速度響應查詢(根據(jù)個人經(jīng)驗)讓ChatGPT吃盡苦頭。

AI 開發(fā)中 GPU 的使用如此普遍,以至于很難想象另一種結(jié)果,但這并非不可避免。幾個特定事件幫助 GPU 硬件戰(zhàn)勝了 CPU,并且在許多情況下戰(zhàn)勝了專用 AI 加速器。

“解鎖 GPU 的大規(guī)模并行架構(gòu)來訓練深度神經(jīng)網(wǎng)絡(luò)是使深度學習成為可能的關(guān)鍵因素之一,”Simon說。

“然后 GPU 迅速集成到TensorFlow和PyTorch等開源框架中,使它們易于使用,而無需編寫復雜的低級 CUDA 代碼?!?/p>

計算統(tǒng)一設(shè)備架構(gòu)(CUDA) 是 Nvidia 在 2007 年推出的應用程序編程接口 (API),作為其挑戰(zhàn) CPU 主導地位計劃的一部分。

它在 2010 年代中期建立,為 TensorFlow 和 PyTorch 提供了一條清晰的途徑來利用Nvidia硬件的力量。

Hugging Face 作為 AI 社區(qū)的中心樞紐(除其他外)提供與 TensorFlow 和 PyTorch 兼容的開源 Transformers 庫,也在 CUDA 的發(fā)展中發(fā)揮了作用。

然而,Simon認為“壟斷從來都不是一件好事”。GPU 的主導地位可能會加劇供應鏈問題并導致成本上升,英偉達2023 年第一季度財務業(yè)績的井噴凸顯了這種可能性,在人工智能需求的推動下,收益增長了 28%。

“在 AWS 或 Azure 上獲得 [Nvidia] A100 幾乎是不可能的。

那么,然后呢?Simon問。

“出于所有這些原因,我們需要一個替代方案,如果您愿意做功課并使用適當?shù)墓ぞ撸⑻貭朇PU 在許多推理場景中都能很好地工作?!?/p>

CPU 的無處不在為 GPU 的主導地位提供了一個變通辦法。

PC 組件市場研究公司Mercury Research最近的一份報告發(fā)現(xiàn),僅 2022 年一年,x86 處理器的出貨量就達到了 3.74 億個。

ARM 處理器更為常見,到 2022 年第三季度,芯片出貨量超過 2500 億顆。

AI 開發(fā)人員在很大程度上忽略了這一未開發(fā)潛力池,他們認為 CPU 相對缺乏并行處理能力將不適合深度學習,因為深度學習通常依賴于并行執(zhí)行的大量矩陣乘法。

在 OpenAI 的GPT-3(1750 億個參數(shù))和 DeepMind 的Chinchilla(700 億個參數(shù))等模型的成功推動下,AI 模型規(guī)模的快速增長加劇了這個問題。

ThirdAI的首席執(zhí)行官兼創(chuàng)始人Shrivastava Anshumali說:“對于模型和數(shù)據(jù)集的大小,即使有共同進化的軟件和硬件生態(tài)系統(tǒng),我們正處于基本的密集矩陣乘法變得令人望而卻步的地步?!?/p>

它不一定是那樣的。ThirdAI 的研究發(fā)現(xiàn),現(xiàn)有 LLM 中“超過 99%”的操作返回零。

ThirdAI 部署了一種哈希技術(shù)來減少這些不必要的操作。“基于散列的算法消除了在無關(guān)緊要的零上浪費任何周期和能量的需要,”Anshumali 說。

他的公司最近通過 Pocket-LLM 展示了其技術(shù)的潛力, Pocket-LLM 是一款適用于 Windows 和 Mac 的人工智能輔助文檔管理應用程序,可以在大多數(shù)現(xiàn)代筆記本電腦的 CPU 上輕松運行。

ThirdAI 還提供Bolt Engine,這是一種用于在消費級 CPU 上訓練深度學習模型的 Python API。

Hugging Face 的 Q8-Chat 采取了不同的策略,通過一種稱為量化的模型壓縮技術(shù)實現(xiàn)了其結(jié)果,該技術(shù)將 16 位浮點參數(shù)替換為 8 位整數(shù)。這些不太精確但更容易執(zhí)行并且需要更少的內(nèi)存。

英特爾使用了一種特定的量化技術(shù)SmoothQuant,將 Meta 的LLaMA和 OPT等幾種常見 LLM 的大小減少了一半。

公開的 Q8-Chat 演示基于MPT-7B,這是來自 MosaicML 的開源 LLM,具有 70 億個參數(shù)。

英特爾繼續(xù)為其即將推出的Sapphire Rapids 處理器開發(fā) AI 優(yōu)化,這些處理器用于 Q8-Chat 演示。

該公司最近為 Sapphire Rapids 提交的 MLPerf 3.0 結(jié)果顯示,該處理器在離線場景下的推理性能提升是上一代 Ice Lake 的五倍以上。

同樣,服務器場景的性能提升也是Ice Lake的十倍。

與之前提交的 Sapphire Rapids 相比,英特爾還展示了高達 40% 的改進,這是通過軟件和“特定于工作負載的優(yōu)化”實現(xiàn)的提升。

這并不是說 CPU 現(xiàn)在將在所有 AI 任務中取代 GPU。Simon 認為“總的來說,較小的 LLM 總是更可取”,但他承認“沒有一種瑞士軍刀模型適用于所有用例和所有行業(yè)?!?/p>

盡管如此,該階段看起來仍會增加 CPU 相關(guān)性。Anshumali 特別看好這種潛在的轉(zhuǎn)機,認為需要經(jīng)過調(diào)整以處理特定任務的小型“領(lǐng)域?qū)I(yè) LLM”。

Simon 和 Anshumali 都表示,這些較小的 LLM 不僅效率高,而且在隱私、信任和安全方面也有好處,因為它們消除了依賴第三方控制的大型通用模型的需要。

Anshumali 說:“我們正在構(gòu)建能力,將 CPU 的每個核心都發(fā)揮出來,為大眾提供更好的 AI?!?“我們可以用 CPU 使人工智能民主化?!?/p>


責任編輯:武曉燕 來源: 半導體行業(yè)觀察
相關(guān)推薦

2023-07-04 07:10:13

新卡AMDVega

2016-12-06 09:01:14

2012-04-13 15:44:32

垃圾短信

2017-02-27 16:30:17

windows 10微軟歐盟

2019-10-21 09:10:10

AI 數(shù)據(jù)人工智能

2015-05-08 10:52:39

2010-07-01 12:58:18

SNMP協(xié)議

2024-08-05 14:42:43

2024-03-27 15:44:32

2009-02-10 10:31:57

FireFoxOpera瀏覽器

2015-09-21 14:44:54

物聯(lián)網(wǎng)

2011-04-28 09:54:50

jQuery

2009-08-14 09:19:15

Windows 7XP模式優(yōu)缺點

2013-11-07 10:20:36

2021-08-11 08:29:25

UbuntuLTS發(fā)布模式

2020-09-03 07:27:16

自然語言處理NLP語言

2012-08-28 10:37:39

福布斯云計算壟斷

2013-07-05 14:59:50

程序員GPU

2024-07-09 14:15:48

AIAgent機器人
點贊
收藏

51CTO技術(shù)棧公眾號