自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="qkdgw"></blockquote>}

<sub id="qkdgw"></sub>

<cite id="qkdgw"></cite>

<sub id="qkdgw"><s id="qkdgw"></s></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

圖靈獎得主LeCun加盟AI芯片黑馬Groq，估值28億挑戰(zhàn)英偉達(dá)！

作者：新智元 2024-08-06 13:13:46

人工智能新聞

Groq又雙叒給英偉達(dá)上壓力了！不僅之前展現(xiàn)了每秒1256個token的破紀(jì)錄輸出速度，最新獲得的一輪6.4億美元融資更提供了在AI芯片領(lǐng)域挑戰(zhàn)英偉達(dá)的底氣。

英偉達(dá)又雙叒迎來強(qiáng)勁挑戰(zhàn)者了。

成立于2016年的初創(chuàng)公司Groq在最新一輪融資中籌集了 6.4 億美元，由 BlackRock Inc. 基金領(lǐng)投，并得到了思科和三星投資部門的支持。

目前，Groq的估值已經(jīng)達(dá)到28億美元。

公司創(chuàng)始人Jonathan Ross曾在谷歌從事TPU芯片的開發(fā)，而Groq目前的頂梁柱LPU也是專門用于加速AI基礎(chǔ)模型，尤其是LLM。

Ross表示，一旦人們看到在Groq的快速引擎上使用大語言模型有多么方便，LLM的使用量將會進(jìn)一步增加。

以更低的價格和能耗，達(dá)到與英偉達(dá)芯片相同的速度，甚至更快，讓Groq有底氣叫板英偉達(dá)。

值得一提的是，Groq還宣布，圖靈獎得主LeCun即將擔(dān)任技術(shù)顧問。

LeCun的正式加入，成為Groq在競爭激烈的芯片領(lǐng)域一個強(qiáng)大的盟友。

每秒1256.54個token，快如閃電

天下武功，唯快不破。

而能打敗每秒響應(yīng)800個token的Groq只有下一代的Groq。

從500 token到800 token再到1256.54 token/s，Groq如此之快的速度可謂是讓一眾GPU望塵莫及。

隨著7月初新功能的低調(diào)發(fā)布，Groq現(xiàn)在的結(jié)果要比之前演示的要快得多，也智能得多，不僅支持文本查詢，還能輸入語音命令進(jìn)行查詢。

默認(rèn)情況下，Groq 的網(wǎng)站引擎使用Meta的開源Llama3-8b-8192大語言模型。

用戶還可以選擇更大的Llama3-70b，以及來自Google的Gemma和Mistral模型，并且很快也將支持其他模型。

這種快速且靈活的體驗對于開發(fā)者來說非常重要。在傳統(tǒng)AGI處理數(shù)據(jù)時，等待是稀松平常的事情，要看著字符一個一個吐出來再進(jìn)行下一步的操作。

而在最新版本的Groq中，以上任務(wù)幾乎全部瞬間回答，快如閃電。

舉個栗子。比如，在Groq上讓它評論VB Transform活動議程有哪些地方可以加以改進(jìn)。

1225.15token/s的速度——幾乎就在一瞬間回答就彈了出來。

而且內(nèi)容也十分詳細(xì)清楚，包括建議更清晰的分類、更詳細(xì)的會議描述和更好的演講者簡介等等，共十點修改意見。

當(dāng)語音輸入要求推薦一些優(yōu)秀的演講者以使陣容更加多樣化時，它立即生成了一份名單，姓名、所屬組織和可供選擇的演講主題給你安排的明明白白的，并且以清晰表格格式呈現(xiàn)。

要求它追加一列聯(lián)系方式，也瞬間補(bǔ)充好郵箱地址和推特賬號，不在話下。

再舉個栗子。視頻中巴拉巴拉說了一分多鐘，要求Groq為下周的演講課程創(chuàng)建一個日程表格。

Groq不僅耐心地聽懂了，創(chuàng)建了要求的表格，還允許快速輕松地進(jìn)行修改，包括拼寫更正。

還可以改變主意，要求它為我忘記要求的內(nèi)容創(chuàng)建額外的欄目，耐心高效細(xì)致，甲方眼里的完美乙方不過如此。

還可以翻譯成不同的語言。有時會出現(xiàn)發(fā)出了幾次請求才做出更正的情況，但這種錯誤一般是在LLM層面，而不是處理層面。

可以說，從500 token/s到800 token/s再到如今直接拉到每秒四位數(shù)的生成速度，把GPT-4和英偉達(dá)秒的更徹底了。

當(dāng)然，除了「快」之外，此次更新的另一亮點是除了引擎內(nèi)直接輸入查詢，還允許用戶通過語音命令進(jìn)行查詢。

Groq使用了OpenAI的最新開源的自動語音識別和翻譯模型Whisper Large v3，將語音轉(zhuǎn)換為文本，然后作為LLM的提示。

提速增效再加多模態(tài)輸入，不卡頓還能不打字，這種創(chuàng)新的使用方式為用戶提供了極大的便利。

Groq + Llama 3強(qiáng)強(qiáng)聯(lián)合

7月17日，Groq的研究科學(xué)家Rick Lamers又在推特上官宣了一個「秘密項目」——微調(diào)出的Llama3 Groq Synth Tool Use模型8B和70B型號，旨在提升AI的工具使用和函數(shù)調(diào)用能力。

團(tuán)隊結(jié)合了全量微調(diào)和直接偏好優(yōu)化（DPO），并且完全使用符合道德規(guī)范的生成數(shù)據(jù)，沒有涉及任何用戶數(shù)據(jù)。

伯克利函數(shù)調(diào)用排行榜（Berkeley Function-Calling Leaderboard, BFCL）中的數(shù)據(jù)全部來源于真實世界，專門用于評估LLM調(diào)用工具或函數(shù)的的能力。

Groq本次發(fā)布的微調(diào)Llama3 8B和70B的版本都在BFCL上取得了相當(dāng)驚艷的成績，總體準(zhǔn)確率分別為90.76%和89.06%。

其中，70B版本的分?jǐn)?shù)超過了Claude Sonnet 3.5、GPT-4 Turbo、GPT-4o和Gemini 1.5 Pro等專有模型，達(dá)到了BFCL榜單第一的位置。

兩個版本的模型都已開源，用戶可從HuggingFace上下載權(quán)重或通過GroqCloud訪問。

HugggingFace地址：https://huggingface.co/Groq

此外，Groq還在Llama 3的基礎(chǔ)上進(jìn)一步發(fā)揮自己「唯快不破」的秘籍，推出了一款名為Groqbook的應(yīng)用程序，可以在1分鐘內(nèi)內(nèi)生成出一整本書。

GitHub地址：https://github.com/Bklieger/groqbook

根據(jù)GitHub主頁的介紹，Groqbook混合使用了Llama3-8B和70B兩個模型，用較大模型生成結(jié)構(gòu)，再讓較小模型創(chuàng)作具體內(nèi)容。

目前，這個程序只適用于非虛構(gòu)類書籍，并需要用戶輸入每一章節(jié)的標(biāo)題作為上下文。

Groq表示，未來將讓Groqbook生成整本書內(nèi)容，并擴(kuò)展到虛構(gòu)類書籍，創(chuàng)作出高質(zhì)量的小說。

開發(fā)者4個月突破28萬

解決了用戶使用的核心痛點，Groq自然備受使用者歡迎。

上線4個月后，Groq已經(jīng)開始免費提供服務(wù)來處理LLM工作負(fù)載，吸引了超過28.2萬名開發(fā)者使用。

Groq提供了一個平臺供開發(fā)者構(gòu)建他們的應(yīng)用程序，類似于其他推理服務(wù)提供商。

然而，Groq的特別之處在于，它允許在OpenAI上構(gòu)建應(yīng)用程序的開發(fā)者通過簡單的步驟在幾秒鐘內(nèi)將他們的應(yīng)用程序遷移到Groq。

Ross表示他將很快專注于需求量極大的企業(yè)市場。大公司正在廣泛推進(jìn)AI應(yīng)用的部署，因此需要更高效的處理能力來應(yīng)對他們的工作負(fù)載。

Groq表示，其技術(shù)在最壞情況下使用的功率約為GPU的三分之一，而大多數(shù)工作負(fù)載僅使用十分之一的功率。

在LLM工作負(fù)載不斷擴(kuò)展、能源需求持續(xù)增長的背景下，Groq的高效性能對GPU主導(dǎo)的計算領(lǐng)域構(gòu)成了挑戰(zhàn)。

Nvidia雖然擅長AI訓(xùn)練但在推理方面存在局限，Groq的芯片在推理速度和成本上都有數(shù)倍優(yōu)勢，未來推理市場的份額將從現(xiàn)在的5%提升到90%-95%。

Ross自信聲稱，到明年底將部署150萬個LPU，占據(jù)全球推理需求半壁江山。

LPU：快，真的快

目前來說，模型訓(xùn)練雖然首選GPU，但是部署AI應(yīng)用程序時，更高的效率和更低的延遲也極為重要。

正如Groq第一次闖入大眾視野是因為一個字，「快」，Groq此次提速繼續(xù)在速度的賽道狂飆。

Groq承諾可以比競爭對手更快更經(jīng)濟(jì)地完成任務(wù)，在一定程度上得益于其語言處理單元（LPU)。

相比GPU，LPU減少了管理多個線程的開銷，并避免了核心利用率不足。此外，Groq 的芯片設(shè)計還允許連接多個專用核心，而不會出現(xiàn) GPU 集群中出現(xiàn)的傳統(tǒng)瓶頸。

LPU的工作原理和 GPU存在顯著差異，具體來說，LPU采用的是時序指令集計算機(jī)（Temporal Instruction Set Computer）架構(gòu)，這一架構(gòu)的特性就是無需像依賴高帶寬存儲器（HBM）的GPU那樣，頻繁地從內(nèi)存中加載數(shù)據(jù)。

LPU不依賴外部內(nèi)存，其權(quán)重、鍵值緩存（KV Cache）和激活函數(shù)等數(shù)據(jù)在處理期間全部存儲在芯片內(nèi)，不僅能夠巧妙規(guī)避HBM短缺所帶來的困擾，還能切實有效地削減成本。

與Nvidia GPU對高速數(shù)據(jù)傳輸?shù)囊蕾囉兴煌?，Groq的LPU在其系統(tǒng)架構(gòu)中并未采用HBM，而是選用了SRAM。

由于每塊芯片只配備了230MB的SRAM，沒有任何復(fù)雜的模型能夠僅通過單個芯片運行。值得一提的是，SRAM的速度相較GPU所使用的存儲器約快20倍。

鑒于AI的推理計算所需的數(shù)據(jù)量相較于模型訓(xùn)練大幅減少，Groq的LPU展現(xiàn)出更為出色的節(jié)能優(yōu)勢。

在執(zhí)行推理任務(wù)時，其從外部內(nèi)存讀取的數(shù)據(jù)量顯著降低，所消耗的電量也明顯低于GPU。

遺憾的是，英偉達(dá)的GPU可以同時用于訓(xùn)練和推理，但LPU僅為模型推理設(shè)計。

責(zé)任編輯：張燕妮來源：新智元

模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營