自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型“分區(qū)”部署在云和邊緣更合適? 原創(chuàng) 精華

發(fā)布于 2024-6-3 11:49
瀏覽
0收藏

作者 | David Linthicum

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

眾所周知,大型語言模型(LLMs)需要大量的計(jì)算資源。這意味著開發(fā)和部署主要集中在強(qiáng)大的集中式系統(tǒng)上,如公共云提供商。然而,盡管許多人認(rèn)為我們需要大量的GPU和龐大的存儲(chǔ)空間來運(yùn)行生成式AI,但實(shí)際上,存在使用分層或分區(qū)架構(gòu)為特定業(yè)務(wù)用例創(chuàng)造價(jià)值的方法。

不知怎的,有一種聲音認(rèn)為,在生成式AI的時(shí)代背景下,邊緣計(jì)算似乎行不通。這是因?yàn)樯墒紸I模型的處理要求以及推動(dòng)高性能推斷的需求。當(dāng)我提出“邊緣知識(shí)”架構(gòu)時(shí),由于這種聲音,我常常受到質(zhì)疑。我們錯(cuò)過了巨大的創(chuàng)新機(jī)會(huì),讓我們來看看吧。

1.“云+邊緣”混合LLM方法可行嗎?

這種混合方法使兩種基礎(chǔ)設(shè)施類型的效率最大化。在邊緣運(yùn)行某些操作可以顯著降低延遲,這對(duì)于需要即時(shí)反饋的應(yīng)用程序至關(guān)重要,例如交互式AI服務(wù)和實(shí)時(shí)數(shù)據(jù)處理。不需要實(shí)時(shí)響應(yīng)的任務(wù)可以委托給云服務(wù)器。

對(duì)這些模型進(jìn)行分區(qū)提供了一種平衡計(jì)算負(fù)載、提高響應(yīng)速度并增加AI部署效率的方法。該技術(shù)涉及在邊緣設(shè)備、集中式云服務(wù)器或本地服務(wù)器上運(yùn)行LLMs(大型語言模型)的不同部分或版本。

通過分區(qū)LLMs,我們實(shí)現(xiàn)了一種可擴(kuò)展的架構(gòu),其中邊緣設(shè)備處理輕量級(jí)、實(shí)時(shí)任務(wù),而繁重的計(jì)算則卸載到云端。例如,假設(shè)我們正在運(yùn)行分布在世界各地的醫(yī)療掃描設(shè)備?;贏I的圖像處理和分析是這些設(shè)備價(jià)值的核心;然而,如果我們將巨大的圖像發(fā)送回某個(gè)中央計(jì)算平臺(tái)進(jìn)行診斷,那將不是最優(yōu)選擇。網(wǎng)絡(luò)延遲會(huì)延遲部分處理,如果網(wǎng)絡(luò)在某些情況下出現(xiàn)故障(這在許多農(nóng)村地區(qū)可能會(huì)發(fā)生),那么你的業(yè)務(wù)就會(huì)受到影響。

大約80%的診斷測(cè)試可以在靠近掃描儀的低功率設(shè)備上正常運(yùn)行。因此,掃描儀設(shè)計(jì)用于檢測(cè)的常規(guī)事物可以在本地處理,而需要更廣泛或更復(fù)雜的處理的測(cè)試可以推送到中央服務(wù)器進(jìn)行額外診斷。

其他用例包括飛行中噴氣發(fā)動(dòng)機(jī)部件的診斷。用戶會(huì)希望利用AI的力量來監(jiān)控和糾正噴氣發(fā)動(dòng)機(jī)操作中的問題,并且需要在接近實(shí)時(shí)的情況下糾正這些問題。將操作診斷推送回某些集中的AI處理系統(tǒng)不僅不是最佳選擇,而且也不安全。

2.為什么混合LLM架構(gòu)沒有得到廣泛應(yīng)用?

分區(qū)架構(gòu)減少了延遲,節(jié)省了能源和計(jì)算能力。敏感數(shù)據(jù)可以在邊緣設(shè)備上本地處理,通過減少互聯(lián)網(wǎng)上的數(shù)據(jù)傳輸來緩解隱私擔(dān)憂。以我們的醫(yī)療設(shè)備為例,這意味著個(gè)人可識(shí)別信息的擔(dān)憂減少了,數(shù)據(jù)的安全性也更加直接明了。然后,云可以處理一般化、非敏感性的方面,確保采用分層安全方法。

那么,為什么沒有人使用它呢?

首先,它很復(fù)雜。這種架構(gòu)需要思考和規(guī)劃。生成式AI是新的,大多數(shù)AI架構(gòu)師也是新的,他們從推動(dòng)云的云提供商那里獲取架構(gòu)線索。這就是為什么讓特定云提供商的架構(gòu)師設(shè)計(jì)你的AI系統(tǒng)不是一個(gè)好主意。你每次都會(huì)得到一個(gè)云解決方案。云提供商,我在看著你們。

其次,生成式AI生態(tài)系統(tǒng)需要更好的支持。它們?yōu)榧惺健⒒谠频?、本地的或開源的AI系統(tǒng)提供了更好的支持。對(duì)于混合架構(gòu)模式,你必須自己動(dòng)手,盡管市場(chǎng)上有一些有價(jià)值的解決方案,包括支持AI的邊緣計(jì)算工具集。

3.如何構(gòu)建混合LLM架構(gòu)

第一步是評(píng)估LLM(大型語言模型)和AI工具包,并確定哪些組件可以在邊緣有效地運(yùn)行。這通常包括執(zhí)行推理任務(wù)的輕量級(jí)模型或更大模型中的特定層。

復(fù)雜的訓(xùn)練和微調(diào)操作仍然保留在云端或其他持久化系統(tǒng)中。邊緣系統(tǒng)可以預(yù)處理原始數(shù)據(jù)以減少其體積和復(fù)雜性,然后再將其發(fā)送到云端或使用其LLM(或小型語言模型)進(jìn)行處理。預(yù)處理階段包括數(shù)據(jù)清洗、匿名化和初步特征提取,以簡(jiǎn)化后續(xù)的集中處理。

因此,邊緣系統(tǒng)可以扮演兩個(gè)角色:它是將數(shù)據(jù)和API調(diào)用傳遞給集中式LLM的預(yù)處理器,或者它執(zhí)行一些處理/推理,這些處理/推理最好使用邊緣設(shè)備上的小型模型來處理。這種混合邊緣/中心模型提供了最佳效率,因?yàn)閮蓚€(gè)層級(jí)都在協(xié)同工作,同時(shí)我們也在使用盡可能少的資源來實(shí)現(xiàn)最大化效果。

為了使分區(qū)模型能夠協(xié)同工作,邊緣和云系統(tǒng)必須有效地同步。這需要強(qiáng)大的API和數(shù)據(jù)傳輸協(xié)議來確保系統(tǒng)通信的順暢。持續(xù)的同步還允許實(shí)時(shí)更新和模型改進(jìn)。

最后,會(huì)進(jìn)行性能評(píng)估以微調(diào)分區(qū)模型。該過程包括負(fù)載均衡、延遲測(cè)試和資源分配優(yōu)化,以確保架構(gòu)滿足特定應(yīng)用的要求。

將生成式AI的大型語言模型(LLMs)分區(qū)部署在邊緣和中心/云基礎(chǔ)設(shè)施上,是AI部署的下一個(gè)前沿領(lǐng)域。這種混合方法提高了性能和響應(yīng)速度,并優(yōu)化了資源使用和安全性。然而,大多數(shù)企業(yè)甚至技術(shù)提供商都害怕這種架構(gòu),認(rèn)為它太復(fù)雜、太昂貴,并且構(gòu)建和部署速度太慢。

事實(shí)并非如此。不考慮這種選擇意味著你可能會(huì)錯(cuò)過良好的商業(yè)價(jià)值。此外,幾年后像我這樣的人可能會(huì)出現(xiàn)并指出您在AI優(yōu)化方面錯(cuò)過了機(jī)會(huì)。您已經(jīng)被警告過了。

參考鏈接:??https://www.infoworld.com/article/3715488/partitioning-an-llm-between-cloud-and-edge.html??

本文轉(zhuǎn)載自51CTO技術(shù)棧

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦