自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

大模型“分區(qū)”部署在云和邊緣更合適？原創(chuàng) 精華

51CTO技術(shù)棧

發(fā)布于 2024-6-3 11:49

瀏覽

0收藏

作者 | David Linthicum

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

眾所周知，大型語言模型（LLMs）需要大量的計(jì)算資源。這意味著開發(fā)和部署主要集中在強(qiáng)大的集中式系統(tǒng)上，如公共云提供商。然而，盡管許多人認(rèn)為我們需要大量的GPU和龐大的存儲(chǔ)空間來運(yùn)行生成式AI，但實(shí)際上，存在使用分層或分區(qū)架構(gòu)為特定業(yè)務(wù)用例創(chuàng)造價(jià)值的方法。

不知怎的，有一種聲音認(rèn)為，在生成式AI的時(shí)代背景下，邊緣計(jì)算似乎行不通。這是因?yàn)樯墒紸I模型的處理要求以及推動(dòng)高性能推斷的需求。當(dāng)我提出“邊緣知識(shí)”架構(gòu)時(shí)，由于這種聲音，我常常受到質(zhì)疑。我們錯(cuò)過了巨大的創(chuàng)新機(jī)會(huì)，讓我們來看看吧。

1.“云+邊緣”混合LLM方法可行嗎？

這種混合方法使兩種基礎(chǔ)設(shè)施類型的效率最大化。在邊緣運(yùn)行某些操作可以顯著降低延遲，這對(duì)于需要即時(shí)反饋的應(yīng)用程序至關(guān)重要，例如交互式AI服務(wù)和實(shí)時(shí)數(shù)據(jù)處理。不需要實(shí)時(shí)響應(yīng)的任務(wù)可以委托給云服務(wù)器。

對(duì)這些模型進(jìn)行分區(qū)提供了一種平衡計(jì)算負(fù)載、提高響應(yīng)速度并增加AI部署效率的方法。該技術(shù)涉及在邊緣設(shè)備、集中式云服務(wù)器或本地服務(wù)器上運(yùn)行LLMs（大型語言模型）的不同部分或版本。

通過分區(qū)LLMs，我們實(shí)現(xiàn)了一種可擴(kuò)展的架構(gòu)，其中邊緣設(shè)備處理輕量級(jí)、實(shí)時(shí)任務(wù)，而繁重的計(jì)算則卸載到云端。例如，假設(shè)我們正在運(yùn)行分布在世界各地的醫(yī)療掃描設(shè)備?；贏I的圖像處理和分析是這些設(shè)備價(jià)值的核心；然而，如果我們將巨大的圖像發(fā)送回某個(gè)中央計(jì)算平臺(tái)進(jìn)行診斷，那將不是最優(yōu)選擇。網(wǎng)絡(luò)延遲會(huì)延遲部分處理，如果網(wǎng)絡(luò)在某些情況下出現(xiàn)故障（這在許多農(nóng)村地區(qū)可能會(huì)發(fā)生），那么你的業(yè)務(wù)就會(huì)受到影響。

大約80%的診斷測(cè)試可以在靠近掃描儀的低功率設(shè)備上正常運(yùn)行。因此，掃描儀設(shè)計(jì)用于檢測(cè)的常規(guī)事物可以在本地處理，而需要更廣泛或更復(fù)雜的處理的測(cè)試可以推送到中央服務(wù)器進(jìn)行額外診斷。

其他用例包括飛行中噴氣發(fā)動(dòng)機(jī)部件的診斷。用戶會(huì)希望利用AI的力量來監(jiān)控和糾正噴氣發(fā)動(dòng)機(jī)操作中的問題，并且需要在接近實(shí)時(shí)的情況下糾正這些問題。將操作診斷推送回某些集中的AI處理系統(tǒng)不僅不是最佳選擇，而且也不安全。

2.為什么混合LLM架構(gòu)沒有得到廣泛應(yīng)用？

分區(qū)架構(gòu)減少了延遲，節(jié)省了能源和計(jì)算能力。敏感數(shù)據(jù)可以在邊緣設(shè)備上本地處理，通過減少互聯(lián)網(wǎng)上的數(shù)據(jù)傳輸來緩解隱私擔(dān)憂。以我們的醫(yī)療設(shè)備為例，這意味著個(gè)人可識(shí)別信息的擔(dān)憂減少了，數(shù)據(jù)的安全性也更加直接明了。然后，云可以處理一般化、非敏感性的方面，確保采用分層安全方法。

那么，為什么沒有人使用它呢？

首先，它很復(fù)雜。這種架構(gòu)需要思考和規(guī)劃。生成式AI是新的，大多數(shù)AI架構(gòu)師也是新的，他們從推動(dòng)云的云提供商那里獲取架構(gòu)線索。這就是為什么讓特定云提供商的架構(gòu)師設(shè)計(jì)你的AI系統(tǒng)不是一個(gè)好主意。你每次都會(huì)得到一個(gè)云解決方案。云提供商，我在看著你們。

其次，生成式AI生態(tài)系統(tǒng)需要更好的支持。它們?yōu)榧惺健⒒谠频?、本地的或開源的AI系統(tǒng)提供了更好的支持。對(duì)于混合架構(gòu)模式，你必須自己動(dòng)手，盡管市場(chǎng)上有一些有價(jià)值的解決方案，包括支持AI的邊緣計(jì)算工具集。

3.如何構(gòu)建混合LLM架構(gòu)

第一步是評(píng)估LLM（大型語言模型）和AI工具包，并確定哪些組件可以在邊緣有效地運(yùn)行。這通常包括執(zhí)行推理任務(wù)的輕量級(jí)模型或更大模型中的特定層。

復(fù)雜的訓(xùn)練和微調(diào)操作仍然保留在云端或其他持久化系統(tǒng)中。邊緣系統(tǒng)可以預(yù)處理原始數(shù)據(jù)以減少其體積和復(fù)雜性，然后再將其發(fā)送到云端或使用其LLM（或小型語言模型）進(jìn)行處理。預(yù)處理階段包括數(shù)據(jù)清洗、匿名化和初步特征提取，以簡(jiǎn)化后續(xù)的集中處理。

因此，邊緣系統(tǒng)可以扮演兩個(gè)角色：它是將數(shù)據(jù)和API調(diào)用傳遞給集中式LLM的預(yù)處理器，或者它執(zhí)行一些處理/推理，這些處理/推理最好使用邊緣設(shè)備上的小型模型來處理。這種混合邊緣/中心模型提供了最佳效率，因?yàn)閮蓚€(gè)層級(jí)都在協(xié)同工作，同時(shí)我們也在使用盡可能少的資源來實(shí)現(xiàn)最大化效果。

為了使分區(qū)模型能夠協(xié)同工作，邊緣和云系統(tǒng)必須有效地同步。這需要強(qiáng)大的API和數(shù)據(jù)傳輸協(xié)議來確保系統(tǒng)通信的順暢。持續(xù)的同步還允許實(shí)時(shí)更新和模型改進(jìn)。

最后，會(huì)進(jìn)行性能評(píng)估以微調(diào)分區(qū)模型。該過程包括負(fù)載均衡、延遲測(cè)試和資源分配優(yōu)化，以確保架構(gòu)滿足特定應(yīng)用的要求。

將生成式AI的大型語言模型（LLMs）分區(qū)部署在邊緣和中心/云基礎(chǔ)設(shè)施上，是AI部署的下一個(gè)前沿領(lǐng)域。這種混合方法提高了性能和響應(yīng)速度，并優(yōu)化了資源使用和安全性。然而，大多數(shù)企業(yè)甚至技術(shù)提供商都害怕這種架構(gòu)，認(rèn)為它太復(fù)雜、太昂貴，并且構(gòu)建和部署速度太慢。

事實(shí)并非如此。不考慮這種選擇意味著你可能會(huì)錯(cuò)過良好的商業(yè)價(jià)值。此外，幾年后像我這樣的人可能會(huì)出現(xiàn)并指出您在AI優(yōu)化方面錯(cuò)過了機(jī)會(huì)。您已經(jīng)被警告過了。

參考鏈接：??https://www.infoworld.com/article/3715488/partitioning-an-llm-between-cloud-and-edge.html??

本文轉(zhuǎn)載自51CTO技術(shù)棧

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

玩轉(zhuǎn)大模型！用Replicate一鍵部署

開發(fā)者阿橙 ? 4435瀏覽 ? 0回復(fù)
大模型應(yīng)用落地：如何選擇合適的 Embedding 模型？

玄姐聊AGI ? 4353瀏覽 ? 0回復(fù)
你想在本地部署大模型嗎？本地部署大模型的三種工具

AI探索時(shí)代 ? 4811瀏覽 ? 0回復(fù)
利用多Lora節(jié)省大模型部署成本

卓勝微wjp ? 2435瀏覽 ? 0回復(fù)
關(guān)于大模型在企業(yè)生產(chǎn)環(huán)境中的獨(dú)立部署問題

AI探索時(shí)代 ? 2496瀏覽 ? 0回復(fù)
什么時(shí)候Mahalanobis距離比歐式距離更合適？

魚蟲子 ? 2000瀏覽 ? 0回復(fù)
大模型部署解決方案之TorchServe+vLLM

夜行神魚 ? 2270瀏覽 ? 0回復(fù)
大模型部署調(diào)用(vLLM+LangChain)

一起AI技術(shù) ? 4484瀏覽 ? 0回復(fù)
在趨動(dòng)云上使用xinference部署大模型

一起AI技術(shù) ? 2550瀏覽 ? 0回復(fù)
4090單卡部署滿血 671B DeepSeek，本地部署“成本驟降32倍”?。。?/a>

玄姐聊AGI ? 6135瀏覽 ? 0回復(fù)
從大模型性能優(yōu)化到DeepSeek部署

卓勝微wjp ? 4140瀏覽 ? 0回復(fù)
DeepSeek R1 全系列模型部署指南

芝士AI吃魚 ? 6920瀏覽 ? 0回復(fù)
在 Hugging Face 上部署語音轉(zhuǎn)語音模型

mb67d4200f74d5e ? 1057瀏覽 ? 0回復(fù)
【模型部署】在Dify中接入ComfyUI+Flux實(shí)現(xiàn)文生圖

一起AI技術(shù) ? 2970瀏覽 ? 0回復(fù)
Agent模型能力哪家最強(qiáng)？一文選出最合適Agent大模型

石映飛云 ? 1217瀏覽 ? 0回復(fù)
在企業(yè)場(chǎng)景中應(yīng)該怎么部署大模型——大模型企業(yè)級(jí)部署框架介紹

AI探索時(shí)代 ? 1382瀏覽 ? 0回復(fù)
部署一個(gè)大模型，到底需要多大機(jī)器？

hm673c38238a021 ? 1069瀏覽 ? 0回復(fù)
讓哪吒用上DeepSeek，讓OpenVINO加速邊緣計(jì)算

Wordsworth_Jin ? 451瀏覽 ? 0回復(fù)
大模型部署框架Ollama和vLLM怎么選？一文講透兩大框架的優(yōu)缺點(diǎn)和適用場(chǎng)景

AI博物院 ? 1149瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

微軟突然封鎖Cursor，全面禁用C、C++、C#擴(kuò)展，網(wǎng)友：理解微軟，Cursor白嫖VSCode 0回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：騰訊元寶全面測(cè)評(píng)！國(guó)產(chǎn)AI“看劇”時(shí)代開啟！讀懂《慶余年》范閑，揭秘奧特曼宮斗！

下一篇：被作者刪庫(kù)的Llama 3-V原文再現(xiàn)！效果匹敵GPT4-V，區(qū)區(qū)不到500 美元，如何做到的

社區(qū)精華內(nèi)容

目錄

<style id="xizgh"></style>