自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌擁抱英偉達!推出云端GPU,把AI引進無服務器,開源大模型愛好者福利來了 原創(chuàng)

發(fā)布于 2024-8-22 13:35
瀏覽
0收藏

編輯 | 言征

有點震驚,谷歌也開始擁抱英偉達的GPU了!

盡管有著自家的TPU,但為了更好地市場競爭,英偉達的GPU終究是繞不開(皮衣客黃教主盡情笑吧!)

近日,谷歌抖了大料:不僅推出了云端的GPU,把AI引進了Serverless,同時贈送了幾個開源大模型以供開發(fā)者進行部署和微調。

這對開源大模型愛好者們而言是一個重大利好:省事更省錢了。

這相當于不管是硬件的算力,還是軟件層面的大模型,谷歌直接給出了一個完整的全家桶,不必再苦于本地設備的能力不足,而不能體驗性能領先的開源大模型了!在此基礎上,開源開發(fā)者可以創(chuàng)建自己的Copilot、智能體等應用程序。 

1.谷歌推出云端GPU,附帶開源LLM

如果你熱愛開源AI,但卻沒有在本地運行AI模型的計算能力,谷歌今天的消息的確令人興奮。

據(jù)悉,谷歌正在將英偉達的L4 GPU引入其云服務。L4 GPU是H100 GPU的輕量級版本,曾用于訓練Meta的Llama 3.1和OpenAI的GPT-4o模型。

開發(fā)者可以登錄谷歌的Cloud Run,在容器中加載Ollama,啟動開源LLM,如谷歌的Gemma 2或Meta的Llama 3.1,指向L4 GPU,然后進行推理。具體指令將在下文提供。

2.將 AI 引入無服務器世界

Cloud Run是 Google 的全托管無服務器平臺,由于能夠簡化容器部署和管理,因此一直受到開發(fā)人員的青睞。然而,人工智能工作負載(尤其是需要實時處理的工作負載)的需求不斷增加,凸顯了對更強大的計算資源的需求。

GPU 支持的集成將為 Cloud Run 開發(fā)者開辟了廣泛的用例,包括:

  • 使用輕量級開放模型(例如 Gemma 2B/7B 或 Llama3 (8B))進行實時推理,可以創(chuàng)建響應式自定義聊天機器人和即時文檔摘要工具。
  • 提供定制的微調生成式 AI 模型,包括可根據(jù)需求擴展的品牌特定圖像生成應用程序。
  • 加速圖像識別、視頻轉碼和 3D 渲染等計算密集型服務,并能夠在不使用時擴展到零。

3.GPU的無服務器玩法

Google Cloud Run 無服務器產品現(xiàn)在集成了 Nvidia L4 GPU,使組織能夠運行無服務器推理。

無服務器服務的承諾是,服務僅在需要時運行,用戶只需為使用的內容付費。這與典型的云實例形成對比,后者將作為持久服務運行一段時間,并且始終可用。在這種情況下,無服務器服務只會在需要時啟動和使用用于推理的 GPU。

無服務器推理可以部署為Nvidia NIM,以及其他框架(例如 VLLM、Pytorch 和 Ollama)。Nvidia L4 GPU 的添加目前處于預覽階段。

Google Cloud Serverless 產品經理 Sagar Randive 告訴 VentureBeat:“隨著客戶越來越多地采用 AI,他們正在尋求在他們熟悉并啟動的平臺上運行推理等 AI 工作負載。” “Cloud Run 用戶更喜歡該平臺的效率和靈活性,并一直要求谷歌增加 GPU 支持?!?/p>

4.運行無服務器 AI 推理會更便宜嗎?

無服務器的一個常見問題是性能。畢竟,如果服務并非始終運行,那么僅僅為了讓服務從所謂的冷啟動運行,性能就會受到影響。


Google Cloud 旨在消除任何此類性能擔憂,并引用了新的支持 GPU 的 Cloud Run 實例的一些令人印象深刻的指標。據(jù) Google 稱,包括 Gemma 2b、Gemma2 9b、Llama2 7b/13b 和 Llama 3.1 8b 在內的各種型號的冷啟動時間范圍為 11 到 35 秒,展示了該平臺的響應能力。


每個 Cloud Run 實例均可配備一個 Nvidia L4 GPU,最高可配備 24GB vRAM,為許多常見的 AI 推理任務提供充足的資源。


Google Cloud 還計劃在運行哪些模型方面做到與模型無關,不過它在某種程度上也采取了兩面下注的做法。

“我們不限制任何 LLM,用戶可以運行他們想要的任何模型,”Randive 說道?!暗珵榱双@得最佳性能,建議他們在 13B 參數(shù)下運行模型?!?/p>

無服務器的一個關鍵優(yōu)勢是更好地利用硬件,這也意味著更低的成本。

至于對于組織來說,以無服務器或長期運行的服務器方式提供人工智能推理是否實際上更便宜,這是一個有點微妙的問題。

“這取決于應用程序和預期的流量模式,”Randive 表示?!拔覀儗⒏挛覀兊亩▋r計算器,以反映 Cloud Run 的新 GPU 價格,屆時客戶將能夠比較他們在各個平臺上的總運營成本?!?/p>

5.終于,為開源社區(qū)提供服務

谷歌終于擁有了一個完整的硬件和軟件包,開源開發(fā)者可以在此基礎上利用開源模型創(chuàng)建應用程序。開發(fā)者可以完全控制前端和后端,并可以通過Cloud Run指向谷歌云中的L4。

到目前為止,Cloud Run服務僅限于谷歌的專有模型,包括Gemini 1.0 LLM、用于圖像生成的Imagen以及用于多模態(tài)模型的Gemini 1.5 Flash。


現(xiàn)在,Cloud Run已經擁有了Gemma 2(Gemini的開源版本)和Llama 3.1。L4 GPU也是一個新增的功能,可用于在開源模型上進行推理。

6.在PC上本地運行LLM的替代方案

谷歌提供的服務避免了在PC上加載Ollama并本地運行LLM的繁瑣過程。谷歌的Cloud Run可以在30秒內加載LLM和Ollama。

在大多數(shù)情況下,大多數(shù)PC都沒有運行具有大上下文窗口的LLM所需的GPU。像LM Studio這樣的應用程序已經可以實現(xiàn)下載LLM,并且該軟件會顯示這些LLM是否可以在本地GPU上運行,但這仍然需要時間。

Cloud Run上提供的最新模型包括擁有90億參數(shù)的Gemma 2和擁有80億參數(shù)的Llama 3.1。其他可用的模型還包括擁有130億參數(shù)的Llama 2和擁有20億參數(shù)的Gemma。

谷歌表示,配備L4 GPU的Cloud Run實例將在大約5秒內加載,之后還需要幾秒鐘的時間用Ollama初始化框架和模型。整個LLM的大小可達7.4GB,可以在幾秒鐘內完成下載和初始化。

最小的20億參數(shù)的Gemma模型需要11到17秒,而最新的90億參數(shù)的Gemma 2需要25到30秒。80億參數(shù)的Llama 3.1需要15到21秒來加載。

7.關于定價:是否值得一試

谷歌尚未公布在L4 GPU上運行開源Llama和Gemma模型的定價。但根據(jù)目前的定價結構,在谷歌云上運行Gemma的成本很高,使用L4作為云GPU的起步價為516美元。

谷歌承諾每月免費提供兩百萬次請求,不過業(yè)內實際情況比較復雜,當幾乎所有變量都考慮在內時,客戶通常最終可能會選擇支付費用。

時間就是金錢,而且你沒有本地的處理能力,那么L4可能是最便宜的GPU選擇;但如果你已經投資了一臺配備頂級GPU的筆記本電腦,并且可以等待10到20分鐘來下載、調整和加載LLM,那么還是堅持使用本地設備吧。

目前,Cloud Run GPU僅在谷歌位于美國中部1區(qū)(愛荷華州)可用,預計今年年底將在歐洲和亞洲上線。谷歌在一封電子郵件中表示:“我們未來可能會提供更多GPU選項,并擴展到更多地區(qū)?!?/p>

8.寫在最后:谷歌對待AI開發(fā)的玩法變了

要知道此前,開發(fā)者們一般是借用了谷歌Colab上可用的硬件來進行推理。這很簡單,只需使用帶有Python腳本的Jupyter筆記本,選擇硬件(CPU、GPU或TPU),然后運行視頻、圖像、文本或語音AI應用程序。

免費層級原本僅供研究人員使用,因此有人認為這會導致一部分人在濫用這一資源。

所以,后來谷歌Colab最終取消了廣泛的GPU訪問權限的免費使用。大多數(shù)應用程序無法利用谷歌的TPU,而是默認使用CPU,這非常緩慢。

現(xiàn)在Colab上唯一提供的GPU是接近八年歷史的英偉達T4。

不過,今天我們看到了Google似乎開始篤定的走上“GPU+無服務器”這條道路了,畢竟AI開發(fā)的需求已經毫無疑問地成為了新的增長引擎。

本文轉載自??51CTO技術棧??,作者:言征

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2024-8-22 14:51:35修改
收藏
回復
舉報
回復
相關推薦