英偉達(dá)AI Foundary與NIM:巨大競(jìng)爭(zhēng)優(yōu)勢(shì)由此顯現(xiàn)
英偉達(dá)已經(jīng)充實(shí)了完整的軟件技術(shù)棧,旨在簡(jiǎn)化面向企業(yè)客戶(hù)的定制模型開(kāi)發(fā)與部署流程。這是否代表著AI Nervana目標(biāo)的實(shí)現(xiàn)?AMD和英特爾又該如何與之抗衡?
為了推動(dòng)企業(yè)客戶(hù)擁抱AI,其準(zhǔn)入門(mén)檻與經(jīng)濟(jì)效益必須進(jìn)一步優(yōu)化。英偉達(dá)為此重新發(fā)布了AI Foundry項(xiàng)目,旨在幫助企業(yè)適應(yīng)并采用AI以滿(mǎn)足自身業(yè)務(wù)需求,同時(shí)擺脫從頭開(kāi)始的復(fù)雜步驟以及數(shù)額可觀的資金投入。
這個(gè)時(shí)機(jī)選得恰到好處,目前投資者越來(lái)越擔(dān)心企業(yè)可能很難從AI投資當(dāng)中獲得良好回報(bào)。如果沒(méi)有企業(yè)采用,AI技術(shù)將遭遇失敗,我們也將再次身陷AI寒冬。為了駁斥這種觀點(diǎn),英偉達(dá)計(jì)劃在下一次財(cái)報(bào)電話(huà)會(huì)議上分享關(guān)于企業(yè)投資回報(bào)率的故事。而此番公布的AI Foundry加NIM組合,也許會(huì)成為大多數(shù)企業(yè)后續(xù)前進(jìn)的標(biāo)準(zhǔn)路線(xiàn)。雖然這個(gè)故事中的許多組件來(lái)自開(kāi)源社區(qū),但其只能在英偉達(dá)GPU上運(yùn)行。而且據(jù)我們所知,還沒(méi)有哪家芯片廠商擁有與NIM或者AI Foundry相近的方案選項(xiàng)。
AI Foundry究竟是什么?
英偉達(dá)AI Foundry是一整套軟件、模型與專(zhuān)家服務(wù)的組合,旨在幫助企業(yè)輕松起步并完成自己的AI探索之旅。那這樣的定位是否會(huì)讓英偉達(dá)與IBM和埃森哲等生態(tài)系統(tǒng)咨詢(xún)合作伙伴發(fā)生沖突?畢竟埃森哲一直在使用英偉達(dá)AI Foundry改造其內(nèi)部企業(yè)職能,并借助自己學(xué)習(xí)到的知識(shí)建立起了Accenture AI Refinery來(lái)幫助客戶(hù)完成同樣的探索。此外,德勤也正在摸索類(lèi)似的前進(jìn)道路。
自定義模型的創(chuàng)建工作流程。
根據(jù)英偉達(dá)就Foundry項(xiàng)目發(fā)表的博文介紹,“如同臺(tái)積電根據(jù)其他廠商的設(shè)計(jì)圖制造芯片一樣,英偉達(dá)AI Foundry的定位也是為其他公司提供基礎(chǔ)設(shè)施與工具以開(kāi)發(fā)并定制AI模型——具體組件包括DGX Cloud、基礎(chǔ)模型、英偉達(dá)NeMo軟件、英偉達(dá)專(zhuān)業(yè)知識(shí)以及生態(tài)系統(tǒng)工具和支持。”
英偉達(dá)Foundry最初于2023年年底推出,當(dāng)時(shí)主要面向微軟Azure托管AI。在此之后,英偉達(dá)招募了數(shù)十家合作伙伴幫助其交付這套平臺(tái),包括亞馬遜云科技、Google Cloud和Oracle Cloud,以及數(shù)十家生成式AI公司、模型開(kāi)發(fā)商、集成商以及OEM伙伴。
隨著新合作伙伴的涌現(xiàn),英偉達(dá)AI Foundry的生態(tài)系統(tǒng)也迎來(lái)了蓬勃發(fā)展。
英偉達(dá)AI Foundry服務(wù)匯聚了打造特定數(shù)據(jù)集或者企業(yè)定制化模型所必需的三大要素——英偉達(dá)AI基礎(chǔ)模型集合、英偉達(dá)NeMo框架及工具,以及英偉達(dá)DGX Cloud AI超級(jí)計(jì)算服務(wù)。三者合一,將為企業(yè)提供一套用于構(gòu)建定制化生成式AI模型的端到端解決方案。
但說(shuō)到這里,很多朋友可能想到了RAG——這不就是檢索增強(qiáng)生成的作用嗎?沒(méi)錯(cuò),RAG確實(shí)能夠很好地將企業(yè)中的特定數(shù)據(jù)添加到大模型當(dāng)中,但英偉達(dá)表示,F(xiàn)oundry所生成的定制模型在準(zhǔn)確度方面要比簡(jiǎn)單掛載RAG的方案高出十個(gè)百分點(diǎn)。這10%的差異,足以決定一套模型到底足夠投入生產(chǎn),還是被徹底扔進(jìn)垃圾堆。
還有NIM
NIM提供的則是必要構(gòu)建塊,能夠大大簡(jiǎn)化并擴(kuò)展Foundry能夠發(fā)揮作用的領(lǐng)域范圍。英偉達(dá)分享了其面向各個(gè)領(lǐng)域打造的50多個(gè)NIM。有些朋友可能不太熟悉,NIM是指英偉達(dá)NIM Factory構(gòu)建的容器化推理處理微服務(wù),而擁有AI許可證的企業(yè)客戶(hù)還能訪(fǎng)問(wèn)ai.nvidia.com上不斷增長(zhǎng)的NIM資源庫(kù)。
英偉達(dá)NIM正在迅速增長(zhǎng),涵蓋了大多數(shù)主要的數(shù)據(jù)和AI模式。
就在Foundry發(fā)布的同時(shí),恰逢Meta推出了自己的開(kāi)源大模型Llama 3.1 405B——這是首個(gè)能夠與OpenAI、谷歌乃至其他廠商的頂尖閉源AI模型相媲美的開(kāi)放模型,在常識(shí)、可操縱性、數(shù)學(xué)、工具使用以及多語(yǔ)言翻譯等方面均具備最先進(jìn)的能力。Meta認(rèn)為最新一代的Llama將激發(fā)新的應(yīng)用與建模范式,包括用于改進(jìn)和訓(xùn)練較小模型的合成數(shù)據(jù)生成,以及模型蒸餾功能。英偉達(dá)Foundry還支持Nemotron、谷歌DeepMind的CodeGemma、CodeLlama、谷歌DeepMind的Gemma、Mistral、Mixtral、Phi-3、StarCoder2等項(xiàng)目。
借此良機(jī),英偉達(dá)表示其經(jīng)過(guò)優(yōu)化的NIM能夠提高Llama 3.1等模型的性能。英偉達(dá)TensorRT-LLM等推理解決方案則可提高Llama 3.1模型的效率,從而最大限度降低延遲并盡可能提高吞吐量,幫助企業(yè)更快生成token,最終降低在生產(chǎn)環(huán)境下運(yùn)行大模型的總成本。
相較于Meta公布的Llama 3.1,NIM在同等硬件上能夠?qū)崿F(xiàn)更強(qiáng)的性能。
英偉達(dá)此次還發(fā)布了四項(xiàng)新的NeMo Retriever NIM微服務(wù),使得企業(yè)能夠擴(kuò)展至“代理AI”工作流程(即AI應(yīng)用程序在最少干預(yù)或者監(jiān)督之下準(zhǔn)確運(yùn)行),同時(shí)提供最高精度的檢索增強(qiáng)生成(RAG)功能。這些新的NeMo Retriever嵌入和重新排名的NIM微服務(wù)目前已經(jīng)全面開(kāi)放:
- NV-EmbedQA-E5-v5是一種流行的社區(qū)基礎(chǔ)嵌入模型,針對(duì)文本問(wèn)答檢索進(jìn)行了優(yōu)化。
- NV-EmbedQA-Mistral7B-v2是一種流行的多語(yǔ)言社區(qū)基礎(chǔ)模型,針對(duì)文本嵌入進(jìn)行了微調(diào),能夠?qū)崿F(xiàn)高精度問(wèn)答功能。
- Snowflake-Arctic-Embed-L是一種經(jīng)過(guò)優(yōu)化的社區(qū)模型。
- NV-RerankQA-Mistral4B-v3是一種流行的社區(qū)基礎(chǔ)模型,針對(duì)文本重新排名進(jìn)行了微調(diào),旨在實(shí)現(xiàn)高精度問(wèn)答能力。
英偉達(dá)在相關(guān)博文當(dāng)中解釋道,“NeMo Retriever兼具雙方面優(yōu)勢(shì),既通過(guò)使用嵌入NIM來(lái)廣泛進(jìn)行數(shù)據(jù)檢索,同時(shí)又使用重新排序的NIM以修剪結(jié)果的相關(guān)性。NeMo Retriever能夠幫助開(kāi)發(fā)人員構(gòu)建起相應(yīng)管線(xiàn),確保為自己的企業(yè)提供最有用、最準(zhǔn)確的結(jié)果?!?/p>
NIM應(yīng)用示例:醫(yī)療保健聊天機(jī)器人
這里來(lái)看相關(guān)示例。假設(shè)我們想要構(gòu)建一款數(shù)字助手來(lái)幫助患者獲取個(gè)性化信息。英偉達(dá)展示了如何將3個(gè)代理智能體加9個(gè)NIM來(lái)構(gòu)建一款助手應(yīng)用程序。整個(gè)效果與Nervana的目標(biāo)非常接近,且遠(yuǎn)遠(yuǎn)走出了競(jìng)爭(zhēng)對(duì)手所能交付的一切實(shí)際產(chǎn)品。
可以使用一組NIM來(lái)創(chuàng)建醫(yī)療保健數(shù)字助手。
總結(jié)
雖然競(jìng)爭(zhēng)對(duì)手仍在努力提高加速器的性能和連接能力,但英偉達(dá)已經(jīng)開(kāi)辟出支持AI采用的軟件新賽道。目前來(lái)看,市面上似乎并不存在NIM或者Foundry項(xiàng)目的直接競(jìng)爭(zhēng)對(duì)手。當(dāng)然,Transformer Engine和TensorRT-LLM也同樣獨(dú)樹(shù)一幟,相較于不具備此類(lèi)功能的GPU可實(shí)現(xiàn)2到4倍的性能增益。
隨著企業(yè)努力適應(yīng)并采用匹配其業(yè)務(wù)和應(yīng)用程序的定制化模型,英偉達(dá)正在開(kāi)拓一條通往企業(yè)級(jí)AI的新捷徑。
至于定價(jià)問(wèn)題,NIM已經(jīng)包含在各GPU的Enterprise AI許可證之內(nèi);而Foundry則須根據(jù)客戶(hù)的實(shí)際情況單獨(dú)定價(jià),不在Enterprise AI的服務(wù)范圍。