AI尚處于早期階段:僅有25%的企業(yè)部署了該技術(shù),很少有企業(yè)獲得回報(bào)
2025年有望成為AI真正落地的一年,AI為企業(yè)帶來(lái)具體且切實(shí)的利益。
然而,根據(jù)AI開(kāi)發(fā)平臺(tái)Vellum發(fā)布的一份最新《AI發(fā)展?fàn)顟B(tài)報(bào)告》,我們離這一目標(biāo)還有一段距離:僅有25%的企業(yè)已將AI部署到生產(chǎn)環(huán)境中,而其中只有四分之一的企業(yè)看到了可衡量的影響。
這似乎表明,許多企業(yè)尚未找到AI的可行應(yīng)用場(chǎng)景,因此它們(至少目前)仍處于預(yù)構(gòu)建階段的持幣觀望狀態(tài)。
“盡管外界炒作和討論不斷,但這強(qiáng)化了一個(gè)事實(shí),即我們?nèi)蕴幱诜浅T缙诘碾A段,”Vellum的CEO Akash Sharma告訴記者,“行業(yè)里噪音很多,新的模型和模型提供商層出不窮,新的檢索增強(qiáng)生成(RAG)技術(shù)也不斷涌現(xiàn),我們只是想了解一下,企業(yè)實(shí)際將AI部署到生產(chǎn)環(huán)境中的情況?!?/p>
企業(yè)必須找到具體的應(yīng)用場(chǎng)景才能取得成功
Vellum采訪了超過(guò)1250名AI開(kāi)發(fā)者和構(gòu)建者,以真實(shí)了解AI領(lǐng)域的現(xiàn)狀。
企業(yè)在AI之旅中處于不同階段——制定和評(píng)估戰(zhàn)略及概念驗(yàn)證(PoC)(53%)、進(jìn)行beta測(cè)試(14%),以及在最低層次上,與用戶溝通并收集需求(7.9%)。
Vellum表示,迄今為止,大多數(shù)企業(yè)都專注于構(gòu)建文檔解析和分析工具以及客戶服務(wù)聊天機(jī)器人,但它們也對(duì)結(jié)合自然語(yǔ)言分析、內(nèi)容生成、推薦系統(tǒng)、代碼生成與自動(dòng)化、研究自動(dòng)化等應(yīng)用感興趣。
迄今為止,開(kāi)發(fā)者報(bào)告稱,他們看到的最大影響包括競(jìng)爭(zhēng)優(yōu)勢(shì)(31.6%)、成本和時(shí)間節(jié)省(27.1%)以及更高的用戶采用率(12.6%),然而,有趣的是,24.2%的開(kāi)發(fā)者表示,他們尚未看到投資帶來(lái)的任何有意義的影響。
Sharma強(qiáng)調(diào)了從一開(kāi)始就確定優(yōu)先級(jí)應(yīng)用場(chǎng)景的重要性。“我們常聽(tīng)到人們說(shuō),他們只是想為了使用AI而使用AI,”他說(shuō),“這與實(shí)驗(yàn)預(yù)算相關(guān)?!?/p>
他指出,雖然這讓華爾街和投資者感到高興,但并不意味著AI實(shí)際做出了任何貢獻(xiàn)?!按蠹移毡閼?yīng)該思考的是,‘我們?nèi)绾握业胶线m的應(yīng)用場(chǎng)景?通常,一旦企業(yè)能夠確定這些應(yīng)用場(chǎng)景,將其投入生產(chǎn)并看到明確的投資回報(bào),它們就會(huì)獲得更多動(dòng)力,超越炒作階段,這將帶來(lái)更多的內(nèi)部專業(yè)知識(shí)、更多的投資。”
OpenAI仍領(lǐng)先,但未來(lái)將是多種模型的混合
在使用的模型方面,OpenAI保持領(lǐng)先地位(這并不奇怪),尤其是其GPT 4o和GPT 4o-mini,但Sharma指出,2024年提供了更多選擇,無(wú)論是直接來(lái)自模型創(chuàng)建者,還是通過(guò)Azure或AWS Bedrock等平臺(tái)解決方案。此外,提供托管開(kāi)源模型(如Llama 3.2 70B)的供應(yīng)商也越來(lái)越受歡迎,例如Groq、Fireworks AI和Together AI。
“開(kāi)源模型正在變得越來(lái)越好,”Sharma說(shuō),“在質(zhì)量方面,OpenAI的閉源競(jìng)爭(zhēng)對(duì)手正在迎頭趕上?!?/p>
然而,他預(yù)測(cè),最終企業(yè)不會(huì)僅局限于使用一種模型,而是將越來(lái)越多地依賴多模型系統(tǒng)。
“人們將為手頭的每項(xiàng)任務(wù)選擇最佳模型,”Sharma說(shuō),“在構(gòu)建代理時(shí),你可能會(huì)有多個(gè)提示,對(duì)于每個(gè)單獨(dú)的提示,開(kāi)發(fā)者都希望獲得最佳質(zhì)量、最低成本和最低延遲,而這可能來(lái)自也可能不來(lái)自O(shè)penAI。”
同樣,AI的未來(lái)無(wú)疑是多模態(tài)的,Vellum看到能夠處理各種任務(wù)的工具采用率激增。文本是無(wú)可爭(zhēng)議的首要應(yīng)用場(chǎng)景,其次是文件創(chuàng)建(PDF或Word)、圖像、音頻和視頻。
此外,在信息檢索方面,檢索增強(qiáng)生成(RAG)是首選,超過(guò)一半的開(kāi)發(fā)者使用向量數(shù)據(jù)庫(kù)來(lái)簡(jiǎn)化搜索。頂級(jí)的開(kāi)源和專有模型包括Pinecone、MongoDB、Quadrant、Elastic Search、PG vector、Weaviate和Chroma。
全員參與(不僅限于工程部門)
有趣的是,AI正在超越IT領(lǐng)域,并在企業(yè)中實(shí)現(xiàn)民主化(類似于“眾人拾柴火焰高”的道理)。Vellum發(fā)現(xiàn),雖然工程部門在AI項(xiàng)目中的參與度最高(82.3%),但領(lǐng)導(dǎo)層和高管(60.8%)、主題專家(57.5%)、產(chǎn)品團(tuán)隊(duì)(55.4%)和設(shè)計(jì)部門(38.2%)也在參與其中。
Sharma指出,這主要是因?yàn)锳I易于使用(以及人們對(duì)它的普遍興奮)。
“這是我們第一次看到軟件以非??缏毮艿姆绞介_(kāi)發(fā),尤其是因?yàn)樘崾究梢杂米匀徽Z(yǔ)言編寫,”他說(shuō),“傳統(tǒng)軟件通常更傾向于確定性,而這是非確定性的,因此吸引了更多人參與開(kāi)發(fā)。”
2025年將是克服關(guān)鍵挑戰(zhàn)的“AI工具年”
盡管如此,企業(yè)仍面臨重大挑戰(zhàn)——尤其是AI幻覺(jué)和提示問(wèn)題、模型速度和性能、數(shù)據(jù)訪問(wèn)和安全性,以及獲得重要利益相關(guān)者的支持。
同時(shí),Sharma指出,雖然更多非技術(shù)用戶正在參與其中,但企業(yè)內(nèi)部仍然缺乏純粹的技術(shù)專業(yè)知識(shí)?!斑B接所有不同部分的方式仍然是一項(xiàng)技能,而今天并沒(méi)有那么多開(kāi)發(fā)者具備這項(xiàng)技能,”他說(shuō),“因此,這是一個(gè)共同的挑戰(zhàn)。”
然而,Sharma指出,許多現(xiàn)有挑戰(zhàn)可以通過(guò)工具或平臺(tái)和服務(wù)來(lái)克服,這些工具或平臺(tái)和服務(wù)可以幫助開(kāi)發(fā)者評(píng)估復(fù)雜的AI系統(tǒng)。開(kāi)發(fā)者可以在內(nèi)部或使用第三方平臺(tái)或框架進(jìn)行工具化;然而,Vellum發(fā)現(xiàn),近18%的開(kāi)發(fā)者在定義提示和編排邏輯時(shí)完全沒(méi)有使用任何工具。
Sharma指出,“當(dāng)你有合適的工具引導(dǎo)你完成開(kāi)發(fā)過(guò)程時(shí),技術(shù)專業(yè)知識(shí)的缺乏就不再是一個(gè)[那么大的]問(wèn)題了?!背齎ellum外,調(diào)查參與者使用的框架和平臺(tái)還包括LangChain、Llama Index、Langfuse、CrewAI和Voiceflow。
評(píng)估和持續(xù)監(jiān)控至關(guān)重要
克服常見(jiàn)問(wèn)題(包括幻覺(jué))的另一種方法是進(jìn)行評(píng)估,或使用特定指標(biāo)來(lái)測(cè)試響應(yīng)的正確性?!暗M管如此,[開(kāi)發(fā)者]并沒(méi)有像他們應(yīng)該的那樣一致地進(jìn)行評(píng)估?!盨harma說(shuō)。
他表示,特別是在涉及高級(jí)代理系統(tǒng)時(shí),企業(yè)需要可靠的評(píng)估流程。Sharma指出,AI代理具有高度非確定性,因?yàn)樗鼈儠?huì)調(diào)用外部系統(tǒng)并執(zhí)行自主操作。
“人們正試圖構(gòu)建相當(dāng)先進(jìn)的系統(tǒng)、代理系統(tǒng),而這需要大量測(cè)試用例和某種自動(dòng)化測(cè)試框架,以確保其在生產(chǎn)中可靠運(yùn)行。”Sharma說(shuō)。
雖然一些開(kāi)發(fā)者正在利用自動(dòng)化評(píng)估工具、A/B測(cè)試和開(kāi)源評(píng)估框架,但Vellum發(fā)現(xiàn),超過(guò)四分之三的開(kāi)發(fā)者仍在進(jìn)行手動(dòng)測(cè)試和審查。
“手動(dòng)測(cè)試只是需要時(shí)間,對(duì)吧?而且手動(dòng)測(cè)試中的樣本量通常遠(yuǎn)低于自動(dòng)化測(cè)試所能做到的,”Sharma說(shuō),“可能在技術(shù)意識(shí)方面存在挑戰(zhàn),即如何進(jìn)行自動(dòng)化、大規(guī)模評(píng)估。”
最后,他強(qiáng)調(diào)了擁抱云到應(yīng)用程序編程接口(API)等協(xié)同工作的系統(tǒng)組合的重要性?!敖ㄗh將AI視為工具包中的一種工具,而不是解決一切問(wèn)題的神奇方案。”他說(shuō)。