Forrester公布全球十大AI基礎(chǔ)語言模型:谷歌、Nvidia、OpenAI領(lǐng)跑
Forrester對(duì)全球頂級(jí)AI大語言模型進(jìn)行了審查、評(píng)分和排名,包括Amazon Bedrock、Google Gemini、OpenAI GPT-4和Anthropic Claude等。
在Forrester最新發(fā)布的報(bào)告《2024年第二季度用于語言的AI基礎(chǔ)模型》中,Cohere和Mistral AI等AI初創(chuàng)公司與IBM、微軟和Nvidia等全球科技巨頭展開了正面交鋒。
Forrester在這份報(bào)告中表示:“生成式AI時(shí)代把用于語言的AI基礎(chǔ)模型推向了技術(shù)和商業(yè)領(lǐng)袖的前沿,由于創(chuàng)新速度驚人,熱門初創(chuàng)公司和科技巨頭之間的選擇也很多,AI基礎(chǔ)模型市場(chǎng)可能是買家最難以捉摸的市場(chǎng)之一?!?/p>
Forrester評(píng)選出了全球最重要的十大AI基礎(chǔ)模型語言提供商,并列出了比較情況。
Forrester的AI基礎(chǔ)模型排名體系
Forrester從三個(gè)類別評(píng)估了10家廠商的基礎(chǔ)模型產(chǎn)品:AI基礎(chǔ)模型產(chǎn)品本身、公司戰(zhàn)略和整體市場(chǎng)存在。
對(duì)于這三個(gè)類別中的每一項(xiàng),F(xiàn)orrester都以1到5的等級(jí)對(duì)廠商AI基礎(chǔ)模型產(chǎn)品進(jìn)行評(píng)分,1表示“弱”,5表示“強(qiáng)”。分?jǐn)?shù)越高,基礎(chǔ)模型產(chǎn)品和公司戰(zhàn)略越好。
每家廠商的AI模型產(chǎn)品都根據(jù)不同因素進(jìn)行了排名,包括核心功能、代碼生成、治理和安全、模型管理、彈性和可擴(kuò)展性、上下文窗口和總體范圍,戰(zhàn)略得分是基于愿景、合作伙伴生態(tài)系統(tǒng)和定價(jià)靈活性等多方面的,而市場(chǎng)存在則是基于收入和客戶數(shù)量進(jìn)行評(píng)分的。
以下是Forrester在這份名為《Forrester Wave:2024年第二季度用于語言的AI基礎(chǔ)模型》報(bào)告中,排名前十的模型和廠商:
- AWS Amazon Titan
- Anthropic Claude
- Cohere Command
- Databricks DBRX
- Google Gemini
- IBM Granite
- Microsoft Phi
- Mistral AI
- Nvidia Nemotron
- OpenAI GPT-4
我們還分析了Forrester關(guān)于用于語言的全球十大最佳AI基礎(chǔ)模型的歷史報(bào)告。
領(lǐng)導(dǎo)者:谷歌
AI模型產(chǎn)品得分:4.82
戰(zhàn)略得分:4.66
市場(chǎng)存在感得分:2
谷歌Gemini在Forrester的報(bào)告中獲得了最高分4.82,這要?dú)w功于谷歌在多模態(tài)性、上下文長度和與Google Cloud服務(wù)互聯(lián)互通方面體現(xiàn)出的市場(chǎng)差異化。
Gemini擁有所有受評(píng)估廠商中最大的上下文窗口:目前有100萬個(gè)token,最近宣布是有200萬個(gè)token,也是為數(shù)不多的商用多模態(tài)大型語言模型之一,具有37種語言的頂級(jí)多語言能力,高于任何其他廠商。
在“戰(zhàn)略”類別中,谷歌在創(chuàng)新、路線圖、定價(jià)靈活性和透明度以及合作伙伴生態(tài)系統(tǒng)方面綜合得分5分。谷歌的最低得分來自市場(chǎng)存在類別,收入得分為1分,與競(jìng)爭(zhēng)對(duì)手相當(dāng)。
Forrester表示:“谷歌擁有引領(lǐng)AI市場(chǎng)的一切條件——龐大的AI基礎(chǔ)設(shè)施容量、深厚的AI研究人員隊(duì)伍、以及Google Cloud中越來越多的企業(yè)客戶。”
領(lǐng)導(dǎo)者:Databricks DBRX
AI模型提供得分:3.38
戰(zhàn)略得分:4.34
市場(chǎng)存在感得分:3
Databricks的DBRX產(chǎn)品獲得了3.38分,這要?dú)w功于它既提供了自己預(yù)訓(xùn)練的DBRX模型,而且也為預(yù)訓(xùn)練或調(diào)整自己模型的客戶提供了支持。
Databricks的平臺(tái)在應(yīng)用開發(fā)、治理安全、管理訓(xùn)練和部署模型方面具有強(qiáng)大的能力。
在“戰(zhàn)略”類別中,Databricks在愿景、路線圖、合作伙伴生態(tài)系統(tǒng)和支持服務(wù)方面獲得了5分,最低得分是互動(dòng)方式和多語言能力,僅得1分。
Forrester表示:“Databricks的產(chǎn)品是企業(yè)客戶的理想選擇,后者希望擁有一個(gè)功能強(qiáng)大的模型,其中包括了各種企業(yè)工具,不僅可以構(gòu)建解決方案和微調(diào)模型,還可以使用經(jīng)過自己數(shù)據(jù)預(yù)先訓(xùn)練的模型?!?/p>
領(lǐng)導(dǎo)者:Nvidia Nemotron
AI模型產(chǎn)品得分:3.38
戰(zhàn)略得分:3.68
市場(chǎng)存在感得分:3
Nvidia最近發(fā)布的Nemotron產(chǎn)品獲得3.38分,該產(chǎn)品讓企業(yè)客戶可以開箱即用地使用Nvidia模型,并激勵(lì)現(xiàn)有和新技術(shù)合作伙伴推動(dòng)前沿發(fā)展。
Nvidia的產(chǎn)品具有非常強(qiáng)大的多語言功能,通過Megatron模型提供多模式交互性,NeMo框架使其能夠更快速、更高效地在Nvidia平臺(tái)上構(gòu)建AI基礎(chǔ)語言模型。
在“戰(zhàn)略”類別中,Nvidia在創(chuàng)新和合作伙伴生態(tài)系統(tǒng)方面獲得5分。整個(gè)評(píng)估中,Nvidia沒有任何1分或2分的低分。
Forrester表示:“有些合作伙伴企業(yè)希望能夠?yàn)橛?xùn)練和推理模型硬件和軟件需求提供一個(gè)最佳橋梁,對(duì)他們來說,Nvidia是一個(gè)不錯(cuò)的選擇?!?/p>
表現(xiàn)強(qiáng)勁者:IBM Granite
AI模型產(chǎn)品得分:3.68
戰(zhàn)略得分:3.32
市場(chǎng)存在感得分:1
IBM的Granite產(chǎn)品獲得了3.68分,這要?dú)w功于IBM為客戶提供了一些最強(qiáng)大的、最透明的底層訓(xùn)練數(shù)據(jù)洞察,并保護(hù)企業(yè)免受訓(xùn)練數(shù)據(jù)中任何未經(jīng)授權(quán)的內(nèi)容帶來的風(fēng)險(xiǎn)。
IBM Granite具有強(qiáng)大的能力,可以將其模型與企業(yè)需求相結(jié)合,而且具有治理結(jié)構(gòu),以實(shí)現(xiàn)對(duì)模型的監(jiān)控和管理。
在“戰(zhàn)略”類別中,IBM在支持服務(wù)和產(chǎn)品方面獲得了5分,在收入和客戶數(shù)量、上下文窗口和核心功能方面均獲得了較低的1分。
Forrester表示:“IBM非常適合那些希望從模型訓(xùn)練數(shù)據(jù)和AI平臺(tái)功能中獲得100%廠商保障的客戶,這些功能可以幫助AI團(tuán)隊(duì)構(gòu)建AI解決方案?!?/p>
表現(xiàn)強(qiáng)勁者:OpenAI GPT-4
AI模型產(chǎn)品得分:3.28
戰(zhàn)略得分:3.70
市場(chǎng)存在感得分:5
OpenAI的GPT-4產(chǎn)品獲得了3.28分,這要?dú)w功于OpenAI的模型是市場(chǎng)上最強(qiáng)大的模型之一,也是提供多模態(tài)大型語言模型的少數(shù)提供商之一。
OpenAI的GPT-4優(yōu)勢(shì)在于其核心模型功能,例如代碼生成、多語言功能、上下文窗口和訓(xùn)練數(shù)據(jù)范圍。
在“戰(zhàn)略”類別中,OpenAI在愿景、創(chuàng)新和路線圖方面獲得了5分,還在市場(chǎng)存在感方面獲得了最高分5分,在模型管理部署和支持產(chǎn)品方面得分較低。
Forrester表示:“對(duì)于那些希望利用模型本身的原始功能構(gòu)建更復(fù)雜的應(yīng)用架構(gòu),同時(shí)開始構(gòu)建多模式生成式AI應(yīng)用的開發(fā)人員來說,OpenAI是一個(gè)不錯(cuò)的選擇?!?/p>
表現(xiàn)強(qiáng)勁者:AWS Amazon Bedrock
AI模型產(chǎn)品得分:2.90
戰(zhàn)略得分:3.30
市場(chǎng)存在感得分:1
AWS的Amazon Bedrock憑借Titan模型獲得了2.90分,而且AWS允許任何提供商在Bedrock中提供他們的模型。
AWS Bedrock服務(wù)提供周邊支持工具方面具有強(qiáng)大的功能,包括模型對(duì)齊、治理和安全以及應(yīng)用開發(fā)。
在“戰(zhàn)略”類別中,AWS在路線圖、定價(jià)靈活性和透明度、支持服務(wù)和產(chǎn)品方面獲得了5分,在愿景、創(chuàng)新和Bedrock客戶數(shù)量方面獲得了較低的1分。
Forrester表示:“Amazon的AI基礎(chǔ)語言模型產(chǎn)品將以其市場(chǎng)方法而非核心的Titan模型本身吸引AWS客戶?!?/p>
表現(xiàn)強(qiáng)勁者:微軟Phi
AI模型產(chǎn)品得分:2.82
戰(zhàn)略得分:3.34
市場(chǎng)存在感得分:1
微軟Phi獲得了3.34分,這要?dú)w功于Phi模型除了真實(shí)內(nèi)容外還利用了大量合成內(nèi)容,從而可以使用更嚴(yán)格管理的、較小型的數(shù)據(jù)集進(jìn)行訓(xùn)練。
微軟Phi的能力尚不如市場(chǎng)中的其他很多產(chǎn)品,但其小規(guī)模和嚴(yán)格管理的訓(xùn)練數(shù)據(jù)集是一個(gè)核心亮點(diǎn),圍繞Phi系列的微軟Azure AI服務(wù)提供了強(qiáng)大的功能,可以將模型行為與企業(yè)需求保持一致。
在“戰(zhàn)略”類別中,微軟在合作伙伴生態(tài)系統(tǒng)和支持服務(wù)和產(chǎn)品方面獲得了5分,在定價(jià)靈活性和透明度、Phi收入和客戶數(shù)量方面獲得了較低的1分。
Forrester表示:“微軟對(duì)OpenAI的投資和合作非常獨(dú)特,特別是其獨(dú)家性,微軟幾乎可以充當(dāng)OpenAI核心模型以及微軟自己的AI基礎(chǔ)語言模型提供商?!?/p>
競(jìng)爭(zhēng)者:Cohere Command
AI模型產(chǎn)品得分:2.72
戰(zhàn)略得分:2.34
市場(chǎng)存在感得分:2
Cohere Command獲得了2.72分,這要?dú)w功于它打造了業(yè)務(wù)友好型的模型,而且支持基于檢索增強(qiáng)生成(RAG)的知識(shí)檢索架構(gòu)所需的數(shù)據(jù)管道。
Cohere的Command模型在語言和推理的核心模型功能方面具有優(yōu)勢(shì),并且具有顯著的多語言功能,可以對(duì)來自各種語言的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,例如對(duì)常見業(yè)務(wù)語言進(jìn)行特定優(yōu)化。
在“戰(zhàn)略”類別中,Cohere沒有獲得任何4分或5分的高分,在合作伙伴生態(tài)系統(tǒng)方面也只獲得了1分,不過Cohere Command在客戶數(shù)量方面獲得了3分,這比許多大型技術(shù)提供商都要高。
Forrester表示:“對(duì)于想要一個(gè)能夠?yàn)樗麄兲峁㏑AG和其他知識(shí)檢索用例強(qiáng)大支持的AI基礎(chǔ)語言模型提供商的客戶來說,Cohere是一個(gè)不錯(cuò)的選擇?!?/p>
競(jìng)爭(zhēng)者:Anthropic Claude
AI模型產(chǎn)品得分:2.46
戰(zhàn)略得分:2.68
市場(chǎng)存在感得分:3
Anthropic Claude獲得了2.46分,這要?dú)w功于它將模型與企業(yè)需求相結(jié)合的“Constitutional AI”原則,以及模型規(guī)模更大、復(fù)雜度更高的重要性。
Anthropic的核心模型具有非常強(qiáng)大的語言能力,擁有目前市場(chǎng)上最長的上下文窗口。
在“戰(zhàn)略”類別中,Anthropic在愿景方面獲得5分,在收入方面獲得3分,在合作伙伴生態(tài)系統(tǒng)和支持服務(wù)及產(chǎn)品方面獲得了較低的1分。
Forrester表示:“雖然Anthropic在預(yù)訓(xùn)練期間已經(jīng)做了大量工作來使其模型與Constitutional AI方法保持一致,但它需要為企業(yè)提供更重要的功能來構(gòu)建應(yīng)用并在其中管理模型?!?/p>
挑戰(zhàn)者:Mistral AI
AI模型產(chǎn)品得分:1.78
戰(zhàn)略得分:1.32
市場(chǎng)存在感得分:1
Mistral AI在Forrester的報(bào)告中獲得了最低分1.78,它的基礎(chǔ)語言模型得分為1.78,在開放權(quán)重模型方面表現(xiàn)出色。
Mistral模型具有強(qiáng)大的核心語言功能,采用混合式的專家方法,使其能夠在推理時(shí)使用較少的計(jì)算資源,同時(shí)實(shí)現(xiàn)更高的準(zhǔn)確性。
在“戰(zhàn)略”和“市場(chǎng)存在感”類別中,Mistral AI的得分大多為1分。
Forrester表示:“過去一年中,Mistral憑借在模型性能排行榜上表現(xiàn)優(yōu)異的開放式模型聲名鵲起,使其在市場(chǎng)上脫穎而出。然而,Mistral必須迅速強(qiáng)化銷售、營銷、平臺(tái)工具開發(fā)和合作伙伴運(yùn)營,才能與這個(gè)市場(chǎng)上越來越多的參與者展開競(jìng)爭(zhēng)。”