成本、安全性和靈活性：開源AI的商業(yè)案例

作者：Maria Korolov 2024-12-12 16:29:34

在商業(yè)GenAI平臺如OpenAI和Anthropic備受關(guān)注的同時，開源替代品因其成本效益、安全性和靈活性而備受青睞。

像OpenAI和Anthropic這樣的商業(yè)GenAI平臺備受矚目，但開源替代品在成本效益、安全性和靈活性方面更具優(yōu)勢。

差旅與費用管理公司Emburse看到了多個可利用GenAI獲益的機會。例如，它可用于改善個人用戶的體驗，比如更智能地分析收據(jù)，或幫助企業(yè)客戶發(fā)現(xiàn)欺詐行為。

以讀取收據(jù)并準確分類費用這項簡單工作為例。由于收據(jù)千差萬別，因此自動完成這項工作可能很棘手。為解決這個問題，該公司轉(zhuǎn)向了GenAI，并決定同時使用商業(yè)和開源模型。公司的首席技術(shù)官Ken Ringdahl表示，這兩種GenAI模型各有優(yōu)勢。來自O(shè)penAI的主要商業(yè)模型部署更快、更容易，且開箱即用就更準確，但開源替代品在安全性、靈活性、成本方面更勝一籌，并且經(jīng)過額外訓練后，其準確性甚至更高。

Ringdahl表示，在安全性方面，許多商業(yè)提供商會使用客戶的數(shù)據(jù)來訓練他們的模型。雖然可以選擇退出，但其中不乏注意事項。例如，客戶可能需要支付更多費用來確保數(shù)據(jù)不被用于訓練，并且數(shù)據(jù)有可能面臨泄露風險。

“這是專有商業(yè)模型的一個陷阱，”他說，“其中有很多細則，而且有些事情并沒有完全披露?！?/p>

此外還有地理問題。Emburse在120個不同國家/地區(qū)提供服務(wù)，而OpenAI則沒有，另外，一些地區(qū)對數(shù)據(jù)留存有其他限制性要求。“所以我們用開源模型來補充，”他說，“這讓我們能夠在未覆蓋的地區(qū)提供服務(wù)，并滿足安全、隱私和合規(guī)方面的要求?！?/p>

目前，該公司正在使用法國開發(fā)的開源模型Mistral?！拔覀冊u估了所有主要的開源大型語言模型，并發(fā)現(xiàn)經(jīng)過進一步訓練后，Mistral最適合我們的用例，”他說，“另一個考慮因素是大型語言模型的規(guī)模，這可能會影響推理時間。”

例如，他說，Meta的Llama規(guī)模非常大，這會影響推理時間。

“隨著這一領(lǐng)域的快速發(fā)展，我們對開源大型語言模型的選擇未來肯定會發(fā)生變化，”他補充道，“我們開發(fā)的軟件可以通過配置來替換開源或?qū)Ｓ械拇笮驼Z言模型?！?/p>

另一個好處是，通過開源，Emburse可以進行額外的模型訓練。該公司擁有許多不同格式和語言的已標記和分類的收據(jù)示例?！拔覀冡槍ψ约旱奶囟ㄓ美M行了微調(diào)，效果非常好，所以成功率極高?！彼f。

這意味著，對于非英語用例，經(jīng)過微調(diào)的開源模型可能比大型商業(yè)模型更準確。

開源模型還讓公司在何時升級方面擁有更大的靈活性。

“OpenAI目前的模型是GPT 4-o，但他們會推出5.0版，而最終4.0版將會停止使用——按照他們的時間表，而不是我的?！盧ingdahl說。

這是個問題，因為構(gòu)建商業(yè)產(chǎn)品需要進行大量的測試和優(yōu)化?！笆褂瞄_源模型，你可以控制在哪里使用它以及何時停止使用?！彼f。

最后，還有價格因素。開源并非完全免費，因為仍然需要承擔基礎(chǔ)設(shè)施和管理成本。

“就我們而言，我們在自己的私有云中的AWS上運行它，”他說，“所以我們還是要為使用付費。如果你不了解使用模式以及它對你的費用的影響，那么還是可能會感到震驚。”

但總的來說，無需支付OpenAI的API費用確實能節(jié)省成本?！斑@可能是使用開源模型的兩三個主要原因之一，”他說，“你能更好地控制成本?！?/p>

其他公司也發(fā)現(xiàn)，開源GenAI模型可以提供更多的靈活性、安全性和成本優(yōu)勢，盡管其中也存在風險。

選擇豐富

從最廣泛的定義上講，此處的“開源”指的是可用的代碼，以及該模型可以在各種情境下免費修改和使用，并且有很多此類模型可供選擇。

目前，Hugging Face跟蹤的僅用于文本生成的LLM就超過15萬個，而六個月前這一數(shù)字還是8萬個。是不是多到無法選擇?Chatbot Arena對160多個頂級模型(包括專有和開源)進行了排名，并列出了它們的許可證。

除了模型本身，還有數(shù)千個與GenAI相關(guān)的開源工具。與5月份的5萬個項目相比，GitHub上列出的名稱中包含LLM的項目已超過10萬個，但大多數(shù)公司仍堅持使用大牌模型。根據(jù)德勤科技、媒體、娛樂和電信行業(yè)業(yè)務(wù)部AI部門負責人Baris Sarer的說法，在行業(yè)部署中，Meta的Llama模型出現(xiàn)得最多，其次是Mistral。在Chatbot Arena排行榜上，最新的Llama 3.1略落后于最新的OpenAI模型(9月的GPT-4o)，但領(lǐng)先于8月發(fā)布的同一模型。

“Meta最初推向市場的是一系列較小的模型，”Sarer說，“但現(xiàn)在他們也有了一個前沿模型，正在與主要參與者一爭高下。”市場份額數(shù)據(jù)也支持這一點。根據(jù)預(yù)測銷售平臺Enlyft的數(shù)據(jù)，在GPT-4占據(jù)41%的市場份額之后，Llama以16%的市場份額位居第二。Mistral雖然也上榜，但市場份額不到5%。

對開發(fā)者API使用情況進行調(diào)查的Kong公司發(fā)現(xiàn)了類似的平衡，其中OpenAI占27%，Llama占8%，Mistral占4%。除了排行榜上名列前茅的前沿模型外，針對小眾用例設(shè)計的小型語言模型(SLM)也在迅速增多。

“研究表明，參數(shù)數(shù)量在數(shù)百萬至數(shù)十億之間的小型語言模型在專門任務(wù)上的表現(xiàn)可能優(yōu)于大型通用語言模型?！笨▋?nèi)基梅隆大學AI教授Anand Rao說。

他還表示，這些模型的計算需求更低，并且可以更有效地進行微調(diào)，因此更適合在資源受限的環(huán)境中部署。

Llama助力銷售支持和編碼

德勤的Sarer最近與一家數(shù)據(jù)中心技術(shù)公司合作，該公司正在尋找GenAI來幫助改造其前臺和后臺辦公系統(tǒng)。

“他們有一系列用例——銷售、市場營銷運營、現(xiàn)場服務(wù)，”他說，“我們選擇了Meta的Llama作為首選模型，考慮到成本、控制、可維護性和靈活性?！?/p>

例如，在銷售勘探方面，AI用于從內(nèi)部和外部來源獲取洞察，以更好地為銷售人員向客戶推銷產(chǎn)品和服務(wù)做準備，并提出追加銷售和交叉銷售建議。

“他們幾個月前在美國和歐洲的部分地區(qū)推出了這項功能，現(xiàn)在正在根據(jù)反饋進行改進，并將進行更廣泛的推廣，”Sarer說，“使用它的銷售人員給出了很好的反饋?！?/p>

他表示，現(xiàn)在計算投資回報率還為時過早，這需要長期收集更多的數(shù)據(jù)點，但初步結(jié)果很有希望，因此決定擴大推廣范圍。

誠然，專有GenAI(最常見的是OpenAI)的應(yīng)用最為廣泛，但Sarer表示，在很多情況下，開源替代品是更合理的選擇。

“如果客戶傾向于在本地部署AI，那么開源實際上是唯一的選擇，”他說，“而且在某些行業(yè)中，本地部署仍然相當普遍?！迸cEmburse一樣，許多公司出于地理原因選擇使用開源。

“從全球范圍來看，AI越來越被視為對國家安全和主權(quán)至關(guān)重要，因此有需求將AI保留在本地，”他說，“坦率地說，這使得開源成為唯一的選擇?！?/p>

許多其他公司也發(fā)現(xiàn)微調(diào)自己的模型很有好處。

“你可以采用預(yù)訓練的開源模型，并使用自己的專有數(shù)據(jù)進行微調(diào)，”他說。他還表示，開源在部署方面提供了更大的靈活性。“如果你想在邊緣部署一個較小的模型，那么該領(lǐng)域的大多數(shù)模型都是開源的?！?/p>

最后，除了安全性和靈活性外，成本也是一個關(guān)鍵因素。使用開源模型時，公司仍需支付基礎(chǔ)設(shè)施費用，但無需支付AI供應(yīng)商的利潤。“開源是有充分理由的，而且這個理由會越來越充分?！盨arer說。

甚至有些開源模型在特定任務(wù)上的表現(xiàn)可能優(yōu)于商業(yè)替代品。Globant數(shù)字創(chuàng)新高級副總裁兼技術(shù)副總裁Agus Huerta表示，他在使用Llama 3進行代碼生成時看到了比ChatGPT更好的性能。

“Llama 3在提供對軟件的理解及其與其他代碼行的相關(guān)性方面有著成熟的應(yīng)用案例，”他說，“它還可以幫助重構(gòu)。Llama 3在這方面表現(xiàn)得非常好?！?/p>

他補充說，當新開發(fā)人員需要快速加入項目并開始高效工作時，這對入職很有幫助，并且對于維護解決方案也非常有用。

為何開源AI落后于商業(yè)AI

開源AI具有成本低、靈活性高、安全性強等優(yōu)勢，那么有什么理由不選擇它呢?曾經(jīng)開源模型和專有模型之間在性能上存在很大差距，但那是過去的事了?！?024年，這一差距已顯著縮小，”Gartner分析師Arun Chandrasekaran說，“雖然差距已顯著縮小，但我們還沒有看到很多開源模型投入生產(chǎn)?！?/p>

他說，一個原因是公司已經(jīng)對閉源模型進行了大量投資，并且看不到有任何迫切需要改變的理由。此外，運行開源模型的操作復雜性以及潛在的法律責任也是影響因素。法律賠償是OpenAI、微軟、Adobe和其他主要供應(yīng)商GenAI合同的常見特征。

開源則并非如此?！澳Ｐ蛣?chuàng)建者通常不承擔法律責任，”錢德拉塞卡蘭(Chandrasekaran)說。誠然，開源模型可以更容易地重新訓練或定制。但他說，這個過程很復雜且成本高昂?！岸业讓踊A(chǔ)模型也在快速變化，”他補充道，“如果你定制了某些內(nèi)容而基礎(chǔ)模型發(fā)生了變化，你就必須重新定制。”

最后，還有一個長期可持續(xù)性的問題。他說：“構(gòu)建開放模型、發(fā)布模型并讓數(shù)百萬人使用是一回事，而圍繞它構(gòu)建商業(yè)模式并將其貨幣化又是另一回事?！薄柏泿呕茈y，那么誰會繼續(xù)資助這些模型呢?構(gòu)建第一個版本是一回事，但構(gòu)建第五個版本又是另一回事。”

Genpact全球人工智能負責人斯里坎斯·梅農(nóng)(Sreekanth Menon)表示，最終，我們很可能會走向一個混合的未來?！氨M管人們普遍看好開源的接管，但開源和閉源模型都有其用武之地，”他說，“企業(yè)對模型不可知論的接受程度越高越好?！?/p>

由資金雄厚的公司支持的閉源模型可以突破人工智能的邊界。“它們可以提供高度精煉、專業(yè)的解決方案，這些解決方案得益于在研發(fā)方面的大量投資?！彼f。

為什么開源定義對企業(yè)很重要

在任何關(guān)于開源通用人工智能的對話中，Meta的Llama都是首先被提及的，但從技術(shù)上講，它可能并不是開源的，這一區(qū)別很重要。10月下旬，開源促進會發(fā)布了開源人工智能的第一個形式定義。

該定義要求開源人工智能不僅要共享源代碼和支持庫，還要共享模型參數(shù)以及模型訓練數(shù)據(jù)的完整描述，包括其來源、范圍、特征和標注程序，但更重要的是，用戶必須能夠出于任何目的使用開源人工智能，而無需請求許可。

根據(jù)這一定義，Meta的Llama模型是開放的，但由于存在限制，所以從技術(shù)上講并不是開源的。例如，有些Llama模型不能用于訓練其他模型。而且，如果將其用于每月用戶超過7億的應(yīng)用程序或服務(wù)中，則需要獲得Meta的特殊許可。

Meta本身將其稱為社區(qū)許可或定制商業(yè)許可。OpenInfra基金會首席運營官馬克·科利爾(Mark Collier)參與了新定義的制定工作，他表示，對于企業(yè)用戶而言，了解這些細微差別很重要?！皩ξ襾碚f，最重要的是，人們和公司有能力也有自由獲取這項基礎(chǔ)技術(shù)，對其進行重新組合、使用和修改，用于不同的目的，而無需請求守門人的許可?！币虼?，公司需要確信自己可以將人工智能整合到產(chǎn)品中，而不會有人回來說它不能這樣使用。

供應(yīng)商有時會宣布其人工智能是開源的，因為這有助于營銷和招聘，并讓客戶感覺他們沒有被鎖定?！八鼈冇羞@種光環(huán)效應(yīng)，但實際上并沒有做到這一點?！笨评麪栒f。

在爭相采用人工智能的過程中，公司可能會輕信供應(yīng)商對其人工智能為開源的描述。

“Meta就是一個很好的例子，”他說，“很多主流科技報道都說這是開源人工智能，扎克伯格也是這樣描述的，而且這種說法一直被重復。但當你深入了解時，就會發(fā)現(xiàn)許可存在限制?！?/p>

他補充說，隨著公司在人工智能技術(shù)上投入大量商業(yè)賭注，他們需要謹慎對待許可。而且，使用具有完全開源許可的模型還有其他好處。例如，能夠訪問模型的權(quán)重可以更容易地進行微調(diào)和適應(yīng)。他補充說，公司還需要注意的另一件事是，有些開源許可要求所有派生作品也必須是開源的。

“如果公司根據(jù)自有專有數(shù)據(jù)定制或微調(diào)了模型，他們可能就不想發(fā)布它?！彼f。這是因為有方法可以讓模型暴露其訓練數(shù)據(jù)。

他承認，要始終掌握這些問題很棘手，尤其是通用人工智能領(lǐng)域發(fā)展如此迅速。而模型開發(fā)人員不斷發(fā)明新的許可，更是無濟于事。

“如果你的公司正在發(fā)布開源內(nèi)容，而你的律師試圖創(chuàng)建另一種許可——請不要這樣做，”他說，“已經(jīng)有很多不錯的許可可供選擇，只需選擇一個符合你目標的就行?！?/p>

責任編輯：華軒來源：企業(yè)網(wǎng)D1Net

AI GenAI OpenAI

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

成本、安全性和靈活性：開源AI的商業(yè)案例

選擇豐富

Llama助力銷售支持和編碼

為何開源AI落后于商業(yè)AI

為什么開源定義對企業(yè)很重要

成本、安全性和靈活性：開源AI的商業(yè)案例