自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

非ChatGPT的14個大型語言模型

譯文
人工智能
ChatGPT并不是人們從人工智能中生成內(nèi)容和見解的唯一選擇,還有14種大型語言模型可以與ChatGPT相媲美。

譯者 | 李睿

審校 | 重樓

如今,很多企業(yè)高管都將人工智能視為未來發(fā)展方向,許多技術(shù)領(lǐng)導(dǎo)者也將ChatGPT視為人工智能的代名詞。但是OpenAI的旗艦產(chǎn)品ChatGPT不是唯一的大型語言模型——對于一些軟件項目或領(lǐng)域來說,ChatGPT甚至可能不是一個最好的選擇。幾乎每天都有新的競爭者出現(xiàn)。似乎每家科技公司都想構(gòu)建下一代人工智能工具,這些工具帶來好處和壞處取決于人們?nèi)绾螒?yīng)用。

些大型語言模型比其他一些模型好嗎?也許。但它們都有缺陷、怪癖、故障和弱點,使用的時間越長,這些缺陷就越明顯。生成式人工智能乍一看似乎很神奇,但隨著時間的推移,其怪異和不可預(yù)測的一面開始顯現(xiàn)。

衡量大型語言模型

由于大型語言模型的范圍和使用方式,科學(xué)地衡量生成式人工智能回答問題的質(zhì)量是很困難的。數(shù)據(jù)科學(xué)家可以輸入數(shù)千甚至數(shù)百萬個測試問題并評估答案,但如果測試集只關(guān)注一種類型的問題,那么其輸出結(jié)果將會受到限制。咨詢像Hugging Face這樣的Open LLM排行榜類似的資源很有趣,但不一定準(zhǔn)確。

如果說找到一種精確的方法來對大型語言模型進行衡量很困難,那么在它們之間切換變得越來越容易了。像OpenLLMFastChat這樣的項目使各種大型語言模型的連接變得更簡單,盡管它們有不同的API和接口。開發(fā)人員可以將這些整合在一起,有時甚至可以并行運行這些模型。

構(gòu)建大型語言模型的一個主要問題是成本。雖然人們很感興趣并且投資得到爆炸式增長,但構(gòu)建一個大型語言模型可能需要數(shù)月甚至數(shù)年的時間。開發(fā)團隊首先收集訓(xùn)練數(shù)據(jù),然后采用成本高昂的硬件消耗大量電力推送數(shù)據(jù)。最后他們制作了大型語言模型,如何盈利以及維持這項工作的最佳方式是一個不斷演變的問題。

一些企業(yè)正在嘗試開源他們開發(fā)的大型語言模型,而另一些企業(yè)則依賴具有自己計費模型的服務(wù)。開源大型語言模型可能是一份真正的禮物,但前提是能夠處理部署模型并保持其運行的工作。

以下是非ChatGPT14種大型語言模型。它們可能是用戶運營項目所需要的大型語言模型,也可能不是。唯一知道的方法就是把提示發(fā)給它們,并仔細(xì)評估結(jié)果。

1.Llama

Facebook(如今更名為Meta)創(chuàng)建了這個基礎(chǔ)大型語言模型,然后將其發(fā)布,作為其聲明開放科學(xué)承諾”的一部分。任何人都可以下載Llama,并將其作為為特定應(yīng)用創(chuàng)建更精細(xì)調(diào)整模型的基礎(chǔ)(AlpacaVicuna都是在Llama的基礎(chǔ)上構(gòu)建的)。該模型還有四種不同的規(guī)模。只有70億個參數(shù)的較小版本在不太可能的地方使用。一開發(fā)人員甚至聲稱Llama可以運行在只有4GB內(nèi)存的Raspberry Pi上。

2.Alpaca

斯坦福大學(xué)的幾位研究人員采用了Meta公司的Llama 7B,用一組模仿ChatGPT等指令遵循模型的提示對其進行訓(xùn)練。這一微調(diào)產(chǎn)生了Alpaca 7B,這個大型語言模型將Llama LLM中編碼的知識開放為人們可以通過提問和給出指令來獲取的知識。據(jù)稱輕量級大型語言模型可以在價值不到600美元的硬件上運行。

Alpaca 7B的創(chuàng)建者正在分發(fā)訓(xùn)練集和構(gòu)建它的代碼,任何人都可以復(fù)制模型或從不同的集合創(chuàng)建新的內(nèi)容

3.Vicuna

Llama的另一個后代是來自LMSYS.orgVicuna。Vicuna團隊從ShareGPT中收集了7萬個不同對話的訓(xùn)練集,并特別注意創(chuàng)建多輪互動和指令跟隨功能。這個大型語言模型Vicuna-13bVicuna-7b兩種版本,是最具價格競爭力的基本交互式聊天開放解決方案之一。

4.NodePad

不是所有人都對大型語言模型生成語言準(zhǔn)確”文本的方式所吸引。NodePad的創(chuàng)建者認(rèn)為,文本的質(zhì)量往往會分散用戶對潛在事實的雙重檢查。具有美觀的用戶界面的大型語言模型往往無意中美化結(jié)果,使用戶更難以預(yù)測這些問題。NodePad旨在培養(yǎng)探索和創(chuàng)意,而不是生成用戶幾乎不會瀏覽的精致寫作樣本。這個大型語言模型的結(jié)果顯示為節(jié)點和連接,就像人們在許多思維導(dǎo)圖工具”中看到的那樣,而不像憶經(jīng)完成的寫作。用戶可以利用該模型的百科知識來獲得很好的想法,而不會在演示中迷失方向。

5.Orca

第一代大型語言模型在規(guī)模上取得了成功,隨著時間的推移變得越來越大。來自微軟公司研究團隊的Orca扭轉(zhuǎn)了這一趨勢。該模型僅使用130億個參數(shù),使其能夠在普通機器上運行。Orca的開發(fā)人員通過增強訓(xùn)練算法來使用解釋痕跡”、逐步的思考過程”和指令”來實現(xiàn)這一壯舉。Orca并沒有僅僅要求人工智能從原始材料中學(xué)習(xí),而是提供了一套專門用于教學(xué)的訓(xùn)練集。換句話說,就像人類一樣,人工智能在沒有深入研究的情況下學(xué)習(xí)得更快。最初的結(jié)果很有希望,微軟團隊提供的基準(zhǔn)測試表明,該模型的性能與更大的模型一樣好。

6.Jasper

Jasper的創(chuàng)造者并不想創(chuàng)造一個聰明的多面手,他們想要的是一臺專注于創(chuàng)造內(nèi)容的聊天機器。該系統(tǒng)提供了50多個模板,而不僅僅是一個開放式的聊天會話,這些模板是為特定任務(wù)設(shè)計的,例如為亞馬遜這樣的網(wǎng)站制作房地產(chǎn)清單或編寫產(chǎn)品功能。其付費版本專門針對那些希望創(chuàng)建具有一致基調(diào)的營銷文案的企業(yè)提供服務(wù)。

7.Claude

AnthropicClaude塑造成一個樂于助人的助手,它可以處理企業(yè)的許多基于文本的業(yè)務(wù)從研究到客戶服務(wù)),輸入提示,輸出答案。Anthropic允許長提示來鼓勵更復(fù)雜的指令,讓用戶對結(jié)果有更多的控制權(quán)。Anthropic目前提供兩個版本:一個是名為Claude-v1的完整模型,另一個是更便宜的簡化模型Claude Instant,后者的價格要便宜得多。第一種適用于需要更復(fù)雜、結(jié)構(gòu)化推理的工作,而后者更快、更好地適用于分類和調(diào)節(jié)等簡單任務(wù)。

8.Cerebras

當(dāng)專用硬件和通用模型共同發(fā)展時,最終可以得到一個非??焖俸陀行У慕鉀Q方案。Cerebras公司為那些想在本地運行它的用戶提供了從小(1.11億個參數(shù))到大(130億個參數(shù))的各種Hugging Face大型語言模型。然而,許多人想要使用云計算服務(wù),這些服務(wù)運行在Cerebras公司自己的集成處理器上,該處理器針對大型訓(xùn)練集進行了優(yōu)化。

9.Falcon

全尺寸Falcon-40b和較小的Falcon-7b是由阿聯(lián)酋的技術(shù)創(chuàng)新研究所(TII)建造的。他們在RefinedWeb上的大量通用示例上訓(xùn)練了Falcon模型,重點是提高推理能力。然后,他們將其與Apache 2.0一起發(fā)布,使其成為可用于實驗的最開放和不受限制的大型語言模型之一。

10.ImageBind

許多人認(rèn)為Meta公司是一家主導(dǎo)社交媒體的大公司,但該公司也是一家開源軟件開發(fā)商。隨著人們對人工智能的興趣日益濃厚,該公司開始分享自己的許多創(chuàng)新成果也就不足為奇了。ImageBind是一個旨在展示人工智能如何同時創(chuàng)建多種不同類型數(shù)據(jù)的項目;在這種情況下,包括文本、音頻和視頻。換句話說,如果允許的話,生成人工智能可以將整個想象的世界整合在一起。

11.Gorilla

人們可能聽說過很多關(guān)于使用生成式人工智能編寫代碼的事情。其結(jié)果往往表面上令人印象深刻,但仔細(xì)檢查就會發(fā)現(xiàn)存在嚴(yán)重缺陷。其語法可能是正確的,但是API調(diào)用都是錯誤的,或者它們甚至可能指向一個不存在的函數(shù)。Gorilla是一個大型語言模型,它的設(shè)計是為了更好地處理編程接口。它的創(chuàng)建者從Llama開始,然后對其進行微調(diào),重點關(guān)注直接從文檔中截取的更深層次的編程細(xì)節(jié)。Gorilla的團隊還提供了自己的以API為中心的測試成功基準(zhǔn)集。對于希望依靠人工智能進行編碼協(xié)助的程序員來說,這是一個重要的補充。

12.Ora.ai

Ora.ai是一個允許用戶創(chuàng)建針對特定任務(wù)進行優(yōu)化的目標(biāo)聊天機器人的系統(tǒng)。LibrarianGPT嘗試用一本書中的段落來回答任何問題。例如,聊天機器人可以從Carl Saga教授的所有著作中汲取靈感。人們可以創(chuàng)建自己的聊天機器人,也可以使用其他人已經(jīng)創(chuàng)建的數(shù)百個聊天機器人中的一個。

13.AgentGPT

另一個將應(yīng)用程序所需的所有代碼整合在一起的工具是AgentGPT。它的設(shè)計目的是創(chuàng)建代理,這些代理可以被派去處理諸如計劃度假或編寫某種游戲代碼之類的工作。大部分技術(shù)棧的源代碼都可以在GPL3.0下獲得。還有一個正在運行的版本作為服務(wù)提供。

14.FrugalGPT

FrugalGPT 并不是一個不同的模型,而是一種尋找價格更低的模型來回答特定問題的謹(jǐn)慎策略。FrugalGPT的研究人員認(rèn)識到,回答許多問題不需要大、昂貴的模型。他們的算法從最簡單的開始,在一系列大型語言模型中逐級移動,直到找到一個更好的答案。研究人員的實驗表明,這種謹(jǐn)慎的方法可以節(jié)省98%的成本,因為許多問題實際上并不需要采用復(fù)雜的模型。

原文標(biāo)題:14 LLMs that aren't ChatGPT,作者:Peter Wayner

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2023-03-26 00:24:15

2024-04-11 13:38:19

大型語言模型

2024-11-21 08:22:45

2023-05-09 07:09:02

2024-04-16 16:14:01

人工智能LLMRAG

2025-03-03 10:13:09

2023-07-06 14:08:54

ChatGPTLLM大型語言模型

2023-02-25 16:14:36

AIMeta語言模型

2023-11-30 14:38:56

2023-12-26 15:53:40

2012-05-25 10:09:32

2023-06-19 16:05:22

大型語言模型人工智能

2024-08-13 08:09:34

2012-01-05 09:56:35

數(shù)據(jù)中心高效節(jié)能Facebook

2023-05-15 13:43:08

ChatGPT語言模型

2024-12-12 09:11:58

2023-06-09 08:00:00

QLoRa語言模型微調(diào)

2023-10-08 15:54:12

2021-10-25 16:25:07

模型人工智能計算

2024-05-16 16:37:33

大型語言模型人工智能
點贊
收藏

51CTO技術(shù)棧公眾號