自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

譯文 精選
人工智能
生成式AI模型成為當(dāng)前機(jī)器學(xué)習(xí)的熱點(diǎn)之一,GPT-4、Claude 2.1和Claude 3.0 Opus就是三種具有代表性的模型。本文將針對(duì)這三種模型進(jìn)行評(píng)估和比較,并給出實(shí)驗(yàn)結(jié)果對(duì)比分析。

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問(wèn):

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

簡(jiǎn)介

當(dāng)前,RAG(檢索增強(qiáng)生成)系統(tǒng)的新評(píng)估似乎每天都在發(fā)布,其中許多都集中在有關(guān)框架的檢索階段。然而,生成方面——模型如何合成和表達(dá)這些檢索到的信息,在實(shí)踐中可能具有同等甚至更大的意義。許多實(shí)際應(yīng)用中的案例證明,系統(tǒng)不僅僅要求從上下文中返回事實(shí)數(shù)據(jù),還需要將這些事實(shí)合成一個(gè)更復(fù)雜的響應(yīng)。

為此,我們先后進(jìn)行了幾個(gè)實(shí)驗(yàn),對(duì)GPT-4、Claude 2.1和Claude 3 Opus(https://www.anthropic.com/news/claude-3-family)三種模型的生成能力進(jìn)行了評(píng)估和比較。本文將詳細(xì)介紹我們的研究方法、結(jié)果和在此過(guò)程中遇到的這些模型的細(xì)微差別,并說(shuō)明為什么這些內(nèi)容對(duì)使用生成式人工智能進(jìn)行構(gòu)建的人來(lái)說(shuō)非常重要。

有興趣的讀者如果想重現(xiàn)上述實(shí)驗(yàn)的結(jié)果,那么實(shí)驗(yàn)中所需的一切都可以從GitHub存儲(chǔ)庫(kù)(https://github.com/Arize-ai/LLMTest_NeedleInAHaystack)中找到。

補(bǔ)充說(shuō)明

  • 盡管最初的發(fā)現(xiàn)表明Claude的性能優(yōu)于GPT-4,但隨后的測(cè)試表明,隨著戰(zhàn)略提示工程技術(shù)的出現(xiàn),GPT-4在更廣泛的評(píng)估中表現(xiàn)出了卓越的性能??傊琑AG系統(tǒng)中固有的模型行為和提示工程當(dāng)中還存在很多的問(wèn)題。
  • 只需在提示模板中簡(jiǎn)單地添加一句“請(qǐng)解釋自己,然后回答問(wèn)題”,即可顯著提高(超過(guò)兩倍)GPT-4的性能。很明顯,當(dāng)LLM說(shuō)出答案時(shí),這似乎有助于進(jìn)一步展開(kāi)有關(guān)想法。通過(guò)解釋,模型有可能在嵌入/注意力空間中重新執(zhí)行正確的答案。

RAG階段與生成的重要性

圖1:作者創(chuàng)建的圖表

雖然在一個(gè)檢索增強(qiáng)生成系統(tǒng)中檢索部分負(fù)責(zé)識(shí)別和檢索最相關(guān)的信息,但正是生成階段獲取這些原始數(shù)據(jù),并將其轉(zhuǎn)換為連貫、有意義和符合上下文的響應(yīng)。生成步驟的任務(wù)是合成檢索到的信息,填補(bǔ)空白信息,并以易于理解和與用戶查詢相關(guān)的方式呈現(xiàn)。

在許多現(xiàn)實(shí)世界的應(yīng)用中,RAG系統(tǒng)的價(jià)值不僅在于它們定位特定事實(shí)或信息的能力,還在于它們?cè)诟鼜V泛的框架內(nèi)集成和情境化信息的能力。生成階段使RAG系統(tǒng)能夠超越簡(jiǎn)單的事實(shí)檢索,并提供真正智能和自適應(yīng)的響應(yīng)。

測(cè)試#1:日期映射

我們運(yùn)行的初始測(cè)試包括從兩個(gè)隨機(jī)檢索的數(shù)字中生成一個(gè)日期字符串:一個(gè)表示月份,另一個(gè)表示日期。模型的任務(wù)是:

  • 檢索隨機(jī)數(shù)#1
  • 隔離最后一位并遞增1
  • 根據(jù)結(jié)果為我們的日期字符串生成一個(gè)月
  • 檢索隨機(jī)數(shù)#2
  • 從隨機(jī)數(shù)2生成日期字符串的日期

例如,隨機(jī)數(shù)4827143和17表示4月17日。

這些數(shù)字被放置在不同深度的不同長(zhǎng)度的上下文中。模型最初在完成這項(xiàng)任務(wù)時(shí)經(jīng)歷了相當(dāng)困難的時(shí)期。

圖2:初始測(cè)試結(jié)果

雖然這兩個(gè)模型都表現(xiàn)不佳,但在我們的初步測(cè)試中,Claude 2.1的表現(xiàn)明顯優(yōu)于GPT-4,成功率幾乎翻了四倍。正是在這里,Claude模型的冗長(zhǎng)本性——提供詳細(xì)、解釋性的回答——似乎給了它一個(gè)明顯的優(yōu)勢(shì),與GPT-4最初簡(jiǎn)潔的回答相比,結(jié)果更準(zhǔn)確。

在這些意想不到的實(shí)驗(yàn)結(jié)果的推動(dòng)下,我們?cè)趯?shí)驗(yàn)中引入了一個(gè)新的變量。我們指示GPT-4“解釋自己,然后回答問(wèn)題”,這一提示鼓勵(lì)了類似于Claude模型自然輸出的更詳細(xì)的響應(yīng)。因此,這一微小調(diào)整的影響還是深遠(yuǎn)的。

圖3:有針對(duì)性提示結(jié)果的初始測(cè)試

GPT-4模型的性能顯著提高,在隨后的測(cè)試中取得了完美的結(jié)果。Claude模型的成績(jī)也有所改善。

這個(gè)實(shí)驗(yàn)不僅突出了語(yǔ)言模型處理生成任務(wù)的方式的差異,還展示了提示工程對(duì)其性能的潛在影響。Claude的優(yōu)勢(shì)似乎是冗長(zhǎng),事實(shí)證明這是GPT-4的一種可復(fù)制策略,這表明模型處理和呈現(xiàn)推理的方式會(huì)顯著影響其在生成任務(wù)中的準(zhǔn)確性??偟膩?lái)說(shuō),在我們的所有實(shí)驗(yàn)中,包括看似微小的“解釋自己”這句話,都在提高模型的性能方面發(fā)揮了作用。

進(jìn)一步的測(cè)試和結(jié)果

圖4:用于評(píng)估生成的四個(gè)進(jìn)一步測(cè)試

我們又進(jìn)行了四次測(cè)試,以評(píng)估主流模型將檢索到的信息合成并轉(zhuǎn)換為各種格式的能力:

  • 字符串連接:將文本片段組合成連貫的字符串,測(cè)試模型的基本文本操作技能。
  • 貨幣格式:將數(shù)字格式化為貨幣,四舍五入,并計(jì)算百分比變化,以評(píng)估模型的精度和處理數(shù)字?jǐn)?shù)據(jù)的能力。
  • 日期映射:將數(shù)字表示轉(zhuǎn)換為月份名稱和日期,需要混合檢索和上下文理解。
  • 模運(yùn)算:執(zhí)行復(fù)數(shù)運(yùn)算以測(cè)試模型的數(shù)學(xué)生成能力。

不出所料,每個(gè)模型在字符串連接方面都表現(xiàn)出了強(qiáng)大的性能,這也重申了以前的理解,即文本操作是語(yǔ)言模型的基本優(yōu)勢(shì)。

圖5:貨幣格式化測(cè)試結(jié)果

至于貨幣格式化測(cè)試,Claude 3和GPT-4的表現(xiàn)幾乎完美無(wú)瑕。Claude 2.1的表現(xiàn)總體上較差。準(zhǔn)確度在標(biāo)記長(zhǎng)度上變化不大,但當(dāng)指針更接近上下文窗口的開(kāi)頭時(shí),準(zhǔn)確度通常會(huì)更低。

圖6:正式的來(lái)自Haystack網(wǎng)站的測(cè)試結(jié)果

盡管在一代測(cè)試中取得了出色的結(jié)果,但Claude 3的準(zhǔn)確性在一個(gè)僅用于檢索的實(shí)驗(yàn)中有所下降。從理論上講,簡(jiǎn)單地檢索數(shù)字也應(yīng)該比操縱數(shù)字更容易——這使得性能的下降令人驚訝,也是我們計(jì)劃進(jìn)一步測(cè)試的領(lǐng)域。如果有什么不同的話,這種違反直覺(jué)的下降只會(huì)進(jìn)一步證實(shí)這樣一種觀點(diǎn),即在使用RAG開(kāi)發(fā)時(shí),檢索和生成都應(yīng)該進(jìn)行測(cè)試。

結(jié)論

通過(guò)測(cè)試各種生成任務(wù),我們觀察到,雖然Claude和GPT-4這兩個(gè)模型都擅長(zhǎng)字符串操作等瑣碎任務(wù),但在更復(fù)雜的場(chǎng)景中,它們的優(yōu)勢(shì)和劣勢(shì)變得顯而易見(jiàn)(https://arize.com/blog-course/research-techniques-for-better-retrieved-generation-rag/)。LLM在數(shù)學(xué)方面仍然不太好!另一個(gè)關(guān)鍵結(jié)果是,“自我解釋”提示的引入顯著提高了GPT-4的性能,強(qiáng)調(diào)了如何提示模型以及如何闡明其推理對(duì)實(shí)現(xiàn)準(zhǔn)確結(jié)果的重要性。

這些發(fā)現(xiàn)對(duì)LLM的評(píng)估具有更廣泛的意義。當(dāng)比較像詳細(xì)的Claude和最初不那么詳細(xì)的GPT-4這樣的模型時(shí),很明顯,RAG評(píng)估(https://arize.com/blog-course/rag-evaluation/)標(biāo)準(zhǔn)必須超越以前僅重視正確性這一點(diǎn)。模型響應(yīng)的冗長(zhǎng)引入了一個(gè)變量,該變量可以顯著影響他們的感知性能。這種細(xì)微差別可能表明,未來(lái)的模型評(píng)估應(yīng)將平均答復(fù)長(zhǎng)度視為一個(gè)值得注意的因素,從而更好地了解模型的能力,并確保更公平的比較。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。

原文標(biāo)題:Tips for Getting the Generation Part Right in Retrieval Augmented Generation,作者:Aparna Dhinakaran

鏈接:

nce.com/tips-for-getting-the-generation-part-right-in-retrieval-augmented-generation-7deaa26f28dc。

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問(wèn):

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯:姜華 來(lái)源: 51CTO內(nèi)容精選
相關(guān)推薦

2024-05-08 07:28:06

LLMLinguaLLM大型語(yǔ)言模型

2024-12-25 20:01:13

2023-07-12 16:10:48

人工智能

2024-03-27 13:32:00

AI數(shù)據(jù)

2024-06-24 17:45:16

2023-11-23 14:05:36

Claude 2.0聊天機(jī)器人

2024-03-28 14:26:51

人工智能

2024-05-20 08:20:00

OpenAI模型

2023-10-24 19:06:44

數(shù)據(jù)模型

2024-03-05 11:17:40

AI模型

2023-12-11 13:20:00

數(shù)據(jù)訓(xùn)練

2024-03-28 13:15:00

化學(xué)專業(yè)Claude 3GPT-4

2024-04-17 16:51:17

2024-12-18 13:24:30

谷歌AI大語(yǔ)言模型

2023-10-11 13:09:52

訓(xùn)練模型

2024-04-01 12:41:55

2024-04-12 17:41:28

GPT-4TurboClaude

2024-12-09 08:00:00

AI大模型人工智能

2023-11-30 18:26:20

數(shù)據(jù)AI

2025-01-06 13:15:02

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)