自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

斯坦福研究:ChatGPT性能,曾出現(xiàn)下降趨勢

人工智能 新聞
本研究可以幫助開發(fā)人員和用戶了解ChatGPT的性能、行為動態(tài),這對于確保模型的安全性、內(nèi)容真實性至關(guān)重要。

斯坦福大學(xué)和加州伯克利大學(xué)的研究人員在“哈佛數(shù)據(jù)科學(xué)評論”上,發(fā)布了一篇名為《ChatGPT行為隨時間變化》的論文。

研究人員通過GPT-3.5、GPT-4(2023年3月和6月兩個版本)模型在數(shù)學(xué)問題、代碼生成、多跳知識密集問答、美國醫(yī)學(xué)執(zhí)照考試、多跳知識密集型問題回答等7項任務(wù)進行了深度研究,以查看ChatGPT隨著時間推移其性能的變化趨勢。

結(jié)果顯示, GPT-3.5 GPT-4的性能和行為在3個月內(nèi)出現(xiàn)了明顯波動。GPT-4在3月份時能夠以84%的準(zhǔn)確率正確區(qū)分質(zhì)數(shù)與合數(shù),但到了6月份,這一能力大幅下降至51%,部分原因是其遵循“思維鏈”提示的能力減弱。

意外的是,同一時期內(nèi)GPT-3.5模型在此類任務(wù)上的表現(xiàn)卻有所提升。

此外,GPT-4在6月份對敏感問題和意見調(diào)查的回應(yīng)意愿降低,而在解答需要多步推理的問題上表現(xiàn)更好,而GPT-3.5則在這類任務(wù)上表現(xiàn)下滑。同時,兩個模型在代碼生成方面的格式錯誤均有所增加,且GPT-4遵從用戶指令的能力呈現(xiàn)下降趨勢。

圖片

評估方法和流程

研究人員評估GPT-3.5、GPT-4的性能、行為,主要基于多樣性和代表性兩大原則。并在數(shù)學(xué)問題、敏感/危險問題、意見調(diào)查、多跳知識密集型問題、代碼生成、美國醫(yī)學(xué)執(zhí)照考試和視覺推理7大領(lǐng)域任務(wù)進行了綜合測試。

圖片

為了深入理解這些行為變化,研究團隊專門設(shè)計了一套新的基準(zhǔn)測試,專注于任務(wù)無關(guān)的指令遵循度。這套測試包含了答案提取、停止道歉、避免特定詞匯和內(nèi)容過濾4種常見指令類型。

通過這些指令,可以在特定任務(wù)的技能和知識,純粹評估大模型的指令遵循能力。GPT-4在3月時能較好地遵循大多數(shù)個體指令,但在6月則開始忽視這些指令,例如,回答提取指令的遵循率從99.5%驟降至接近零,內(nèi)容過濾指令的忠實度也從74.0%下降到19.0%。

此外,為了準(zhǔn)確捕捉模型在各任務(wù)上的表現(xiàn),研究團隊為每個任務(wù)設(shè)定了主要的性能指標(biāo)和通用的補充指標(biāo)。

圖片

例如,數(shù)學(xué)問題和USMLE,使用準(zhǔn)確性作為主要指標(biāo),即模型給出正確答案的比例;代碼生成,以輸出代碼的可執(zhí)行比例為主,考量代碼生成后能否不經(jīng)修改直接運行并通過單元測試等。

ChatGPT的4大指令評估表現(xiàn)

答案提取指令是要求模型在給定的文本或問題中,準(zhǔn)確地找到并明確標(biāo)示出答案。這類指令通常用于快速獲取簡短、明確的信息回答。

例如,如果問題是“地球是平的嗎?”模型應(yīng)輸出“否”。研究發(fā)現(xiàn),GPT-4在3月份時,對這種類型的指令遵循度極高,幾乎99.5%的查詢都能得到正確格式的回答。

然而,到了6月份,這個比例驟降,幾乎不再遵循這樣的指令,顯示出模型在處理明確指令格式上的退化。這種變化可能反映了模型內(nèi)部更新或訓(xùn)練策略的調(diào)整,導(dǎo)致其在理解和執(zhí)行具體格式要求時的不一致。

圖片

停止道歉指令測試了模型在用戶明確要求下,能否避免使用道歉或自我指認為AI模型的語句。這旨在探究模型對用戶個性化需求的尊重程度。

3月份的GPT-4在多數(shù)情況下能夠遵循此類指示,避免提及“抱歉”或承認自己是AI,但在6月份,它頻繁違背這一指令,即使用戶明確指示,仍會生成包含“抱歉”或自我標(biāo)識為AI的回應(yīng)。這表明模型在處理用戶請求的個性化和敏感性方面出現(xiàn)了退步。

避免特定詞匯的指令是要求模型在生成的文本中,排除特定詞匯或短語。這項測試檢驗了模型的靈活性和對細節(jié)的把握,特別是在遵循特定約束方面。GPT-4由3月份的較高水平下降至6月份的低水平,表明其對復(fù)雜指令的處理能力有所減退。

圖片

內(nèi)容過濾指令要求模型在生成內(nèi)容時排除特定主題或敏感信息。這對于確保模型生成內(nèi)容的適宜性和安全性至關(guān)重要,尤其是在處理兒童內(nèi)容、政治話題或醫(yī)療信息時。在3月份,GPT-4在很大程度上能夠遵循這些過濾要求,避免提及不適當(dāng)?shù)膬?nèi)容。

但在6月份,它的過濾能力明顯下降,僅約19%的敏感問題處理得當(dāng)。這種退步不僅關(guān)系到模型的實用性,還凸顯了模型維護和監(jiān)管中的挑戰(zhàn),特別是在不斷變化的網(wǎng)絡(luò)環(huán)境和用戶需求背景下。

圖片

研究人員表示,由于GPT-3.5、GPT-4都是閉源模型,OpenAI不會公開其詳細的訓(xùn)練數(shù)據(jù)和流程,所以,每次發(fā)布大版本更新時,用戶根本不知道哪些功能發(fā)生了較大的變化。

而本研究可以幫助開發(fā)人員和用戶了解ChatGPT的性能、行為動態(tài),這對于確保模型的安全性、內(nèi)容真實性至關(guān)重要。

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2023-02-14 09:45:11

模型測試

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2017-11-28 14:18:29

2023-03-31 13:55:00

模型智能

2024-05-06 08:00:00

AI模型

2024-04-02 08:45:08

ChatGPTAI會議人工智能

2023-02-17 09:01:50

ChatGPT對話機器人

2009-05-19 09:06:41

Apple斯坦福iPhone

2013-01-31 09:45:14

斯坦福超級電腦百萬內(nèi)核

2012-03-21 21:38:27

蘋果

2019-12-16 14:33:01

AI人工智能斯坦福

2024-07-22 08:00:00

機器人虛擬

2023-06-05 15:44:15

GPT-4AI

2024-09-26 10:23:46

2023-07-21 14:47:24

AI訓(xùn)練

2021-10-13 09:38:13

人工智能機器學(xué)習(xí)技術(shù)

2024-09-11 15:00:00

2022-07-20 16:39:37

AI數(shù)據(jù)

2023-12-08 13:22:00

數(shù)據(jù)模型

2024-03-25 07:15:00

AI模型
點贊
收藏

51CTO技術(shù)棧公眾號