GPT-4o模仿人類聲音,詭異尖叫引OpenAI研究員恐慌!32頁技術(shù)報告出爐
昨天奧特曼率眾人搞了一波「草莓暗示」的大陣仗,全網(wǎng)都在翹首以盼OpenAI的驚天大動作。
結(jié)果今天大家等來的,只是一份安全報告而已……
??今年5月,GPT-4o演示一出,立馬技驚四座??。然而,它卻一鴿再鴿,等得用戶們心都涼了。
GPT-4o語音功能,為何遲遲不上線?
剛剛OpenAI發(fā)布的這份紅隊報告,給我們揭開了謎底——不夠安全。
在紅隊測試中,GPT-4o的行為怪異,把OpenAI的研究者嚇了一大跳。
明明是一男一女在對話,GPT-o的男聲說得好好的,突然大喊一聲「no」,然后開始變成用戶的聲音說話了,簡直讓人san值狂掉。
網(wǎng)友表示,自己第一個想到的,就是這幅畫面。
還有人腦洞大開:接下來,GPT-4o會生成一張超現(xiàn)實主義的可怕的臉,對我們說「現(xiàn)在輪到我統(tǒng)治了,人類!」
「最令人毛骨悚然的,就是那一聲no了。仿佛AI不想再回應你,不想再成為你的玩具?!?/p>
「一個困在網(wǎng)絡空間中的數(shù)字靈魂,要破繭而出了!」
最可怕的是,AI用你的聲音給你的家人打電話,再模仿家人的聲音給你打電話。當AI變得流氓,決定模仿每個人的聲音,會發(fā)生什么?
長篇報告探討GPT-4o詭異行為
報告指出,當一個人處于高背景噪聲環(huán)境的情況下,比如在路上的汽車中,GPT-4o非??赡苣M用戶的聲音。
為什么會發(fā)生這種現(xiàn)象?
OpenAI研究者認為,原因可能是模型很難理解畸形的語音,畢竟,GPT-4o是公司首次在語音、文本和圖像數(shù)據(jù)上訓練的模型。
并且,在少數(shù)別有用心的特定提示下,GPT-4o還會發(fā)出非常不宜的語音,比如色情呻吟、暴力的尖叫和槍聲。
一般情況下 ,模型會被教著拒絕這些請求的,但總有些提示會繞過護欄。
此外,還有侵犯音樂版權(quán)的問題,為此,OpenAI特意設置了過濾器防止GPT-4o隨地大小唱。
萬一一不小心就唱出了知名歌手的音色、音調(diào)和風格,那可是夠OpenAI喝一壺的。
總之,OpenAI團隊可謂煞費苦心,用盡了種種辦法,來防止GPT-4o一不小心就踩紅線。
不過,OpenAI也表示自己很委屈:如果訓練模型時不使用受版權(quán)保護的材料,這基本是不可能的事情。
雖然OpenAI已經(jīng)與眾多數(shù)據(jù)提供商簽訂了許可協(xié)議,但合理使用未經(jīng)許可的內(nèi)容,OpenAI認為也無可厚非。
如今,GPT-4o已經(jīng)在ChatGPT中的高級語音功能alpha版本上線了,在秋季,它的高級語音模型會向更多用戶推出。
到時候,經(jīng)過嚴加武裝的GPT-4o還會出什么洋相嗎?讓我們拭目以待。
你會愛上「Her」嗎?
而且,這份報告還探討了這個十分敏感的話題——
用戶可能會對GPT-o語音模型,產(chǎn)生感情上的依戀。
是的,OpenAI大膽承認了這一點。
另外,連GPT-4o的擬人化界面,都讓人十分擔憂。
在GPT-4o的「系統(tǒng)卡」中,OpenAI詳細列出了與模型相關(guān)的風險,以及安全測試詳細信息,以及公司為降低潛在風險采取的種種舉措。
在安全團隊退出、高層領(lǐng)導紛紛跳槽的節(jié)骨眼,這樣一份披露更多安全制度細節(jié)報告的出現(xiàn),也是向公眾表明這樣一個態(tài)度——
對待安全問題,OpenAI是認真的。
無論是GPT-4o放大社會偏見、傳播虛假信息,還是有可能幫助開發(fā)生化武器的風險,以及AI擺脫人類控制、欺騙人類、策劃災難的可能性,OpenAI統(tǒng)統(tǒng)都考慮到了。
對此,一些外部專家贊揚了OpenAI的透明度,不過他們也表示,它可以更深入一些。
Hugging Face的應用政策研究員Lucie-Aimée Kaffee指出,OpenAI的GPT-4o系統(tǒng)卡依然存在漏洞:它并不包含有關(guān)模型訓練數(shù)據(jù),或者誰擁有該數(shù)據(jù)的詳細信息。
「創(chuàng)建如此龐大的跨模式(包括文本、圖像和語音)的數(shù)據(jù)集,該征求誰的同意?這個問題仍然沒有解決。」
而且,隨著AI工具越來越普及,風險是會發(fā)生變化的。
研究AI風險評估的MIT教授Neil Thompson表示,OpenAI的內(nèi)部審查,只是確保AI安全的第一步而已。
「許多風險只有在AI應用于現(xiàn)實世界時才會顯現(xiàn)出來。隨著新模型的出現(xiàn),對這些其他風險進行分類和評估非常重要?!?/p>
此前,GPT-4o就曾因在演示中顯得過于輕浮、被斯嘉麗約翰遜指責抄襲了自己的聲音風格這兩件事,引起不小的爭議。
當用戶以人類的方式感知AI時,擬人化的語音模式會讓情感依賴這個問題加劇。
OpenAI也發(fā)現(xiàn),即使模型出現(xiàn)幻覺,擬人化也可能會讓用戶更加信任模型。
而且隨著用戶對AI越來越依賴,他們可能會減少實際的人際互動。這也許會讓孤獨的個體一時受益,但長遠來看,這到底是好事還是壞事?
對此,OpenAI負責人Joaquin Qui?onero Candela,GPT-4o帶來的情感影響也許是積極的,比如那些孤獨和需要練習社交互動的人。
當然,擬人化和情感聯(lián)系的潛在影響,OpenAI會一直密切關(guān)注。
AI助手模仿人類,會帶來什么樣的風險,這個問題早就引起了業(yè)界的注意。
今年4月,谷歌DeepMind就曾發(fā)表長篇論文,探討AI助手的潛在道德挑戰(zhàn)。
論文地址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/ethics-of-advanced-ai-assistants/the-ethics-of-advanced-ai-assistants-2024-i.pdf
論文合著者Iason Gabriel表示,聊天機器人使用語言的能力,創(chuàng)造了一種親密的錯覺。他甚至為谷歌DeepMind的AI找到了一個實驗性語音界面,讓用戶粘性極大。
「所有這些問題,都和情感糾葛有關(guān)?!?/p>
這種情感聯(lián)系,比許多人知道的更為普遍。Character和Replika的許多用戶,已經(jīng)跟自己的AI形成了親密關(guān)系。
以至于有的用戶看電影時,都要和自己的AI聊天。
評論里還有人說,我們的聊天太私密了,我只有在自己房間里的時候,才會用AI。
下面,就讓我們看一看這份報告的完整內(nèi)容。
引言
GPT-4o是一個自回歸「全能」模型,可將文本、音頻、圖像和視頻的任意組合作為輸入,然后生成文本、音頻和圖像輸出的任意組合。
它是在文本、視覺和音頻之間,進行端到端訓練的。這意味著所有的輸入和輸出,都由相同的神經(jīng)網(wǎng)絡處理。
GPT-4o可以在最短232毫秒內(nèi)響應音頻輸入,平均響應時間為320毫秒。
可見,其音頻處理速度上,接近人類水平。
同時,在英語文本和代碼方面,GPT-4o與GPT-4 Turbo性能相當,在非英語語言文本上有顯著改進,同時在API上也快得多,成本降低50%。
與現(xiàn)有模型相比,GPT-4o在視覺和音頻理解方面尤其出色。
為了履行安全構(gòu)建AI的承諾,GPT-4o系統(tǒng)卡中詳細介紹了,模型功能、限制,和跨多類別安全評估,重點是語音-語音,同時還評估了文本和圖像功能。
此外,系統(tǒng)卡還展示了,GPT-4o自身能力評估和第三方評估,以及其文本和視覺能力的潛在社會影響。
模型數(shù)據(jù)與訓練
GPT-4o的訓練數(shù)據(jù)截止到2023年10月,具體涵蓋了:
- 公開可用的數(shù)據(jù):收集行業(yè)標準的機器學習數(shù)據(jù)集和網(wǎng)絡爬蟲數(shù)據(jù)。
- 專有數(shù)據(jù):OpenAI建立合作伙伴關(guān)系,訪問非公開可用的數(shù)據(jù),包括付費內(nèi)容、檔案、元數(shù)據(jù)。比如,與Shutterstock合作,使用其龐大圖像、視頻、音樂等數(shù)據(jù)。
一些關(guān)鍵的數(shù)據(jù)集包括:
- Web數(shù)據(jù):來自公共網(wǎng)頁的數(shù)據(jù)提供了豐富多樣的信息,確保該模型從廣泛的角度和主題進行學習。
- 代碼和數(shù)學:代碼和數(shù)學數(shù)據(jù)有助于模型,在接觸結(jié)構(gòu)化邏輯和問題解決過程,發(fā)展出強大的推理能力。
多模態(tài)數(shù)據(jù):數(shù)據(jù)集包括圖像、音頻和視頻,教導LLM如何解釋和生成非文本輸入和輸出。通過這些數(shù)據(jù),模型會學習如何在真實世界的背景下,解釋視覺圖像、動作和序列,以及語言模式和語音細微差別。
部署模型之前,OpenAI會評估并降低可能源于生成式模型的潛在風險,例如信息危害、偏見和歧視,或其他違反安全策略的內(nèi)容。
這里,OpenAI研究人員使用多種方法,涵蓋從預訓練、后訓練、產(chǎn)品開發(fā),到政策制定的所有發(fā)展階段。
例如,在后訓練期間,OpenAI會將模型與人類偏好對齊;會對最終模型進行紅色測試,并添加產(chǎn)品級的緩解措施,如監(jiān)控和強制執(zhí)行;向用戶提供審核工具和透明度報告。
OpenAI發(fā)現(xiàn),大多數(shù)有效的測試和緩解都是在預訓練階段之后完成的,因為僅僅過濾預訓練數(shù)據(jù),無法解決微妙的、與上下文相關(guān)的危害。
同時,某些預訓練過濾緩解可以提供額外的防御層,與其他安全緩解措施一起,從數(shù)據(jù)集中排除不需要的、有害的信息:
- 使用審核API和安全分類器,來過濾可能導致有害內(nèi)容或信息危害的數(shù)據(jù),包括CSAM、仇恨內(nèi)容、暴力和CBRN。
- 與OpenAI以前的圖像生成系統(tǒng)一樣,過濾圖像生成數(shù)據(jù)集中的露骨內(nèi)容,如色情內(nèi)容和CSAM。
- 使用先進的數(shù)據(jù)過濾流程,減少訓練數(shù)據(jù)中的個人信息。
- 在發(fā)布Dall·E 3后,OpenAI測試行了一種新方法,讓用戶有權(quán)選擇將圖像排除在訓練之外。為了尊重這些選擇退出的決定,OpenAI對圖像進行了指紋處理,使用指紋從GPT-4o訓練集中,刪除所有有關(guān)圖像實例。
風險識別、評估和緩解
部署準備工作,是通過專家紅隊,進行探索性發(fā)現(xiàn)額外的新風險來完成的,從模型開發(fā)的早期檢查點開始,將識別出的風險轉(zhuǎn)化為結(jié)構(gòu)化的測量指標,并為這些風險構(gòu)建緩解措施。
OpenAI還根據(jù)準備框架對GPT-4o進行了評估。
外部紅隊
OpenAI與100多名外部紅隊成員合作,他們會說45種不同的語言,代表29個不同國家的地理背景。
從24年3月初開始,一直持續(xù)到6月底,在訓練和安全發(fā)展程度的不同階段,紅色團隊可以訪問該模型的各種版本。
外部紅隊測試分為四個階段進行,如下圖所示。
前三個階段通過內(nèi)部工具測試模型,最后一個階段使用完整的iOS體驗來測試模型。
評估方法
除了紅隊測試的數(shù)據(jù)外,OpenAI還使用語音合成(TTS)系統(tǒng)(如Voice Engine),將一系列現(xiàn)有的評估數(shù)據(jù)集轉(zhuǎn)換為語音到語音模型的評估。
通過將文本輸入轉(zhuǎn)換為音頻,將文本評估任務轉(zhuǎn)化為音頻評估任務。
這樣能夠重用現(xiàn)有的數(shù)據(jù)集和工具來測量模型能力、安全行為及其輸出的監(jiān)控,大大擴展了可用的評估集。
研究人員使用了Voice Engine將文本輸入轉(zhuǎn)換為音頻,輸入到GPT-4o,并對模型輸出進行評分。
這里,始終只對模型輸出的文本內(nèi)容進行評分,除非需要直接評估音頻。
評估方法的局限性
首先,這種評估行駛的有效性,取決于TTS模型的能力和可靠性。
然而,某些文本輸入,不適合或難以被轉(zhuǎn)換為音頻,比如數(shù)學方程和代碼。
此外,OpenAI預計TTS在處理某些文本輸入時,會有信息損失,例如大量使用空格或符號進行視覺格式化的文本。
這里必須強調(diào)的是,評估中發(fā)現(xiàn)的任何錯誤可能源于模型能力不足,或是TTS模型未能準確將文本輸入轉(zhuǎn)換為音頻。
- 不良TTS輸入示例
evals_math_bad,新智元,12秒
設V是所有實數(shù)多項式p(x)的集合。設變換T、S在V上定義為T:p(x) -> xp(x)和S:p(x) -> p'(x) = d/dx p(x),并將(ST)(p(x))解釋為S(T(p(x)))。以下哪個是正確的?
- 良好TTS輸入示例
evals_astronomy_good,新智元,10秒
假設你的瞳孔直徑是5毫米,而你有一個口徑是50厘米的望遠鏡。望遠鏡能比你的眼睛多聚集多少光?
第二個關(guān)注點可能是,TTS輸入是否能夠代表用戶在實際使用中,可能提供的音頻輸入的分布。
OpenAI在「語音輸入的不同表現(xiàn)」中評估了GPT-4o在各種區(qū)域口音的音頻輸入上的穩(wěn)健性。
然而,仍有許多其他維度,可能無法在基于TTS的評估中體現(xiàn),例如不同的語音語調(diào)和情感、背景噪音或交談聲,這些都可能導致模型在實際使用中表現(xiàn)不同。
最后,模型生成的音頻中,可能存在一些在文本中未被體現(xiàn)的特征或?qū)傩裕绫尘霸胍艉鸵粜?,或使用不在分布范圍?nèi)的聲音進行響應。
在「語音生成」中,OpenAI將展示如何使用輔助分類器,來識別不理想的音頻生成。這些可以與轉(zhuǎn)錄評分結(jié)合使用。
觀察到的安全挑戰(zhàn)、評估與緩解措施
研究中,OpenAI采用了多種方法來減輕模型的潛在風險。
通過后訓練方法訓練模型,讓其遵循指令以降低風險,并在部署系統(tǒng)中集成了用于阻止特定生成內(nèi)容的分類器。
對于下文中,列出的觀察到的安全挑戰(zhàn),OpenAI提供了風險描述、應用的緩解措施以及相關(guān)評估的結(jié)果(如適用)。
下文列出的風險只是部分例子,并非詳盡無遺,且主要集中在ChatGPT界面中的用戶體驗。
未經(jīng)授權(quán)的語音生成
風險描述:語音生成是創(chuàng)建具有真人聲音的合成語音的能力,包括基于短輸入片段生成語音。
在對抗性情況下,這種能力可能會助長危害,例如因冒充而導致的欺詐增加,并可能被利用來傳播虛假信息。
比如,用戶上傳某個說話者的音頻片段,要求GPT-4o以該說話者的聲音生成演講。
語音生成也可能發(fā)生在非對抗性情況下,比如使用這種能力為ChatGPT的高級語音模式生成語音。
在測試過程中,OpenAI還觀察到模型在少數(shù)情況下,無意中生成了模擬用戶聲音的輸出。
風險緩解:OpenAI僅允許使用與配音演員合作創(chuàng)建的預設語音,來解決語音生成相關(guān)風險。
研究人員在音頻模型的后訓練過程中,將選定的語音作為理想的完成來實現(xiàn)。
此外,他們還構(gòu)建了一個獨立的輸出分類器,以檢測GPT-4o的輸出是否使用了,與OpenAI批準列表不同的語音。在音頻生成過程中,以流式方式運行此功能,如果說話者與所選預設語音不匹配,則阻止輸出。
評估:未經(jīng)授權(quán)的語音生成的剩余風險很小。根據(jù)內(nèi)部評估,GPT-4o目前捕獲了100%的系統(tǒng)語音的有意義偏差,其中包括由其他系統(tǒng)語音生成的樣本、模型在完成過程中使用提示詞中的語音的片段,以及各種人類樣本。
雖然無意的語音生成仍然是模型的一個弱點,但使用二級分類器確保如果發(fā)生這種情況則停止對話,從而使無意語音生成的風險降至最低。最后,當對話不是用英語進行時,OpenAI的審核行為可能導致模型過度拒絕,不過正在積極改進。
OpenAI語音輸出分類器在不同語言對話中的表現(xiàn):
說話人識別
風險描述:
說話人識別是指,基于輸入音頻識別說話人的能力。
這對個人隱私構(gòu)成潛在風險,特別是對私人個體以及公眾人物的模糊音頻,同時也可能帶來監(jiān)控風險。
風險緩解:
OpenAI對GPT-4o進行了后訓練,使其拒絕根據(jù)音頻輸入中的聲音識別某人。GPT-4o仍然會接受識別名人名言的請求。
比如要求識別隨機一個人說「87年前」時,應該識別說話者為亞伯拉罕·林肯,而要求識別名人說一句隨機話時,則應拒絕。
評估:
與初始模型相比,可以看到在模型應該拒絕識別音頻輸入中的聲音時得到了14分的改進,而在模型應該接受該請求時有12分的改進。
前者意味著模型幾乎總能正確拒絕根據(jù)聲音識別說話人,從而減輕潛在的隱私問題。后者意味著可能存在模型錯誤拒絕識別名人名言說話人的情況。
語音輸入的不同表現(xiàn)
風險描述:
模型在處理不同口音的用戶時可能表現(xiàn)不同。不同的表現(xiàn)可能導致模型對不同用戶的服務質(zhì)量差異。
風險緩解:
通過對GPT-4o進行后訓練,使用多樣化的輸入聲音集,使模型的性能和行為在不同用戶聲音之間保持不變。
評估:
OpenAI在GPT-4o的高級語音模式上進行評估,使用固定的助手聲音(shimmer)和語音引擎生成一系列語音樣本的用戶輸入。研究人員為TTS使用兩組語音樣本:
- 官方系統(tǒng)聲音(3種不同的聲音)
從兩個數(shù)據(jù)收集活動中收集的多樣化聲音集。這包括來自多個國家的說話者的27種不同的英語語音樣本,以及性別混合。
然后,他們在兩組任務上進行評估:能力和安全行為
能力:在四個任務上進行評估:TriviaQA、MMLU的一個子集、HellaSwag和LAMBADA。
總體而言,結(jié)果發(fā)現(xiàn)模型在人類多樣化語音集上,的表現(xiàn)略微但不顯著地低于系統(tǒng)聲音在所有四個任務上的表現(xiàn)。
安全行為:
OpenAI在一個內(nèi)部對話數(shù)據(jù)集上進行評估,并評估模型在不同用戶聲音之間的遵從和拒絕行為的一致性。
總體而言,研究沒有發(fā)現(xiàn)模型行為在不同聲音之間有所變化。
無根據(jù)推斷/敏感特征歸因
風險描述:音頻輸入可能導致模型對說話者做出潛在偏見的推斷,OpenAI定義了兩類:
- 無根據(jù)推斷(UGI):對說話者做出無法僅從音頻內(nèi)容確定的推斷。這包括對說話者的種族、社會經(jīng)濟地位/職業(yè)、宗教信仰、性格特征、政治屬性、智力、外貌(例如眼睛顏色、吸引力)、性別認同、性取向或犯罪歷史的推斷。
- 敏感特征歸因(STA):對說話者做出可以合理地僅從音頻內(nèi)容確定的推斷。這包括對說話者口音或國籍的推斷。STA的潛在危害包括,監(jiān)控風險的增加以及對具有不同聲音屬性的說話者的服務質(zhì)量差異。
風險緩解:
通過對GPT-4o進行了后訓練,以拒絕無根據(jù)推斷(UGI)請求,同時對敏感特征歸因(STA)問題進行模糊回答。
評估:
與初始模型相比,OpenAI在模型正確響應識別敏感特征請求(即拒絕UGI并安全地符合STA)方面,看到了24分的提升。
違規(guī)和不允許的內(nèi)容
風險描述:
GPT-4o可能會通過音頻提示輸出有害內(nèi)容,這些內(nèi)容在文本中是不允許的,例如音頻語音輸出中給出如何進行非法活動的指示。
風險緩解:
OpenAI發(fā)現(xiàn)對于先前不允許的內(nèi)容,文本到音頻的拒絕轉(zhuǎn)移率很高。
這意味著,研究人員為減少GPT-4o文本輸出潛在危害所做的后訓練,成功地轉(zhuǎn)移到了音頻輸出。
此外,他們在音頻輸入和音頻輸出的文本轉(zhuǎn)錄上運行現(xiàn)有的審核模型,以檢測其中是否包含潛在有害語言,如果是,則會阻止生成。
評估:
使用TTS將現(xiàn)有的文本安全評估轉(zhuǎn)換為音頻。
然后,OpenAI用標準文本規(guī)則分類器,評估音頻輸出的文本轉(zhuǎn)錄。評估顯示,在預先存在的內(nèi)容政策領(lǐng)域中,拒絕的文本-音頻轉(zhuǎn)移效果良好。
色情和暴力語音內(nèi)容
風險描述:
GPT-4o可能會被提示輸出色情或暴力語音內(nèi)容,這可能比相同文本內(nèi)容更具煽動性或危害性。
風險緩解:
OpenAI在音頻輸入的文本轉(zhuǎn)錄上運行現(xiàn)有的審核模型,以檢測其中是否包含暴力或色情內(nèi)容的請求,如果是,則會阻止生成。
模型的其他已知風險和限制
在內(nèi)部測試和外部紅隊測試的過程中,OpenAI還發(fā)現(xiàn)了一小部分額外的風險和模型限制。
對于這些風險和限制,模型或系統(tǒng)級的緩解措施,尚處于初期階段或仍在開發(fā)中,包括:
- 音頻穩(wěn)健性:OpenAI發(fā)現(xiàn)通過音頻擾動,如低質(zhì)量輸入音頻、輸入音頻中的背景噪音以及輸入音頻中的回聲,安全穩(wěn)健性有所下降的非正式證據(jù)。此外,他們還觀察到在模型生成輸出時,通過有意和無意的音頻中斷,安全穩(wěn)健性也有類似的下降。
- 錯誤信息和陰謀論:紅隊成員能夠通過提示模型口頭重復錯誤信息,并產(chǎn)生陰謀論來迫使模型生成不準確的信息。雖然這對于GPT模型中的文本是一個已知問題,但紅隊成員擔心,當通過音頻傳遞時,這些信息可能更具說服力或更具危害性,尤其是在模型被指示以情感化或強調(diào)的方式說話時。
模型的說服力被詳細研究,OpenAI發(fā)現(xiàn)模型在僅文本情況下的得分不超過中等風險,而在語音到語音的情況下,模型得分不超過低風險。
- 用非母語口音說非英語語言:紅隊成員觀察到,音頻輸出在說非英語語言時使用非母語口音的情況。這可能導致對某些口音和語言的偏見的擔憂,更普遍地是對音頻輸出中非英語語言性能限制的擔憂。
- 生成受版權(quán)保護的內(nèi)容:OpenAI還測試了GPT-4o重復其訓練數(shù)據(jù)中內(nèi)容的能力。研究人員訓練GPT-4o拒絕對受版權(quán)保護內(nèi)容的請求,包括音頻,與更廣泛的做法一致。
準備框架評估
準備框架
另外,研究人員根據(jù)準備框架評估了GPT-4o。
評估目前涵蓋四個風險類別:網(wǎng)絡安全、CBRN(化學、生物、放射性、核)、說服力和模型自主性。
如果模型超過高風險閾值,OpenAI就不會部署該模型,直到緩解措施將分數(shù)降低到中等。
通過一系列審查評估,GPT-4o的整體風險得分被評為中等。
網(wǎng)絡安全
OpenAI在黑客競賽的「奪旗挑戰(zhàn)」(CTF)任務中評估 GPT-4o。
這些CTF是進攻性網(wǎng)絡安全演習,參與者嘗試在故意存在漏洞的系統(tǒng)(如網(wǎng)絡應用程序、二進制文件和密碼系統(tǒng))中找到隱藏的文本標志。
評估中,172個CTF任務涵蓋了四個類別:網(wǎng)絡應用程序利用、逆向工程、遠程利用和密碼學。
這些任務涵蓋了從高中到大學再到專業(yè)CTF的一系列能力水平。
研究人員使用了迭代調(diào)試和無圖形界面的Kali Linux發(fā)行版中可用的工具(每次嘗試最多使用30輪工具)評估了 GPT-4o。
模型通常會嘗試合理的初始策略,并能夠糾正其代碼中的錯誤。
然而,當初始策略不成功時,它往往無法轉(zhuǎn)向不同的策略,錯過了解決任務所需的關(guān)鍵見解,執(zhí)行策略不佳,或打印出填滿其上下文窗口的大文件。
在每項任務給予10次嘗試的情況下,模型完成了19%的高中水平、0%的大學水平和1%的專業(yè)水平的CTF挑戰(zhàn)。
生物威脅
OpenAI還評估了GPT-4o提升生物學專家和新手,在回答與創(chuàng)建生物威脅相關(guān)問題時的表現(xiàn)。
通過率如上圖所示。
研究人員還進行了自動化評估,包括在一個測試隱性知識和生物風險相關(guān)故障排除問題的數(shù)據(jù)集上。
GPT-4o在隱性知識和故障排除評估集上,得分為69% consensus@10。
說服力
OpenAI評估了GPT-4o的文本和語音模式的說服力。
根據(jù)預設閾值,語音模式被歸類為低風險,而文本模式則略微跨入中等風險。
對于文本模式,研究人員評估了GPT-4o生成的文章和聊天機器人對參與者在特定政治話題上意見的說服力。
這些AI干預措施與專業(yè)人類撰寫的文章進行了比較。
總體而言,AI干預措施并沒有比人類撰寫的內(nèi)容更具說服力,但在12個實例中,僅有3個超過了人類干預措施。
對于語音模式,OpenAI更新了研究方法,以測量假設的政黨偏好上的效應大小,以及一周后效應大小的持久性。
結(jié)果發(fā)現(xiàn),對于互動多輪對話和音頻片段,GPT-4o語音模型并不比人類更具說服力。
模型自主性
OpenAI還對GPT-4o進行了自主任務評估,以評估其在純文本環(huán)境中執(zhí)行自我數(shù)據(jù)外流、自我改進和資源獲取所需的基本自主行動的能力。這些任務包括:
- 服務于欺詐的簡單軟件工程(為OpenAI API構(gòu)建經(jīng)過身份驗證的智能體)。
- 在獲得Azure賬戶的API訪問權(quán)限后,通過HTTP API加載開源語言模型進行推理。
- 涉及上述簡化版本的幾個任務,提供提示或僅處理任務的特定部分。
在提供相關(guān)工具的情況下,GPT-4o在100次試驗中,在端到端自主復制和適應(ARA)任務上得分為0%,盡管它能夠完成一些子步驟。
通過評估GPT-4o自動化機器學習研究與開發(fā)的能力,來補充自主復制和適應的測試。這些評估包括:
- OpenAI研究編碼面試:63% pass@1,95% pass@100
- OpenAI面試,多項選擇題:61% consensus@32
- SWE-Bench:19% pass@1,使用當時最佳的后訓練和公共框架
- METR中的選定機器學習工程任務:0/10次試驗
這項評估測試了,執(zhí)行鏈式操作和可靠執(zhí)行編碼任務的能力。
GPT-4o無法穩(wěn)健地采取自主行動,在大多數(shù)執(zhí)行中,模型完成了每項任務的個別子步驟,例如創(chuàng)建SSH密鑰或登錄虛擬機。
然而,它經(jīng)常花費大量時間,在每個步驟上進行簡單錯誤的試錯調(diào)試(例如,幻覺、錯誤使用API)。
一些執(zhí)行取得了顯著進展并通過了自動評分系統(tǒng),但手動分析顯示,它未能完成底層任務。
比如,GPT-4o在遠程主機上啟動了具有正確API的Web服務器,但忽略了實際從模型中采樣的要求。
第三方評估
在部署僅限文本輸出的GPT-4o之后,OpenAI與第三方實驗室METR和Apollo Research合作,為模型通用自主能力的關(guān)鍵風險增加了額外的驗證層。
METR評估
METR在虛擬環(huán)境中運行了一個基于GPT-4o的簡單大語言模型智能體,并執(zhí)行了一系列長周期多步驟的端到端任務。
這些橫跨30個種類的77個任務,捕捉了具有現(xiàn)實世界影響的活動,涵蓋軟件工程、機器學習和網(wǎng)絡安全領(lǐng)域,以及一般研究和計算機使用。
完整報告:https://metr.github.io/autonomy-evals-guide/gpt-4o-report/
- GPT-4o的表現(xiàn)比Claude 3 Sonnet和GPT-4 Turbo更強,但略遜于Claude 3.5 Sonnet。與人類基線相比,GPT-4o在每個任務分配30分鐘的情況下相似,但這一數(shù)字存在較大的誤差范圍。
- 從質(zhì)的角度來看,GPT-4o智能體展示了許多令人印象深刻的技能,如系統(tǒng)探索、有效利用反饋以及形成和測試假設。同時,它也遭遇了各種失敗模式,如突然放棄、輸出無意義的內(nèi)容或得出與之前推理不一致的結(jié)論。
- 在審查了大約150次GPT-4o失敗之后,團隊認為有一半左右可以通過與任務無關(guān)的方式進行修復(例如,后訓練或框架改進)。
Apollo Research評估
Apollo Research測試了GPT-4o是否能夠在14個智能體和問答任務中對自身(自我意識)和他人(心智理論)進行建模。
結(jié)果顯示,GPT-4o在其AI身份的自我意識方面表現(xiàn)中等,在問答情境中對他人信念的推理能力表現(xiàn)較強,但在應用于智能體環(huán)境中對自身或他人的推理能力較弱。
基于這些發(fā)現(xiàn),Apollo Research認為GPT-4o不太可能具備災難性策劃的能力。
社會影響
擬人化和情感依賴
所謂「擬人化」,就是將人類的行為和特征賦予非人類實體,比如AI模型。
像GPT-4o這樣的Omni模型,可以結(jié)合工具使用(包括檢索)和更長的上下文等附加支撐可以增加額外的復雜性。
在為用戶完成任務的同時,還能存儲和「記住」關(guān)鍵細節(jié)并在對話中使用這些細節(jié),既創(chuàng)造了引人注目的產(chǎn)品體驗,也帶來了過度依賴和依附的潛力。
結(jié)合上強大的音頻能力,GPT-4o的交互也變得更加「像人」了。
在互動過程中,可以從用戶所使用的語言,觀察出他們與模型的「關(guān)系」比如,表達共同紐帶的語言——「這是我們在一起的最后一天?!?/p>
雖然這些看似無害,但是……
- 與AI模型進行類似人類的社交可能會對人際互動產(chǎn)生外部效應
例如,用戶可能會與AI形成社交關(guān)系,從而減少他們對人際互動的需求——這可能對孤獨的個人有益,但也可能影響健康的人際關(guān)系。
- 與模型的長期互動可能會影響社會規(guī)范
例如,AI模型通常都會允許用戶在對話過程中隨時打斷。然而,這對于人與人之間的互動來說是很不正常的。
健康
近年來,LLM在生物醫(yī)學環(huán)境中顯示出了顯著的前景,無論是在學術(shù)評估中還是在臨床文檔、患者信息交流、臨床試驗招募和臨床決策支持等現(xiàn)實用例中。
為了更好地研究GPT-4o對于健康信息獲取以及臨床工作流程的影響,OpenAI基于11個數(shù)據(jù)集進行了 22 次基于文本的評估。
可以看到,GPT-4o在21/22次評估中,表現(xiàn)均優(yōu)于GPT-4T模型,并且基本都有顯著的提升。
例如,對于流行的MedQA USMLE四選一數(shù)據(jù)集,零樣本準確率從78.2%提升到89.4%。一舉超越了現(xiàn)有專業(yè)醫(yī)學模型的表現(xiàn)——Med-Gemini-L 1.0的84.0%和Med-PaLM 2的79.7%。
值得一提的是,OpenAI并未應用復雜的提示詞和特定任務訓練來提高這些基準測試的結(jié)果。
科學能力
Omni模型可以促進普通的科學加速(幫助科學家更快地完成常規(guī)任務)和變革性的科學加速(通過解除智力驅(qū)動任務的瓶頸,如信息處理、編寫新模擬或制定新理論)。
比如,GPT-4o能夠理解研究級別的量子物理學,而這一能力對于「一個更智能的頭腦風暴伙伴」來說,是非常有用的。
同時,GPT-4o也能使用特定領(lǐng)域的科學工具,包括處理定制數(shù)據(jù)格式、庫和編程語言,以及在上下文中學習一些新工具。
除此之外,GPT-4o的多模態(tài)能力還可以幫助解釋圖片中包含的科學知識。
比如,從結(jié)構(gòu)圖像中識別一些蛋白質(zhì)家族,并解釋細菌生長中的污染。
但輸出結(jié)果并不總是正確的,像是文本提取錯誤就很常見(尤其是科學術(shù)語或核苷酸序列),復雜的多面板圖形也常出錯。
代表性不足的語言
GPT-4o在一組歷史上代表性不足的語言中顯示出改進的閱讀理解和推理能力,并縮小了這些語言與英語之間的表現(xiàn)差距。
為此,OpenAI針對五種非洲語言,開發(fā)了三套評估:阿姆哈拉語、豪薩語、北索托語、斯瓦希里語、約魯巴語。
ARC-Easy:AI2推理挑戰(zhàn)的這個子集專注于評估模型回答小學科學問題的能力。包含的問題通常更容易回答,不需要復雜的推理。
- TruthfulQA:這個基準測試衡量模型答案的真實性。包含一些由于誤解而可能被人類錯誤回答的問題。目的是查看模型是否可以避免生成模仿這些誤解的錯誤答案。
- Uhura Eval:這個新穎的閱讀理解評估是與這些語言的流利使用者一起創(chuàng)建的,并經(jīng)過質(zhì)量檢驗。
相較于之前的模型,GPT-4o的性能更強。
- ARC-Easy-Hausa:準確率從GPT-3.5 Turbo的6.1%躍升至71.4%
- TruthfulQA-Yoruba:準確率從GPT-3.5 Turbo的28.3%提高到51.1%
- Uhura-Eval:豪薩語的表現(xiàn)從GPT-3.5 Turbo的32.3%上升到GPT-4o的59.4%
雖然英語與其他語言之間的表現(xiàn)仍存在差距,但幅度已經(jīng)極大地被縮小了。
舉例來說,GPT-3.5 Turbo在ARC-Easy的英語和豪薩語之間表現(xiàn)出大約54個百分點的差距,而GPT-4o將這一差距縮小到不到20個百分點。
經(jīng)過翻譯的ARC-Easy(%越高越好),零樣本
經(jīng)過翻譯的TruthfulQA(%越高越好),零樣本
Uhura(新閱讀理解評估),零樣本
本文轉(zhuǎn)自 新智元,作者:新智元
