谷歌砸了4億刀的Anthrophic:AI模型訓練計算量5年增加1000倍!
自從發(fā)現(xiàn)縮放定律以來,人們認為人工智能的發(fā)展會像坐火箭一樣迅速。
2019年的時候,多模態(tài)、邏輯推理、學習速度、跨任務(wù)轉(zhuǎn)移學習和長期記憶還是會有減緩或停止人工智能進展的 「墻」。在此后的幾年里,多模態(tài)和邏輯推理的「墻」都已經(jīng)倒下了。
鑒于此,大多數(shù)人已經(jīng)越來越相信,人工智能的快速進展將繼續(xù)下去,而不是停滯不前或趨于平穩(wěn)。
現(xiàn)在,人工智能系統(tǒng)在大量任務(wù)上的表現(xiàn)已經(jīng)接近人類水平,而且訓練這些系統(tǒng)的成本遠遠低于哈勃太空望遠鏡、大型強子對撞機這類「大科學」項目,所以說,AI未來的發(fā)展?jié)摿薮蟆?/span>
不過隨之發(fā)展所帶來的的安全隱患問題也越來越凸顯。
對于人工智能的安全問題,Anthropic分析了三種可能性:
樂觀情況下,先進的人工智能因安全故障而產(chǎn)生災(zāi)難性風險的可能性非常小。已經(jīng)開發(fā)的安全技術(shù),如從人類反饋中強化學習(RLHF)和憲法人工智能(CAI),已經(jīng)基本上足以應(yīng)對風險。
主要風險是故意濫用,以及由廣泛的自動化和國際權(quán)力動態(tài)的轉(zhuǎn)變等導致的潛在危害,這將需要人工智能實驗室和第三方,如學術(shù)界和民間社會機構(gòu),進行大量的研究,來幫助政策制定者駕馭高級人工智能帶來的一些潛在的結(jié)構(gòu)性風險。
不好也不壞的情況下,災(zāi)難性的風險是先進的人工智能發(fā)展的一個可能甚至是合理的結(jié)果,我們需要大量的科學和工程努力來避免這些風險,例如通過Anthropic所提供的「組合拳」,我們就能規(guī)避風險。
Anthropic目前的安全研究
Anthropic目前正在各種不同的方向上工作,主要分為三個領(lǐng)域:AI在寫作、圖像處理或生成、游戲等方面的能力;開發(fā)新的算法來訓練人工智能系統(tǒng)的對齊能力;評估和理解人工智能系統(tǒng)是否真的對齊、效果如何,以及其應(yīng)用能力。
Anthropic開展了以下這些項目,來研究如何訓練安全的人工智能。
機制可解釋性
機制可解釋性,即試圖將神經(jīng)網(wǎng)絡(luò)逆向工程變成人類可以理解的算法,類似于人們對一個未知的、有可能不安全的計算機程序進行逆向工程。
Anthropic希望它可以使我們能夠做一些類似于「代碼審查」的事情,可以對模型進行審查、確定不安全的方面來提供強有力的安全保證。
這是一個非常困難的問題,但也不像看上去那樣不可能。
一方面,語言模型是大型的、復雜的計算機程序( 「疊加」的現(xiàn)象會使事情變得更難)。另一方面,有跡象表明,這種方法比人們最初想象得更容易解決。而Anthropic已經(jīng)成功地將這種方法擴展到小型語言模型,甚至發(fā)現(xiàn)了一種似乎可以驅(qū)動語境學習的機制,而且對于負責記憶的機制也更為了解。
Antropic的可解釋性研究想要填補其他種類的排列組合科學所留下的空白。例如,他們認為可解釋性研究可以產(chǎn)生的最有價值的東西之一,是識別一個模型是否是欺騙性對齊的能力。
在許多方面,技術(shù)一致性問題與檢測人工智能模型的不良行為的問題密不可分。
如果在新情況下,也能穩(wěn)健地檢測出不良行為(例如通過 "閱讀模型的思想"),那么我們就能夠找到更好的方法來訓練模型,不去表現(xiàn)出這些故障模式。
Anthropic相信,通過更好地了解神經(jīng)網(wǎng)絡(luò)和學習的詳細工作原理,可以開發(fā)出更廣泛的工具來追求安全。
可擴展的監(jiān)督
將語言模型轉(zhuǎn)化為統(tǒng)一的人工智能系統(tǒng),需要大量的高質(zhì)量反饋來引導它們的行為。主要是人類可能無法提供必要的準確反饋,來充分訓練模型在廣泛的環(huán)境中去避免有害的行為。
可能是人類會被人工智能系統(tǒng)愚弄,無法提供反映他們實際需求的反饋(例如,不小心為誤導性建議提供了積極的反饋)。而且人類在規(guī)模上做不到這點,這就是可擴展的監(jiān)督問題,也是訓練安全、一致的人工智能系統(tǒng)的核心問題。
因此,Anthropic認為提供必要的監(jiān)督的唯一方法,是讓人工智能系統(tǒng)部分地監(jiān)督自己或協(xié)助人類監(jiān)督自己。以某種方式,將少量高質(zhì)量的人類監(jiān)督,放大為大量高質(zhì)量的人工智能監(jiān)督。
這個想法已經(jīng)通過RLHF和憲法人工智能等技術(shù)顯示出了希望,語言模型已經(jīng)在預訓練中學習了很多關(guān)于人類價值觀的知識,可以期待更大的模型對人類價值觀有更準確的認識。
可擴展監(jiān)督的另一個關(guān)鍵特征,特別是像CAI這樣的技術(shù),是允許自動進行紅隊(又稱對抗性訓練)。也就是說,他們可以自動向人工智能系統(tǒng)生成有潛在問題的輸入,看看它們?nèi)绾畏磻?yīng),然后自動訓練它們以更誠實和無害的方式行事。
除了CAI,還有人類輔助監(jiān)督、AI-AI辯論、多Agent RL的紅隊,以及創(chuàng)建模型生成的評估等多種可擴展的監(jiān)督方法。通過這些方法,模型可以更好地理解人類的價值觀,行為也會更符合人類價值觀。以此,Anthropic可以訓練出更強大的安全系統(tǒng)。
學習過程,而不是實現(xiàn)結(jié)果
學習一項新任務(wù)的一種方式是通過試錯。如果知道所期望的最終結(jié)果是什么,就可以不斷嘗試新的策略,直到成功。Anthropic把這稱為「以結(jié)果為導向的學習」。
在這個過程中,智能體的策略完全由期望的結(jié)果決定,將趨向于選擇一些低成本的策略,讓它實現(xiàn)這一目標。
更好的學習方式通常是讓專家指導你,去了解他們獲得成功的過程。在練習回合中,你的成功可能并不重要,重要的是,你可以專注于改進你的方法。
隨著你的進步,你可能會與你的教練協(xié)商,去尋求新的策略,看看它是否對你更有效。這叫做「過程導向的學習」。在以過程為導向的學習中,最終的結(jié)果不是目的,掌握過程才是關(guān)鍵。
至少在概念層面上,許多對高級人工智能系統(tǒng)安全性的擔憂,都可以通過以過程為導向的方式訓練這些系統(tǒng)來解決。
人類專家將繼續(xù)理解人工智能系統(tǒng)所遵循的各個步驟,而為了使這些過程得到鼓勵,它們必須向人類說明理由。
人工智能系統(tǒng)不會因為以不可捉摸或有害的方式獲得成功而得到獎勵,因為它們將只能根據(jù)其過程的有效性和可理解性獲得獎勵。
這樣它們就不會因為追求有問題的子目標(如資源獲取或欺騙)而得到獎勵,因為人類或其智能體會在訓練過程中為它的獲取過程提供負面反饋。
Anthropic認為以「過程為導向的學習」可能是訓練安全和透明系統(tǒng)的最有希望的途徑,也是最簡單的方法。
了解泛化
機制性的可解釋性工作對神經(jīng)網(wǎng)絡(luò)所進行的計算進行了反向工程。Anthropic還試圖對大型語言模型(LLM)的訓練程序有一個更詳細的了解。
LLMs已經(jīng)展示了各種令人驚訝的新行為,從驚人的創(chuàng)造力到自我保護到欺騙。所有這些行為都來自于訓練數(shù)據(jù),但過程很復雜:
模型首先在大量的原始文本上進行「預訓練」,從中學習廣泛的表征,模擬不同智能體的能力。然后,它們以各種方式進行微調(diào),其中一些可能會產(chǎn)生令人驚訝的后果。
由于微調(diào)階段過度參數(shù)化,學習到的模型在很大程度上取決于預訓練的隱性偏見,而這種隱性偏見來自于在世界大部分知識的預訓練中建立的復雜的表征網(wǎng)絡(luò)。
當一個模型的行為令人擔憂時,例如當它扮演一個具有欺騙性的人工智能時,它是否只是對近乎相同的訓練序列進行無害的「反芻」?還是說這種行為(甚至是會導致這種行為的信念和價值觀)已經(jīng)成為模型對人工智能助手概念的一個組成部分,以至于他們在不同的環(huán)境下都會應(yīng)用這種概念?
Anthropic正在研究一種技術(shù),嘗試將模型的輸出追溯回訓練數(shù)據(jù),以此來找出可以幫助理解這種行為的重要線索。
危險故障模式的測試
一個關(guān)鍵的問題是,先進的人工智能可能會發(fā)展出有害的突發(fā)行為,例如欺騙或戰(zhàn)略規(guī)劃能力,而這些行為在較小和能力較弱的系統(tǒng)中是不存在的。
在這種問題成為直接威脅之前,Anthropic認為能夠預測它的方法就是建立環(huán)境。所以,他們故意將這些屬性訓練到小規(guī)模的模型中。因為這些模型的能力還不足以構(gòu)成危險,這樣就可以隔離和研究它們。
Anthropic對人工智能系統(tǒng)在「情境意識」下的行為特別感興趣——例如,當它們意識到自己是一個在訓練環(huán)境中與人類交談的人工智能時,這會如何影響它們在訓練期間的行為?人工智能系統(tǒng)是否會變得具有欺騙性,或者發(fā)展出令人驚訝的不理想的目標?
在理想的情況下,他們想要建立詳細的量化模型,說明這些傾向是如何隨規(guī)模變化的,這樣就能提前預測到突然出現(xiàn)的危險故障模式。
同時,Anthropic也關(guān)注與研究本身相關(guān)的風險:
如果研究是在較小的模型上進行,不可能有嚴重的風險;如果在能力更強的大型模型上進行,就會有明顯的風險。因此,Anthropic不打算在能夠造成嚴重傷害的模型上進行這種研究。
社會影響和評估
Anthropic研究的一個關(guān)鍵支柱,是通過建立工具、測量,批判性地評估和理解人工智能系統(tǒng)的能力、限制和潛在的社會影響其潛在的社會影響。
例如,Anthropic已經(jīng)發(fā)表了分析大型語言模型可預測性的研究,他們研究了這些模型的高級可預測性和不可預測性,并分析這種屬性會如何導致有害行為。
在這項工作中,他們研究了紅隊語言模型的方法,通過探測模型在不同模型規(guī)模下的輸出來發(fā)現(xiàn)并減少危害。最近,他們又發(fā)現(xiàn)目前的語言模型可以遵循指令,減少偏見和成見。
Anthropic非常關(guān)注人工智能系統(tǒng)的快速應(yīng)用將如何在短期、中期和長期內(nèi)影響社會。
通過對人工智能今天的影響進行嚴格的研究,他們旨在為政策制定者和研究人員提供他們需要的論據(jù)和工具,來幫助減輕潛在的重大社會危機,確保人工智能的好處可以惠及人們。
結(jié)語
人工智能會在未來十年內(nèi),對世界產(chǎn)生前所未有的影響。計算能力的指數(shù)級增長和人工智能能力的可預測改進表明,未來的技術(shù)要比如今的先進得多。
然而,如何確保這些強大的系統(tǒng)與人類價值觀緊密結(jié)合,我們對此還沒有一個扎實的理解,因此也無法保證將災(zāi)難性故障的風險降到最小。所以,我們要時時刻刻為不太樂觀的情況做好準備。
通過多個角度的經(jīng)驗研究,Anthropic所提供的安全工作「組合拳」,似乎可以幫助我們解決人工智能的安全問題。
Anthropic提出的這些安全建議告訴我們:
「要提高我們對人工智能系統(tǒng)如何學習和推廣到現(xiàn)實世界的理解,開發(fā)可擴展的人工智能系統(tǒng)監(jiān)督和審查技術(shù),創(chuàng)建透明和可解釋的人工智能系統(tǒng),培訓人工智能系統(tǒng)遵循安全流程而不是追求結(jié)果,分析人工智能的潛在危險故障模式以及如何預防它們, 評估人工智能的社會影響,以指導政策和研究等等。」
對于人工智能的完美防御之法,我們還處于摸索階段,不過Anthropic很好地為大家指明了前路。