Trump當(dāng)選概率有多大?UC伯克利CAIS聯(lián)手打造「AI預(yù)言家」,吊打人類分析師
LLM的神奇職能,又多了一個。
用更形象的話說,就是中國的「算命簽」、歐洲的「水晶球」,可以用「超人」的能力預(yù)測未來。
去年12月,Nature就刊登了一篇研究,可以用LLM預(yù)測一個人生活中即將發(fā)生的事件,就像預(yù)測句子中的next token一樣。
圖片
實(shí)驗(yàn)結(jié)果表明,這個模型甚至能預(yù)測一個人未來4年內(nèi)死亡的可能性,準(zhǔn)確率高達(dá)78.8%。
最近,AI安全中心總監(jiān)Dan Hendrycks聯(lián)合加州大學(xué)伯克利分校的研究人員,開發(fā)了一個更強(qiáng)大的系統(tǒng)FiveThirtyNine,預(yù)測更宏觀的社會事件,比如「Trump能否贏得2024年大選」。
圖片
這個AI預(yù)測機(jī)器人基于GPT-4o構(gòu)建,用戶輸入想查詢的事件,F(xiàn)iveThirtyNine就能預(yù)測出發(fā)生的概率,就像天氣預(yù)報(bào)中給出的下雨概率一樣。
那么預(yù)測的準(zhǔn)確度和可信度如何?
知名作家、民意調(diào)查師Nate Silver最近在一檔節(jié)目上表示,AI不會很快取代人類預(yù)測分析師的能力。想看到超人的預(yù)測能力,起碼要等15年。
圖片
Nate Silver最新預(yù)測:Trump有64%的獲勝幾率
但這個項(xiàng)目的作者表示不服,他們表示,539的表現(xiàn)好過經(jīng)驗(yàn)豐富的人類預(yù)報(bào)員單打獨(dú)斗,大致和一群預(yù)報(bào)員合作的表現(xiàn)相當(dāng),甚至更好。
因此,分析預(yù)測市場很快就能通過AI實(shí)現(xiàn)自動化!
從項(xiàng)目Demo中也能發(fā)現(xiàn),539能夠預(yù)測的事件范圍也很廣泛,比如美國大選是政壇事件,其他領(lǐng)域包括生物安全、AI技術(shù)、環(huán)境健康、網(wǎng)絡(luò)安全等也都能預(yù)測。
圖片
原文地址:https://www.safe.ai/blog/forecasting
Demo地址:https://forecast.safe.ai/
除了放出博客文章和Demo,研發(fā)團(tuán)隊(duì)還計(jì)劃出一篇詳細(xì)的技術(shù)報(bào)告,雖然還沒完稿,但坑位已經(jīng)占上了,感興趣的朋友可以期待下。
圖片
原文地址:https://drive.google.com/file/d/1Tc_xY1NM-US4mZ4OpzxrpTudyo1W4KsE/view
為什么給這個機(jī)器人取名叫FiveThirtyNine?
原作者特地發(fā)推解釋,原來是想致敬著名的民意預(yù)測員Nate Silver,但又要表示AI的能力比他強(qiáng),因此本來計(jì)劃取名為Nate Gold。
但沒得到本人同意,只好借用他twitter名的后綴538,再+1表示「迭代」一版,就得到了539。
FiveThirtyNine工作原理
這里,簡單總結(jié)下FiveThirtyNine的工作原理。
舉個例子,如果向FiveThirtyNine詢問「Trump會贏得2024年美國總統(tǒng)大選嗎?」。
接收了這一Prompt的FiveThirtyNine,就如同一個AI預(yù)言家一樣,會借助搜索引擎檢索相關(guān)的新聞和文章,整合信息并做出預(yù)測。
基于GPT-4o的FiveThirtyNine的預(yù)測示例
Prompt的內(nèi)容也是很重要的,可能是為了復(fù)現(xiàn)方便,作者給出了實(shí)驗(yàn)中使用的prompt模板。
圖片
在充足的先驗(yàn)知識的基礎(chǔ)上,F(xiàn)iveThirtyNine首先會依據(jù)事實(shí)總結(jié)歸納。
對一件事的Yes/No兩方面,539會分別給出支持或反對的理由,再依據(jù)重要性分配相應(yīng)的權(quán)重,可解釋性拉滿了。
圖片
比如,預(yù)測Trump當(dāng)選的論據(jù)包括:票倉強(qiáng)勁、支持率經(jīng)常被低估、剛獲得的法律豁免權(quán)、他主張的經(jīng)濟(jì)復(fù)蘇措施等等。
圖片
反面的論據(jù)也有5個,同樣現(xiàn)實(shí)且有力,包括Harris民意調(diào)查領(lǐng)先、籌款優(yōu)勢和關(guān)鍵人群的支持,以及Trump本人的極化傾向和法律挑戰(zhàn)。
總結(jié)這些論據(jù)后,F(xiàn)iveThirtyNine還會「酌情處理」消極新聞、抓馬事件和聳人聽聞的偏見,整合多重因素,給出一個初步的概率。
圖片
最后,它還需要對這個概率值進(jìn)行理性分析,結(jié)合推理進(jìn)一步優(yōu)化,并給出校準(zhǔn)后的概率——在本例中為52%。
圖片
AI預(yù)言家優(yōu)于市場預(yù)測
為了測試AI預(yù)言家的表現(xiàn),作者們借助Metaculus平臺的問題對其進(jìn)行了評估。
為了比較的公正性,AI預(yù)言家與人工預(yù)言家使用相同的信息。
值得注意的是,GPT-4o的數(shù)據(jù)僅囊括2023年10月之前的,因此研究者將新聞和文章都限定在該日期前,要求539和人類分別計(jì)算Metaculus中177個事件發(fā)生的概率。
針對這177個事件,Metaculus自身模型的預(yù)測準(zhǔn)確率為87.0%,而FiveThirtyNine將其提升至87.7%±1.4。
相對于市場預(yù)測,AI預(yù)言家具有多種其無法比擬的優(yōu)勢。如,它能在幾秒內(nèi)快速生成預(yù)測,速度比當(dāng)前市場預(yù)測高了幾個數(shù)量級。
不僅速度更快,還不需要額外的獎勵機(jī)制去優(yōu)化預(yù)測,在精度相當(dāng)?shù)那闆r下,顯然AI預(yù)言家更具性價(jià)比。
局限性
雖然作者放話表示,AI預(yù)言家已經(jīng)優(yōu)于人類預(yù)測員,但這個機(jī)器人依舊存在不少工程和性能上的局限性。
比如,539依舊會對無效查詢做出回應(yīng),因?yàn)樽髡哌€沒給它加上拒絕功能。
實(shí)時(shí)更新知識庫這方面,也有顯著的缺陷,畢竟它還沒能接上推特的API。
5G沖浪的網(wǎng)友可以馬上知道推特上的熱門事件,但如果涉及到預(yù)訓(xùn)練所用的知識庫盲區(qū),539就一無所知。
比如,剛剛完成預(yù)訓(xùn)練的539還不知道Joe Biden已經(jīng)退選,如果不重新過一遍知識庫,依舊會傻傻地預(yù)測Biden當(dāng)選的概率。
圖片
尤其是對于那些迫在眉睫、即將見分曉的事件,這種遲鈍的反應(yīng)是完全比不上人類的。
更重要的是,當(dāng)前的「AI預(yù)言家」沒有經(jīng)過微調(diào),還未達(dá)到最優(yōu)精度,僅僅是依據(jù)工程化的Prompt檢索并撰寫總結(jié)報(bào)告。
圖片
可通過單擊forecast.safe.ai中的齒輪圖標(biāo)找到它的prompt
此外,「自動化偏見」(automation bias)也是一個重要的問題,推特評論區(qū)也有網(wǎng)友問到。
圖片
「自動化偏見」是社會心理學(xué)領(lǐng)域的發(fā)現(xiàn),即人類傾向于過度依賴自動化系統(tǒng)的建議,而忽略而忽略非自動化方式產(chǎn)生的矛盾信息,即使這些信息是正確的。
作者表示,這個問題或許可以通過優(yōu)化界面來改進(jìn)或避免。
盡管機(jī)器人在廣度、速度和準(zhǔn)確性方面通常表現(xiàn)優(yōu)異,但在某些特定方面,它依舊比不上人類。
比如在非常依賴專業(yè)知識的金融領(lǐng)域,539對市場的預(yù)測能力還沒有被驗(yàn)證。
它的預(yù)測還可能忽視尾部風(fēng)險(xiǎn),造成「自證預(yù)言」。如果改進(jìn)這一缺陷,AI預(yù)言家的預(yù)測精度可能會得到極大的提升。
研究者稱,最初將其稱為超人,并不是指它在各個方面都無懈可擊,只是想表達(dá)AI預(yù)言家的預(yù)測能力并不比人類遜色。
就像何愷明大神也會宣稱PReLU網(wǎng)絡(luò)在ImageNet上有「超人性能」一樣,雖然也會犯人類不可能犯的錯誤,但不耽誤AI在某些方面匹配甚至超越人類表現(xiàn)。
圖片
「AI預(yù)言家」能干什么
如果說,以維基百科為代表的認(rèn)知技術(shù),推動了人類參與知情討論、維持現(xiàn)實(shí)共識,以及構(gòu)建共同的世界觀,那么未來AI的用途,可能會走得更遠(yuǎn)。
作為中立的智能第三方,「AI預(yù)言家」或許可以改進(jìn)決策和公共話語,有助于緩和極端、立場兩極分化的事件。
完善聊天機(jī)器人功能
將AI預(yù)測功能集成到AI聊天機(jī)器人或個人AI助手中,可以輔助決策、規(guī)避風(fēng)險(xiǎn)。
例如,可以為政策制定者們提供值得信賴、公正的概率評估,還可以幫助量化專家規(guī)避風(fēng)險(xiǎn)。
圖片
補(bǔ)充新聞報(bào)道
AI預(yù)言家還可用來補(bǔ)充新聞報(bào)道,比如幫助預(yù)測加州AI安全法案SB 1047成功簽署的可能性。
圖片
美國著名天文學(xué)家Carl Sagan曾說過,「如果單純積累力量而不增長智慧,人類必定會走向自我毀滅的道路」。
不可否認(rèn),未來AI技術(shù)將不斷變強(qiáng),而其所具備的預(yù)測能力也有望為我們提供預(yù)警式和啟發(fā)式的建議。
網(wǎng)友評論
「AI預(yù)言家」這個項(xiàng)目可以說是看點(diǎn)十足,很能吸引眼球,但推特上的網(wǎng)友大多持負(fù)面評論。
有人認(rèn)為這只是給GPT-4o套了個殼、做了點(diǎn)提示工程,本質(zhì)上是一個「新聞閱讀器」的應(yīng)用。
圖片
還有人指責(zé)作者「路走歪了」,除了炒作,這類項(xiàng)目完全看不到價(jià)值或?qū)嶋H功用。
圖片
此外,也有技術(shù)方面的質(zhì)疑。
因?yàn)樽髡咛岬?,在評估時(shí)允許機(jī)器人接入互聯(lián)網(wǎng),在有日期截?cái)嗟那疤嵯?,防止它得知事件結(jié)果。
但「日期截?cái)唷惯@個功能完全不可靠,反例一抓一大把,因此評估結(jié)果也是靠不住的。
圖片
其中的技術(shù)含量究竟有多少?所謂「超越人類表現(xiàn)」的評估結(jié)果到底能告訴我們什么?
看來只有等技術(shù)報(bào)告發(fā)布后才能得知了。
參考資料: