斯坦福、華盛頓大學(xué)與Google DeepMind合作:AI智能體預(yù)測人類行為準(zhǔn)確率高達(dá)85%
11月25日消息,據(jù)外媒報(bào)道,斯坦福大學(xué)、華盛頓大學(xué)與Google?DeepMind的研究人員攜手開發(fā)了一種能夠逼真模擬人類行為的AI智能體。
研究團(tuán)隊(duì)將詳細(xì)的訪談記錄與先進(jìn)的GPT-4o模型相結(jié)合,構(gòu)建了這一模擬系統(tǒng)。當(dāng)用戶向智能體提出問題時(shí),系統(tǒng)會加載訪談數(shù)據(jù),并促使AI模仿受訪者的回答方式。為獲取這些寶貴的訪談記錄,研究團(tuán)隊(duì)對每位受訪者進(jìn)行了長達(dá)兩小時(shí)的深入訪談,并利用OpenAI的Whisper技術(shù)將對話內(nèi)容精準(zhǔn)轉(zhuǎn)錄成文本。
為了全面評估AI對人類行為的預(yù)測能力,研究團(tuán)隊(duì)設(shè)計(jì)了包括《通用社會調(diào)查》、大五人格評估以及多個(gè)行為經(jīng)濟(jì)學(xué)實(shí)驗(yàn)在內(nèi)的測試。結(jié)果顯示,基于訪談數(shù)據(jù)的AI在預(yù)測社會調(diào)查問題時(shí),準(zhǔn)確率高達(dá)85%,遠(yuǎn)超僅依賴人口統(tǒng)計(jì)信息的傳統(tǒng)方法。
在五項(xiàng)社會科學(xué)實(shí)驗(yàn)的對比測試中,AI的表現(xiàn)與人類高度一致,相關(guān)系數(shù)高達(dá)0.98,充分展示了其強(qiáng)大的模擬能力。訪談驅(qū)動的AI相較于傳統(tǒng)的人口統(tǒng)計(jì)法展現(xiàn)出了顯著優(yōu)勢,不僅預(yù)測更為準(zhǔn)確,還能有效減少人口統(tǒng)計(jì)類別之間的偏差。
目前,研究團(tuán)隊(duì)已將包含這1000個(gè)AI模型的數(shù)據(jù)集公開在GitHub上,并建立了嚴(yán)格的兩層訪問機(jī)制,以確保數(shù)據(jù)的安全與合規(guī)使用。綜合性數(shù)據(jù)對研究人員完全開放,而涉及個(gè)別參與者的詳細(xì)數(shù)據(jù)則需經(jīng)過特殊審批方可訪問。