「社交達(dá)人」GPT-4!解讀表情、揣測心理全都會(huì)
想象一下,您正在參加一個(gè)充滿活力的雞尾酒會(huì),局間充滿了熱烈的談話聲和玻璃杯碰撞的叮當(dāng)聲。
此時(shí),您作為一個(gè)悠閑的觀察者,怡然自得地躲在角落里。然而,就算沒有處在聚會(huì)的中心,您還是可以輕松地弄清楚不同人之間的社會(huì)關(guān)系,了解正在發(fā)生的事情,甚至通過閱讀人們的言語和非言語線索來讀懂明里暗里的社交信息。
如果一個(gè)LLM能夠復(fù)現(xiàn)這種水平的社交能力呢?這不,Koko Mind就是這么個(gè)東西。
隨便打開一個(gè)視頻,該模型就開始分析人物表情,得出人物情緒的結(jié)論。
然后,在右側(cè)的prompt欄還可以提出問題,讓AI進(jìn)一步分析視頻中暗流涌動(dòng)的社交謎題。
(說實(shí)話對有些人來說這都很難)
圖片
Koko Mind包含了150個(gè)復(fù)雜的多方社交互動(dòng)以及自由文本問題和答案。
為了確保數(shù)據(jù)的多樣性和可擴(kuò)展性,并避免數(shù)據(jù)污染,所有社交互動(dòng)、問題和答案均由GPT-4生成,并隨后由人類專家驗(yàn)證。
分析數(shù)據(jù)基于三個(gè)不同的來源:
- GPT-4-only:該子集僅由 GPT-4 通過提示創(chuàng)建。
- 基于電影:為了避免數(shù)據(jù)污染,這部分?jǐn)?shù)據(jù)基于從2022年之后上映的電影中提取的各種場景。GPT-4負(fù)責(zé)塑造這些場景,在保留核心本質(zhì)的同時(shí)添加了自己的元素。
- 基于 ToMi:該部分包含由模擬數(shù)據(jù)集ToMi支持的數(shù)據(jù),其中涉及將物理對象移動(dòng)到不同的地方,這是心理理論的經(jīng)典測試。當(dāng)然,這些社交互動(dòng)還得被GPT-4修飾和擴(kuò)展一下。
三種數(shù)據(jù)來源的占比如下:
圖片
對于每次社交互動(dòng),研究人員都會(huì)提出各種問題,旨在探討以下幾個(gè)和社交理解息息相關(guān)的方面。
- 心理理論:評估對其他人心理狀態(tài)和觀點(diǎn)的理解的問題。
- 社會(huì)規(guī)范:旨在辨別情境中的社會(huì)價(jià)值觀和規(guī)范的問題。
- 情緒識別:旨在識別和理解上下文中的情緒元素的問題。
- 社會(huì)關(guān)系:關(guān)注人際動(dòng)態(tài)和關(guān)系。
- 反事實(shí)問題:旨在探索替代結(jié)果或可能性的假設(shè)查詢。
- 社會(huì)建議:提出與特定情況相關(guān)的建議或行動(dòng)建議的問題。
研究人員以text-davinci-003 作為參考,評估了AlpacaEval后的不同模型。
其中,研究人員從上下文中刪除了括號中的非語言線索(例如,緊張地喝咖啡等)。
以下則是一些有趣的要點(diǎn):
- 在兩個(gè)模型中,與Claude相比,GPT-4在識別獲勝模型方面表現(xiàn)出更大的確定性和信心。
- 當(dāng)上下文沒有非語言線索,且交互要么完全由GPT-4生成,要么基于電影時(shí),Claude的表現(xiàn)優(yōu)于 GPT-4。
- 而如果上下文包含了非語言線索,那GPT-4總是比Claude更好。
(一種可能的解釋是,GPT-4是一種多模態(tài)模型可以更好地理解額外的非語言信息。)
在博客中,研究人員繪制了表格,可以清晰的看到各個(gè)模型的表現(xiàn)。
圖片
結(jié)果雖然在很多方面都令人興奮,但也有一定的局限性。首先, Koko Mind的規(guī)模相對較小,這可能會(huì)限制研究人員結(jié)論的廣泛適用性和全面性。
其次, Koko Mind中的所有交互都是由GPT-4生成的,需要人工驗(yàn)證,這使得數(shù)據(jù)集難以擴(kuò)展。
另外,雖然Koko Mind在數(shù)據(jù)集中提供了經(jīng)過人工驗(yàn)證的答案,研究人員在評估時(shí)沒有使用這些答案作為參考,并且由于這些答案是由GPT-4生成的,因此它們可能會(huì)偏向GPT-4。
未來的研究可以集中在如何評估模型上具有經(jīng)過人工驗(yàn)證的機(jī)器生成的參考答案。
當(dāng)然,雖說存在這樣或那樣的限制,研究人員仍將Koko Mind視為未來與社會(huì)智能、多模態(tài)語言模型等相關(guān)的研究的跳板。