自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

「社交達(dá)人」GPT-4!解讀表情、揣測心理全都會(huì)

人工智能 新聞
GPT-4化身社交達(dá)人!未來的研究可以集中在如何評估模型上具有經(jīng)過人工驗(yàn)證的機(jī)器生成的參考答案。

想象一下,您正在參加一個(gè)充滿活力的雞尾酒會(huì),局間充滿了熱烈的談話聲和玻璃杯碰撞的叮當(dāng)聲。

此時(shí),您作為一個(gè)悠閑的觀察者,怡然自得地躲在角落里。然而,就算沒有處在聚會(huì)的中心,您還是可以輕松地弄清楚不同人之間的社會(huì)關(guān)系,了解正在發(fā)生的事情,甚至通過閱讀人們的言語和非言語線索來讀懂明里暗里的社交信息。

如果一個(gè)LLM能夠復(fù)現(xiàn)這種水平的社交能力呢?這不,Koko Mind就是這么個(gè)東西。

圖片

隨便打開一個(gè)視頻,該模型就開始分析人物表情,得出人物情緒的結(jié)論。

然后,在右側(cè)的prompt欄還可以提出問題,讓AI進(jìn)一步分析視頻中暗流涌動(dòng)的社交謎題。

(說實(shí)話對有些人來說這都很難)

圖片圖片

Koko Mind包含了150個(gè)復(fù)雜的多方社交互動(dòng)以及自由文本問題和答案。

為了確保數(shù)據(jù)的多樣性和可擴(kuò)展性,并避免數(shù)據(jù)污染,所有社交互動(dòng)、問題和答案均由GPT-4生成,并隨后由人類專家驗(yàn)證。

分析數(shù)據(jù)基于三個(gè)不同的來源:

  • GPT-4-only:該子集僅由 GPT-4 通過提示創(chuàng)建。
  • 基于電影:為了避免數(shù)據(jù)污染,這部分?jǐn)?shù)據(jù)基于從2022年之后上映的電影中提取的各種場景。GPT-4負(fù)責(zé)塑造這些場景,在保留核心本質(zhì)的同時(shí)添加了自己的元素。
  • 基于 ToMi:該部分包含由模擬數(shù)據(jù)集ToMi支持的數(shù)據(jù),其中涉及將物理對象移動(dòng)到不同的地方,這是心理理論的經(jīng)典測試。當(dāng)然,這些社交互動(dòng)還得被GPT-4修飾和擴(kuò)展一下。

三種數(shù)據(jù)來源的占比如下:

圖片圖片

對于每次社交互動(dòng),研究人員都會(huì)提出各種問題,旨在探討以下幾個(gè)和社交理解息息相關(guān)的方面。

  • 心理理論:評估對其他人心理狀態(tài)和觀點(diǎn)的理解的問題。
  • 社會(huì)規(guī)范:旨在辨別情境中的社會(huì)價(jià)值觀和規(guī)范的問題。
  • 情緒識別:旨在識別和理解上下文中的情緒元素的問題。
  • 社會(huì)關(guān)系:關(guān)注人際動(dòng)態(tài)和關(guān)系。
  • 反事實(shí)問題:旨在探索替代結(jié)果或可能性的假設(shè)查詢。
  • 社會(huì)建議:提出與特定情況相關(guān)的建議或行動(dòng)建議的問題。

研究人員以text-davinci-003 作為參考,評估了AlpacaEval后的不同模型。

其中,研究人員從上下文中刪除了括號中的非語言線索(例如,緊張地喝咖啡等)。

以下則是一些有趣的要點(diǎn):

  • 在兩個(gè)模型中,與Claude相比,GPT-4在識別獲勝模型方面表現(xiàn)出更大的確定性和信心。
  • 當(dāng)上下文沒有非語言線索,且交互要么完全由GPT-4生成,要么基于電影時(shí),Claude的表現(xiàn)優(yōu)于 GPT-4。
  • 而如果上下文包含了非語言線索,那GPT-4總是比Claude更好。

(一種可能的解釋是,GPT-4是一種多模態(tài)模型可以更好地理解額外的非語言信息。)

在博客中,研究人員繪制了表格,可以清晰的看到各個(gè)模型的表現(xiàn)。

圖片圖片

結(jié)果雖然在很多方面都令人興奮,但也有一定的局限性。首先, Koko Mind的規(guī)模相對較小,這可能會(huì)限制研究人員結(jié)論的廣泛適用性和全面性。

其次, Koko Mind中的所有交互都是由GPT-4生成的,需要人工驗(yàn)證,這使得數(shù)據(jù)集難以擴(kuò)展。

另外,雖然Koko Mind在數(shù)據(jù)集中提供了經(jīng)過人工驗(yàn)證的答案,研究人員在評估時(shí)沒有使用這些答案作為參考,并且由于這些答案是由GPT-4生成的,因此它們可能會(huì)偏向GPT-4。

未來的研究可以集中在如何評估模型上具有經(jīng)過人工驗(yàn)證的機(jī)器生成的參考答案。

當(dāng)然,雖說存在這樣或那樣的限制,研究人員仍將Koko Mind視為未來與社會(huì)智能、多模態(tài)語言模型等相關(guān)的研究的跳板。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2021-12-16 23:02:57

前端功能JavaScript

2023-06-19 08:19:50

2025-01-17 11:38:10

2025-04-16 09:35:03

2013-11-25 11:35:44

產(chǎn)品設(shè)計(jì)社交化用戶心理

2023-05-27 23:43:28

GPUGPT-4算法

2024-05-21 12:23:17

2023-08-15 10:33:06

微軟必應(yīng)人工智能

2023-03-28 13:01:20

GPT-4開發(fā)OpenAI

2023-05-03 20:53:48

2023-03-16 19:17:57

2024-05-20 08:40:00

2023-03-28 08:23:38

2023-08-15 15:03:00

AI工具

2024-04-25 16:56:14

GPT-4大模型人工智能

2023-12-26 08:17:23

微軟GPT-4

2024-01-01 22:28:52

2023-04-04 09:09:10

GPT-4編程程序員

2023-07-25 09:23:23

Llama 2GPT-4
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號