自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模方式提升AI理解能力,微軟展示Project Rumi

人工智能
微軟的Project?Rumi旨在通過(guò)解決理解非語(yǔ)言線索和上下文細(xì)微差別的局限性來(lái)增強(qiáng)LLM的能力。它將副語(yǔ)言輸入納入與LLM的基于提示的互動(dòng)中,以提高溝通質(zhì)量。研究人員使用音頻和視頻模型來(lái)檢測(cè)數(shù)據(jù)流中的實(shí)時(shí)非語(yǔ)言線索。兩個(gè)獨(dú)立的模型用于來(lái)自用戶音頻的副語(yǔ)言信息,第一個(gè)是音頻的韻律音調(diào)和屈折,另一個(gè)是來(lái)自語(yǔ)音的語(yǔ)義。

在新興技術(shù)的數(shù)字時(shí)代,大語(yǔ)言模型(LLM)已經(jīng)成為一種強(qiáng)大的工具,革命性地改變了人類社會(huì)和文化的許多方面,重塑了我們與計(jì)算機(jī)的互動(dòng)方式。然而,還有一個(gè)關(guān)鍵的挑戰(zhàn)需要解決。LLM的局限性是顯而易見的,它揭示了在無(wú)法掌握對(duì)話的上下文和細(xì)微差別以及取決于提示的質(zhì)量和具體性方面的差距。

不過(guò),LLM主要依賴于文本輸入輸出,忽略了人類在自然交流中的語(yǔ)調(diào),面部表情,手勢(shì)和肢體語(yǔ)言等線索,從而在理解方面會(huì)存在偏差。

這些線索統(tǒng)稱為副語(yǔ)言,微軟的Project?Rumi旨在通過(guò)解決理解非語(yǔ)言線索和上下文細(xì)微差別的局限性來(lái)增強(qiáng)LLM的能力。它將副語(yǔ)言輸入納入與LLM的基于提示的互動(dòng)中,以提高溝通質(zhì)量。研究人員使用音頻和視頻模型來(lái)檢測(cè)數(shù)據(jù)流中的實(shí)時(shí)非語(yǔ)言線索。兩個(gè)獨(dú)立的模型用于來(lái)自用戶音頻的副語(yǔ)言信息,第一個(gè)是音頻的韻律音調(diào)和屈折,另一個(gè)是來(lái)自語(yǔ)音的語(yǔ)義。他們使用視覺變換器對(duì)幀進(jìn)行編碼,并從視頻中識(shí)別面部表情。下游服務(wù)將副語(yǔ)言信息合并到基于文本的提示中。這種多模式方法旨在增強(qiáng)用戶情緒和意圖理解,從而將人類人工智能交互提升到一個(gè)新的水平。

在這項(xiàng)研究中,研究人員只簡(jiǎn)要探討了副語(yǔ)言學(xué)在傳達(dá)有關(guān)用戶意圖的關(guān)鍵信息方面所起的作用。未來(lái),他們計(jì)劃進(jìn)行建模,使模型變得更好、更高效。他們還希望添加更多細(xì)節(jié),如源自標(biāo)準(zhǔn)視頻、認(rèn)知和環(huán)境感知的心率變異性。這一切都是在下一波與人工智能的互動(dòng)中增加隱含意義和意圖的更大努力的一部分。

責(zé)任編輯:姜華 來(lái)源: 比特網(wǎng)
相關(guān)推薦

2024-01-12 13:38:54

業(yè)務(wù)購(gòu)物ToC

2019-01-10 13:50:04

開發(fā)工具 AI

2023-09-27 07:39:57

大型語(yǔ)言模型MiniGPT-4

2016-12-20 09:35:52

微軟開源數(shù)據(jù)集

2012-12-12 15:01:34

2013-11-15 09:52:31

微軟Project NWindows 8.1

2025-01-22 13:40:00

2024-12-18 15:02:48

2023-11-15 14:17:23

微軟語(yǔ)言模型AI 模型

2024-01-18 13:39:00

AI訓(xùn)練

2025-04-10 09:15:00

模型AI數(shù)據(jù)

2024-10-30 15:00:00

AI視頻模型

2023-05-16 14:42:10

WPSAI

2024-07-29 08:47:00

2025-04-14 02:22:00

微軟AI編程助手人工智能

2009-02-25 09:27:47

微軟游戲學(xué)習(xí)能力

2024-04-18 00:26:14

AI模型語(yǔ)言

2024-11-19 12:17:15

2023-11-26 17:14:05

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)