自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

解鎖通用聽覺人工智能!清華電子系聯(lián)合火山語音,開源全新認知導(dǎo)向聽覺大語言模型

人工智能 新聞
清華大學(xué)聯(lián)合字節(jié)火山語音團隊提出了一種全新的「聽覺」大語言模型——SALMONN。不僅能夠感知和理解各種類型的音頻輸入,而且還涌現(xiàn)出了多語言和跨模態(tài)推理等高級能力。

日前,清華大學(xué)電子工程系與火山語音團隊攜手合作,推出認知導(dǎo)向的開源聽覺大語言模型SALMONN (Speech Audio Language Music Open Neural Network)。

圖片

大語言模型 SALMONN

相較于僅僅支持語音輸入或非語音音頻輸入的其他大模型,SALMONN對語音、音頻事件、音樂等各類音頻輸入都具有感知和理解能力,相當(dāng)于給大語言模型「加了個耳朵」,從而涌現(xiàn)出多語言和跨模態(tài)推理等高級能力。

(注意:本文中涌現(xiàn)能力是指模型訓(xùn)練中沒有學(xué)習(xí)過的跨模態(tài)能力。)

具體來說,通過給Vicuna 13B大語言模型增加一個基于Whisper Encoder的通用音頻編碼器,并使用一個融合器對齊音頻和文本模態(tài),SALMONN模型就對音頻模態(tài)具有了直接感知,不再是「缸中之腦」。

與先使用API調(diào)用「ToolFormer」,將語音或非語音音頻輸入轉(zhuǎn)為文字,再將文字輸入大語言模型的API路線相比,SALMONN可以直接從物理世界獲取知識,并對一些復(fù)雜的音頻場景涌現(xiàn)出完整的理解能力。

此外與傳統(tǒng)的語音識別、音頻字幕生成等語音和音頻處理任務(wù)相比,SALMONN利用了大語言模型從海量文本中學(xué)習(xí)得到的常識和認知能力,實現(xiàn)了一種認知導(dǎo)向的音頻感知,大幅提高了模型的通用性和任務(wù)的豐富性;另外SALMONN 能夠較為準(zhǔn)確地聽從使用者的文本指令,甚至語音指令。

由于該模型只使用了基于文本指令的訓(xùn)練數(shù)據(jù),因此聽從語音指令也是一種跨模態(tài)的涌現(xiàn)能力。

Github倉庫:https://github.com/bytedance/SALMONN/

Demo鏈接:https://bytedance.github.io/SALMONN/

總體而言,目前SALMONN能夠勝任英語語音識別、英語到中文的語音翻譯、情感識別、音頻字幕生成、音樂描述等重要的語音和音頻任務(wù),同時又涌現(xiàn)出多種在模型訓(xùn)練中沒有專門學(xué)習(xí)過的多語言和跨模態(tài)能力,涵蓋非英語語音識別、英語到(中文以外)其他語言的語音翻譯、對語音內(nèi)容的摘要和關(guān)鍵詞提取、基于音頻的故事生成、音頻問答、語音和音頻聯(lián)合推理等任務(wù)。

對此,研究團隊將上述任務(wù)依據(jù)難易程度分為三類,并一一提出了Demo進行展現(xiàn),它們分別是:

- 模型訓(xùn)練中學(xué)習(xí)過的任務(wù)

- 模型訓(xùn)練中沒有學(xué)習(xí)過,但大語言模型能夠基于文本輸入完成的任務(wù)

- 模型訓(xùn)練中沒有學(xué)習(xí)過,需要直接感知音視頻的多模態(tài)大模型才能完成的任務(wù)

第一類:模型訓(xùn)練中學(xué)習(xí)過的任務(wù)

語音識別(Automatic Speech Recognition)

上述語音中的英文語句:But I was also stumbling because I couldn’t look away from these things. (中文翻譯為:我也曾跌跌撞撞,因為我無法將目光從這些東西上移開。)

音頻字幕生成(Audio Captioning)

SALMONN輸出的中文翻譯為:音效包括槍聲、爆炸聲和喊叫聲。音效質(zhì)量高,混音效果好,營造出逼真、身臨其境的音頻體驗。對話清晰易懂,在激烈的戰(zhàn)斗場面中,角色們相互呼喊和交流。音樂也有,但沒有音效那么突出,增加了場景的整體氛圍。

音樂描述(Music Descrption)

SALMONN輸出的中文翻譯為:音樂是輕快歡快的曲調(diào),節(jié)奏穩(wěn)定。它是在鋼琴上演奏的,旋律簡單、朗朗上口。

情感識別(Emotion Recognition)

SALMONN輸出的中文翻譯為:說話人的情緒是失望的。

第二類:模型訓(xùn)練中沒有學(xué)習(xí)過但大語言模型能夠基于文本輸入完成的任務(wù)

英語到其他語言的語音翻譯,是一種多語言的涌現(xiàn)能力

語音中的英文語句:But I was also stumbling because I couldn’t look away from these things.

SALMONN的德語輸出:Ich stolperte auch, weil ich nicht aus den Dingen heraussehen konnte. (中文翻譯為:我也因為看不清東西而跌跌撞撞。)

語音關(guān)鍵詞提取,是一種涌現(xiàn)能力

語音中的英文語句:He tells us that at this festive season of the year with Christmas and roast beef looming before us similes drawn from eating and its results occur most readily to the mind. (中文翻譯為:他告訴我們,在這個圣誕節(jié)和烤牛肉迫在眉睫的節(jié)日里,人們腦海中最容易浮現(xiàn)出從飲食及其結(jié)果中得出的比喻)

SALMONN輸出的關(guān)鍵詞:festive season(佳節(jié))、Christmas(圣誕節(jié))、roast beef(烤牛肉)

語音問答是一種涌現(xiàn)能力

語音中的英文語句:How a rocket engine works?(中文翻譯為:火箭發(fā)動機是如何工作的?)

SALMONN 輸出的中文翻譯為:火箭發(fā)動機的工作原理是在燃燒室中燃燒氫氣或煤油等燃料,產(chǎn)生的熱氣通過噴嘴噴出。噴嘴的形狀可以將氣體引向特定的方向,產(chǎn)生推力推動火箭前進。

燃料通常與液氧等氧化劑混合,發(fā)生化學(xué)反應(yīng),以熱量和壓力的形式釋放出大量能量。燃燒過程產(chǎn)生的熱量使燃料汽化,產(chǎn)生的壓力將氣體推出發(fā)動機。

燃燒過程中產(chǎn)生的熱氣隨后被導(dǎo)入噴嘴,噴嘴的形狀類似錐體。噴嘴的作用是使氣體膨脹,從而提高氣體的速度,形成高速氣體射流,產(chǎn)生推力。

火箭發(fā)動機產(chǎn)生的推力推動火箭前進,使其擺脫地球引力,在太空中飛行?;鸺l(fā)動機的具體設(shè)計,包括使用的燃料、噴嘴的形狀和發(fā)動機的大小,將決定產(chǎn)生推力的大小和火箭飛行的具體特點。

第三類:模型訓(xùn)練中沒有學(xué)習(xí)過但需要直接感知音視頻的多模態(tài)大模型才能完成的任務(wù)

基于音頻的故事生成

音頻描述:Rustling occurs, ducks quack and water splashes, followed by an adult female and adult male speaking and duck calls being blown. (中文翻譯為:發(fā)出沙沙聲,鴨子嘎嘎叫,水花四濺,隨后成年男性和成年女性說話,鴨子發(fā)出叫聲)

SALMONN輸出的故事的中文翻譯為:陽光明媚,鳥語花香,一群孩子在樹林里散步。他們正在尋寶,決心盡可能多地找到清單上的物品。

走著走著,他們聽到附近的池塘里傳來一陣奇怪的聲音。聽起來像是鴨子在嘎嘎叫,但聲音更大,也更持久。孩子們急忙跑到池塘邊去調(diào)查。

當(dāng)他們走近池塘?xí)r,看到了他們從未見過的東西。一只巨大的鴨子正坐在池塘邊,大聲地叫著。這只鴨子有一輛汽車那么大,叫聲響亮,幾英里外都能聽到。

孩子們看到這只巨型鴨子都驚呆了。他們以前從未見過這樣的東西。他們慢慢靠近鴨子,盡量不驚動它。

當(dāng)他們走近時,鴨子轉(zhuǎn)過身來對他們說話?!改銈兒?,孩子們,」用低沉洪亮的聲音說?!甘裁达L(fēng)把你們吹到我的池塘來了?”」.......

帶語音指令的音頻推理

語音中的英文語句:Can you guess where I am right now?(中文翻譯為:你能猜出我現(xiàn)在在哪里嗎?)

SALMONN輸出的答案的中文翻譯:當(dāng)然,我可以猜猜你現(xiàn)在在哪里。根據(jù)背景的槍聲,聽起來你可能身處戰(zhàn)區(qū)或危險地區(qū)。槍聲符合自動武器的聲音,如 AK-47 或 M-16。此外,背景中的爆炸聲表明,您可能正身處使用炸彈或其他爆炸裝置的地點。

在沒有更多信息的情況下,很難說得更具體,但根據(jù)槍聲和爆炸聲,你有可能身處戰(zhàn)區(qū)或戰(zhàn)亂國家。也有可能是在犯罪活動或暴力活動猖獗的地方。

希望以上內(nèi)容對您有所幫助,如果您還有其他問題或需要我提供其他幫助,請告訴我。

整體來看,SALMONN 在三類不同難度的任務(wù)上都有較好表現(xiàn),并涌現(xiàn)出驚艷的音頻理解與推理能力,成功打通了音頻與文本模態(tài),初步展現(xiàn)出一定的通用聽覺人工智能。研究團隊將在近期開源 SALMONN  v1.0 模型及相關(guān)代碼,并將在未來持續(xù)更新 SALMONN,使大模型能夠更好地感知多模態(tài)物理世界,為建設(shè)開源的通用人工智能添磚加瓦。歡迎大家持續(xù)關(guān)注!

團隊介紹

清華大學(xué)電子工程系多媒體信號與智能信息處理實驗室在醫(yī)工交叉和語音處理領(lǐng)域有豐富的研究積淀。實驗室的張超研究小組成立于2022年,專注于多模態(tài)語音語言處理和計算認知神經(jīng)科學(xué)研究。

火山語音團隊,面向字節(jié)跳動內(nèi)部各業(yè)務(wù)線,提供優(yōu)質(zhì)的語音AI技術(shù)能力以及全棧語音產(chǎn)品解決方案,并通過火山引擎對外提供服務(wù)。自 2017 年成立以來,團隊專注研發(fā)行業(yè)領(lǐng)先的 AI 智能語音技術(shù),不斷探索AI 與業(yè)務(wù)場景的高效結(jié)合,以實現(xiàn)更大的用戶價值。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-07-31 23:46:57

人工智能語言模型感知力

2021-01-19 11:07:19

深度學(xué)習(xí)神經(jīng)+符號知識圖譜

2022-06-20 11:05:58

通用人工智能機器人

2009-07-10 09:58:08

Swing控件聽覺反饋

2022-12-05 09:42:21

語音人工智能程序

2022-07-20 10:22:03

人工智能機器學(xué)習(xí)

2021-05-12 09:37:06

小米MIUI12.5

2022-12-01 07:03:22

語音識別人工智能技術(shù)

2024-12-17 13:55:21

2024-01-16 10:22:23

人工智能大型語言模GPT 4

2022-01-10 08:00:43

認知智能AI

2021-08-22 15:09:02

人工智能機器技術(shù)

2022-07-04 15:29:59

人工智能機器計算機

2024-01-16 10:14:25

2022-12-05 07:17:14

人工智能語音合成

2021-11-25 08:00:00

人工智能編程語言開發(fā)

2023-07-06 10:15:09

開源語言模型AI生成式AI

2022-05-16 14:22:54

人工智能通信監(jiān)聽

2023-10-17 12:33:27

AI模型

2023-08-08 14:36:11

模型AI
點贊
收藏

51CTO技術(shù)棧公眾號