自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="xizvv"><rp id="xizvv"><pre id="xizvv"></pre></rp></p>

<style id="xizvv"></style>

<legend id="xizvv"><track id="xizvv"></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

國產(chǎn)語音對話大模型來了：李開復零一萬物參與，中英雙語多模態(tài)，開源可商用

作者：量子位 2023-09-02 12:49:01

模型的訓練一共分為兩個階段，第一階段訓練模態(tài)適配器，凍結(jié)編碼器和大模型，也就是讓它來學習語音和文本對齊；第二階段凍結(jié)編碼器，訓練模態(tài)適配器和大模型，來學習多模態(tài)對話能力。

首個中英雙語的語音對話開源大模型來了！

這幾天，一篇關(guān)于語音-文本多模態(tài)大模型的論文出現(xiàn)在arXiv上，署名公司中出現(xiàn)了李開復旗下大模型公司01.ai——零一萬物的名字。

圖片

這篇論文提出了一個中英雙語可商用對話模型LLaSM，同時支持錄音和文本輸入，“混合雙打”也沒有問題：

圖片

論文認為，“語音聊天”才是AI與人之間更方便自然的交互方式，而不僅僅是通過文本輸入。

用上大模型，有網(wǎng)友已經(jīng)在想象“躺著說話就能寫代碼”的場景了。

圖片

這項研究來自LinkSoul.AI、北大和零一萬物，目前已經(jīng)開源，也可以在抱抱臉中直接試玩。

圖片

一起來看看它的效果如何。

支持文本語音輸入，手機也可玩

據(jù)研究人員表示，LLaSM是第一個支持中英文雙語語音-文本多模態(tài)對話的開源可商用對話模型。

那么，就來看看它的語音文本輸入和中英雙語能力如何。

首先來個中英文化碰撞，讓它用英文評價一下李白：

圖片

還可以，正確地說出了李白的朝代。如果看不懂英文，讓它直接翻譯成中文也沒問題：

圖片

接下來再試試中英混合提問，在中文里面摻雜一個“fried food”，模型輸出也不錯：

圖片

再試探一下模型，讓它進行一些評價，看看李白和杜甫哪個更厲害。

可以看出，模型思考一會后給出了非常中立的評價，也具備大模型的基本“端水常識”（手動狗頭）

圖片

當然，不止是電腦，手機也能玩。

我們試著用語音輸入“給我推薦一個菜譜吧”：

可以看到模型準確地輸出了一個“茄子芝士”的菜譜，就是不知道好不好吃。

不過，我們在嘗試的時候也發(fā)現(xiàn)，這個模型有時候會出bug。

例如有時候它并不能很好地“聽懂人話”。

要求輸出中英混合的內(nèi)容，它會假裝看不懂并輸出英文：

圖片

而當中英混合詢問想聽“Taylor Swift的Red”時，模型更是直接出大bug，反反復復輸出一句話，甚至停不下來……

圖片

總體來看，當遇到中英混合的提問或要求時，模型輸出能力還是不太行。

不過分開的話，它的中英文表述能力還是不錯的。

那么，這樣的模型究竟是怎么實現(xiàn)的呢？

做了個什么新模型？

從試玩來看，LLaSM主要有兩個特點：一個是支持中英輸入，另一個是語音文本雙輸入。

要做到這兩點，分別需要在架構(gòu)和訓練數(shù)據(jù)上做一些調(diào)整。

架構(gòu)上，LLaSM將當前的語音識別模型和大語言模型做了個整合。

LLaSM由三個部分構(gòu)成，分別包括自動語音識別模型Whisper、模態(tài)適配器和大模型LLaMA。

其中，Whisper負責接收原始語音輸入，并輸出語音特征的向量表示；模態(tài)適配器負責對齊語音和文本嵌入；LLaMA則負責理解語音和文本輸入的指令，并生成回復。

圖片

模型的訓練一共分為兩個階段，第一階段訓練模態(tài)適配器，凍結(jié)編碼器和大模型，也就是讓它來學習語音和文本對齊；第二階段凍結(jié)編碼器，訓練模態(tài)適配器和大模型，來學習多模態(tài)對話能力。

訓練數(shù)據(jù)上，研究人員整理出了一個包含19.9萬個對話和50.8萬個語音-文本樣本的數(shù)據(jù)集LLaSM-Audio-Instructions。

而在50.8萬個語音-文本樣本中，有8萬個中文語音樣本，42.8萬個英文語音樣本。

研究人員主要基于WizardLM、ShareGPT和GPT-4-LLM等數(shù)據(jù)集，通過文本轉(zhuǎn)語音技術(shù)，給這些數(shù)據(jù)集生成語音包，同時過濾掉無效對話。

圖片

這也是目前最大的中英文語音文本指令遵循數(shù)據(jù)集，不過目前還在整理中，據(jù)研究人員表示，整理完后會進行開源。

不過，論文暫時沒有對比它和其他語音模型或文本模型的輸出效果。

作者介紹

這篇論文來自LinkSoul.AI、北京大學和零一萬物。

共同一作Yu Shu和Siwei Dong均來自LinkSoul.AI，此前曾經(jīng)在北京智源人工智能研究院工作。

LinkSoul.AI是一家AI初創(chuàng)公司，之前推出過首個開源Llama 2的中文語言大模型。

圖片

作為李開復旗下的大模型公司，零一萬物也在這次研究中有所貢獻。作者Wenhao Huang的Hugging Face主頁顯示，他畢業(yè)于復旦大學。

圖片

論文地址：
https://arxiv.org/abs/2308.15930

Demo地址：
https://huggingface.co/LinkSoul/LLaSM-Cllama2

責任編輯：武曉燕來源：量子位

模型國產(chǎn)語音適配器

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="ihpmi"></sub>