自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

能聽懂語音的ChatGPT來了:10小時(shí)錄音扔進(jìn)去,想問什么問什么

人工智能 新聞
類 ChatGPT 模型的輸入框里可以粘貼語音文檔了。

大型語言模型(LLM)正在改變每個(gè)行業(yè)的用戶期望。然而,建立以人類語音為中心的生成式人工智能產(chǎn)品仍然很困難,因?yàn)橐纛l文件對(duì)大型語言模型構(gòu)成了挑戰(zhàn)。


將 LLM 應(yīng)用于音頻文件的一個(gè)關(guān)鍵挑戰(zhàn)是,LLM 受其上下文窗口的限制。在一個(gè)音頻文件能夠被送入 LLM 之前,它需要被轉(zhuǎn)換成文本。音頻文件越長,繞過 LLM 的上下文窗口限制的工程挑戰(zhàn)就越大。但工作場景中,我們往往需要 LLM 幫我們處理非常長的語音文件,比如從一段幾個(gè)小時(shí)的會(huì)議錄音中抽取核心內(nèi)容、從一段訪談中找到某個(gè)問題的答案……

最近,語音識(shí)別 AI 公司 AssemblyAI 推出了一個(gè)名為 LeMUR 的新模型。就像 ChatGPT 處理幾十頁的 PDF 文本一樣,LeMUR 可以將長達(dá) 10 小時(shí)的錄音進(jìn)行轉(zhuǎn)錄、處理,然后幫用戶總結(jié)語音中的核心內(nèi)容,并回答用戶輸入的問題。

圖片

試用地址:https://www.assemblyai.com/playground/v2/source

LeMUR 是 Leveraging Large Language Models to Understand Recognized Speech(利用大型語言模型來理解識(shí)別的語音)的縮寫,是將強(qiáng)大的 LLM 應(yīng)用于轉(zhuǎn)錄的語音的新框架。只需一行代碼(通過 AssemblyAI 的 Python SDK),LeMUR 就能快速處理長達(dá) 10 小時(shí)的音頻內(nèi)容的轉(zhuǎn)錄,有效地將其轉(zhuǎn)化為約 15 萬個(gè) token。相比之下,現(xiàn)成的、普通的 LLM 只能在其上下文窗口的限制范圍內(nèi)容納最多 8K 或約 45 分鐘的轉(zhuǎn)錄音頻。

圖片

為了降低將 LLM 應(yīng)用于轉(zhuǎn)錄音頻文件的復(fù)雜性,LeMUR 的 pipeline 主要包含智能分割、一個(gè)快速矢量數(shù)據(jù)庫和若干推理步驟(如思維鏈提示和自我評(píng)估),如下圖所示:

圖片

圖 1:LeMUR 的架構(gòu)使用戶能夠通過一個(gè) API 調(diào)用將長的和 / 或多個(gè)音頻轉(zhuǎn)錄文件發(fā)送到 LLM 中。

未來,LeMUR 有望在客服等領(lǐng)域得到廣泛應(yīng)用。

圖片

LeMUR 解鎖了一些驚人的新可能性,在幾年前,我認(rèn)為這些都是不可能的。它能夠毫不費(fèi)力地提取有價(jià)值的見解,如確定最佳行動(dòng),辨別銷售、預(yù)約或呼叫目的等呼叫結(jié)果,感覺真的很神奇。—— 電話跟蹤和分析服務(wù)技術(shù)公司 CallRail 首席產(chǎn)品官 Ryan Johnson

LeMUR 解鎖了什么可能性?

將 LLM 應(yīng)用于多個(gè)音頻文本

LeMUR 能夠讓用戶一次性獲得 LLM 對(duì)多個(gè)音頻文件的處理反饋,以及長達(dá) 10 小時(shí)的語音轉(zhuǎn)錄結(jié)果,轉(zhuǎn)化后的文本 token 長度可達(dá) 150K 。

圖片

可靠、安全的輸出

由于 LeMUR 包含安全措施和內(nèi)容過濾器,它將為用戶提供來自 LLM 的回應(yīng),這些回應(yīng)不太可能產(chǎn)生有害或有偏見的語言。

圖片

可補(bǔ)充上下文

在推理時(shí),它允許加入額外的上下文信息,LLM 可以利用這些額外信息在生成輸出時(shí)提供個(gè)性化和更準(zhǔn)確的結(jié)果。

圖片

模塊化、快速集成

LeMUR 始終以可處理的 JSON 形式返回結(jié)構(gòu)化數(shù)據(jù)。用戶可以進(jìn)一步定制 LeMUR 的輸出格式,以確保 LLM 給出的響應(yīng)是他們下一塊業(yè)務(wù)邏輯所期望的格式(例如將回答轉(zhuǎn)化為布爾值)。在這一流程中,用戶不再需要編寫特定的代碼來處理 LLM 的輸出結(jié)果。

試用結(jié)果

根據(jù) AssemblyAI 提供的測試鏈接,機(jī)器之心對(duì) LeMUR 進(jìn)行了測試。

LeMUR 的界面支持兩種文件輸入方式:上傳音視頻文件或粘貼網(wǎng)頁鏈接均可。

圖片

我們用 Hinton 近期的一份訪談資料作為輸入,測試 LeMUR 的性能。

圖片

上傳之后,系統(tǒng)提示我們要等一段時(shí)間,因?yàn)樗劝颜Z音轉(zhuǎn)成文字。

圖片

轉(zhuǎn)錄之后的界面如下:

圖片

在頁面右側(cè),我們可以要求 LeMUR 總結(jié)采訪內(nèi)容或回答問題。LeMUR 基本可以輕松地完成任務(wù):

圖片

圖片

如果要處理的語音是一段演講或客服回復(fù),你還能向 LeMUR 征求改進(jìn)建議。

圖片

不過,LeMUR 似乎目前還不支持中文。感興趣的讀者可以去嘗試一下。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-03-19 06:08:09

智慧城市物聯(lián)網(wǎng)城市服務(wù)

2016-08-04 16:30:49

華為

2022-10-20 08:51:40

跳表復(fù)雜度索引

2019-07-12 12:57:43

人工智能垃圾分類智能垃圾桶

2023-05-19 07:35:03

ChatGPTOpenAI

2022-05-18 18:31:28

機(jī)器人自然語言編程

2015-10-13 10:14:27

HR問題面試

2022-01-23 16:13:06

比特幣加密貨幣暴跌

2023-05-14 23:39:51

機(jī)器人深度學(xué)習(xí)

2019-07-01 05:02:34

IP地址子網(wǎng)掩碼 網(wǎng)關(guān)

2021-09-05 23:54:55

人工智能機(jī)器語言

2015-05-07 14:58:06

編程每周工作80小時(shí)

2016-01-18 10:06:05

編程

2013-01-16 16:05:49

語義云App自然語言

2022-11-14 21:34:17

2019-02-27 10:18:26

重置Windows 10Windows

2012-03-07 10:05:12

2017-09-05 08:14:09

深度學(xué)習(xí)語音合成

2023-03-05 19:30:02

人工智能ChatGPT

2023-01-26 02:19:55

NPCChatGPT游戲
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)