能聽懂語音的ChatGPT來了:10小時(shí)錄音扔進(jìn)去,想問什么問什么
大型語言模型(LLM)正在改變每個(gè)行業(yè)的用戶期望。然而,建立以人類語音為中心的生成式人工智能產(chǎn)品仍然很困難,因?yàn)橐纛l文件對(duì)大型語言模型構(gòu)成了挑戰(zhàn)。
將 LLM 應(yīng)用于音頻文件的一個(gè)關(guān)鍵挑戰(zhàn)是,LLM 受其上下文窗口的限制。在一個(gè)音頻文件能夠被送入 LLM 之前,它需要被轉(zhuǎn)換成文本。音頻文件越長,繞過 LLM 的上下文窗口限制的工程挑戰(zhàn)就越大。但工作場景中,我們往往需要 LLM 幫我們處理非常長的語音文件,比如從一段幾個(gè)小時(shí)的會(huì)議錄音中抽取核心內(nèi)容、從一段訪談中找到某個(gè)問題的答案……
最近,語音識(shí)別 AI 公司 AssemblyAI 推出了一個(gè)名為 LeMUR 的新模型。就像 ChatGPT 處理幾十頁的 PDF 文本一樣,LeMUR 可以將長達(dá) 10 小時(shí)的錄音進(jìn)行轉(zhuǎn)錄、處理,然后幫用戶總結(jié)語音中的核心內(nèi)容,并回答用戶輸入的問題。
試用地址:https://www.assemblyai.com/playground/v2/source
LeMUR 是 Leveraging Large Language Models to Understand Recognized Speech(利用大型語言模型來理解識(shí)別的語音)的縮寫,是將強(qiáng)大的 LLM 應(yīng)用于轉(zhuǎn)錄的語音的新框架。只需一行代碼(通過 AssemblyAI 的 Python SDK),LeMUR 就能快速處理長達(dá) 10 小時(shí)的音頻內(nèi)容的轉(zhuǎn)錄,有效地將其轉(zhuǎn)化為約 15 萬個(gè) token。相比之下,現(xiàn)成的、普通的 LLM 只能在其上下文窗口的限制范圍內(nèi)容納最多 8K 或約 45 分鐘的轉(zhuǎn)錄音頻。
為了降低將 LLM 應(yīng)用于轉(zhuǎn)錄音頻文件的復(fù)雜性,LeMUR 的 pipeline 主要包含智能分割、一個(gè)快速矢量數(shù)據(jù)庫和若干推理步驟(如思維鏈提示和自我評(píng)估),如下圖所示:
圖 1:LeMUR 的架構(gòu)使用戶能夠通過一個(gè) API 調(diào)用將長的和 / 或多個(gè)音頻轉(zhuǎn)錄文件發(fā)送到 LLM 中。
未來,LeMUR 有望在客服等領(lǐng)域得到廣泛應(yīng)用。
LeMUR 解鎖了一些驚人的新可能性,在幾年前,我認(rèn)為這些都是不可能的。它能夠毫不費(fèi)力地提取有價(jià)值的見解,如確定最佳行動(dòng),辨別銷售、預(yù)約或呼叫目的等呼叫結(jié)果,感覺真的很神奇。—— 電話跟蹤和分析服務(wù)技術(shù)公司 CallRail 首席產(chǎn)品官 Ryan Johnson
LeMUR 解鎖了什么可能性?
將 LLM 應(yīng)用于多個(gè)音頻文本
LeMUR 能夠讓用戶一次性獲得 LLM 對(duì)多個(gè)音頻文件的處理反饋,以及長達(dá) 10 小時(shí)的語音轉(zhuǎn)錄結(jié)果,轉(zhuǎn)化后的文本 token 長度可達(dá) 150K 。
可靠、安全的輸出
由于 LeMUR 包含安全措施和內(nèi)容過濾器,它將為用戶提供來自 LLM 的回應(yīng),這些回應(yīng)不太可能產(chǎn)生有害或有偏見的語言。
可補(bǔ)充上下文
在推理時(shí),它允許加入額外的上下文信息,LLM 可以利用這些額外信息在生成輸出時(shí)提供個(gè)性化和更準(zhǔn)確的結(jié)果。
模塊化、快速集成
LeMUR 始終以可處理的 JSON 形式返回結(jié)構(gòu)化數(shù)據(jù)。用戶可以進(jìn)一步定制 LeMUR 的輸出格式,以確保 LLM 給出的響應(yīng)是他們下一塊業(yè)務(wù)邏輯所期望的格式(例如將回答轉(zhuǎn)化為布爾值)。在這一流程中,用戶不再需要編寫特定的代碼來處理 LLM 的輸出結(jié)果。
試用結(jié)果
根據(jù) AssemblyAI 提供的測試鏈接,機(jī)器之心對(duì) LeMUR 進(jìn)行了測試。
LeMUR 的界面支持兩種文件輸入方式:上傳音視頻文件或粘貼網(wǎng)頁鏈接均可。
我們用 Hinton 近期的一份訪談資料作為輸入,測試 LeMUR 的性能。
上傳之后,系統(tǒng)提示我們要等一段時(shí)間,因?yàn)樗劝颜Z音轉(zhuǎn)成文字。
轉(zhuǎn)錄之后的界面如下:
在頁面右側(cè),我們可以要求 LeMUR 總結(jié)采訪內(nèi)容或回答問題。LeMUR 基本可以輕松地完成任務(wù):
如果要處理的語音是一段演講或客服回復(fù),你還能向 LeMUR 征求改進(jìn)建議。
不過,LeMUR 似乎目前還不支持中文。感興趣的讀者可以去嘗試一下。