自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

IBM Granite 3.3:語(yǔ)音識(shí)別、推理增強(qiáng)與RAG的完美融合 原創(chuàng)

發(fā)布于 2025-4-23 06:57
瀏覽
0收藏

在人工智能的浪潮中,企業(yè)對(duì)靈活、高效且透明的模型需求日益增長(zhǎng)。然而,現(xiàn)有的解決方案往往難以同時(shí)滿足這些要求。開源模型可能缺乏特定領(lǐng)域的功能,而專有系統(tǒng)有時(shí)會(huì)限制訪問或適應(yīng)性。這種差距在涉及語(yǔ)音識(shí)別、邏輯推理和檢索增強(qiáng)生成(RAG)的任務(wù)中尤為明顯,技術(shù)碎片化和工具鏈不兼容導(dǎo)致了操作瓶頸。

4月22日,IBM帶來(lái)了全新的Granite 3.3,這是一套專為企業(yè)應(yīng)用設(shè)計(jì)的開源基礎(chǔ)模型,涵蓋了語(yǔ)音處理、推理能力和檢索機(jī)制的升級(jí)。Granite Speech 3.3 8B是IBM首個(gè)開源的語(yǔ)音轉(zhuǎn)文本(STT)和自動(dòng)語(yǔ)音翻譯(AST)模型,它在轉(zhuǎn)錄準(zhǔn)確性和翻譯質(zhì)量上超越了基于Whisper的系統(tǒng)。該模型能夠處理長(zhǎng)音頻序列,減少人工切割引入的誤差,提升了在實(shí)際場(chǎng)景中的可用性。

語(yǔ)音識(shí)別與翻譯:Granite Speech 3.3 8B的突破

Granite Speech 3.3 8B是一個(gè)緊湊且成本高效的音頻輸入(和文本輸入)、文本輸出的STT模型,專為企業(yè)應(yīng)用中處理語(yǔ)音輸入而設(shè)計(jì),并針對(duì)自動(dòng)語(yǔ)音識(shí)別(ASR)和自動(dòng)語(yǔ)音翻譯(AST)進(jìn)行了優(yōu)化。在轉(zhuǎn)錄任務(wù)中,Granite Speech 3.3 8B在多個(gè)知名公共數(shù)據(jù)集的測(cè)試中,持續(xù)展現(xiàn)出比領(lǐng)先的開源和閉源模型更高的準(zhǔn)確性。

IBM Granite 3.3:語(yǔ)音識(shí)別、推理增強(qiáng)與RAG的完美融合-AI.x社區(qū)

在翻譯方面,Granite Speech 3.3 8B能夠?qū)⒂⒄Z(yǔ)自動(dòng)翻譯成多種語(yǔ)言,包括法語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、德語(yǔ)、葡萄牙語(yǔ)、日語(yǔ)和普通話。在IBM對(duì)AST性能的測(cè)試中,Granite Speech 3.3 8B在CoVost數(shù)據(jù)集支持的語(yǔ)言上,與OpenAI的GPT-4o和Google的Gemini 2.0 Flash等領(lǐng)先的專有模型保持同步。更多關(guān)于翻譯性能的信息可以在模型的Hugging Face模型卡中找到。

架構(gòu)與設(shè)計(jì)

從架構(gòu)上看,Granite Speech 3.3由以下部分組成:

  • 語(yǔ)音編碼器:包含10個(gè)Conformer模塊,通過連接時(shí)序分類(CTC)在專注于ASR的數(shù)據(jù)集上進(jìn)行訓(xùn)練。
  • 語(yǔ)音投影器:這里是一個(gè)2層的Query Transformer(Q-former),它將音頻嵌入投影到一個(gè)可以被LLM解釋的空間。
  • LLM:即Granite 3.3 8B Instruct,具有128K的上下文長(zhǎng)度。
  • LoRA適配器:當(dāng)存在音頻數(shù)據(jù)時(shí),應(yīng)用于LLM的查詢和值投影矩陣。

與直接集成語(yǔ)音和文本的單次通過模型不同,Granite Speech 3.3采用兩次通過的設(shè)計(jì)。例如,要向模型詢問有關(guān)音頻文件的問題,需要先調(diào)用轉(zhuǎn)錄音頻,然后再提示模型查詢轉(zhuǎn)錄的文本。如果提示中包含“”標(biāo)記和相應(yīng)的.wav文件,Granite Speech將激活音頻編碼器、投影器和LoRA適配器。如果沒有,模型將僅以文本模式運(yùn)行,使用Granite 3.3 Instruct 8B。

這種兩次通過的方法確保了Granite Speech 3.3 8B在文本查詢上的表現(xiàn)與其底層LLM(Granite 3.3 8B Instruct)一致,避免了多模態(tài)模型常見的基于文本的性能下降。只要提供了一個(gè)能夠正確服務(wù)文本和語(yǔ)音模型的推理平臺(tái),開發(fā)者可以將Granite Speech 3.3 8B視為Granite 3.3 8B Instruct的一個(gè)版本,增加了音頻輸入能力。

與傳統(tǒng)的基于Whisper的ASR模型不同,Granite Speech 3.3可以接受任意長(zhǎng)度的輸入。在測(cè)試中,該模型能夠在H100 80GB GPU上輕松處理一個(gè)20分鐘的音頻文件,而不是固定在30秒的窗口。在基于Whisper的模型中,超過最大時(shí)長(zhǎng)的音頻文件必須被切割成30秒的片段,這通常會(huì)在這些30秒切割點(diǎn)附近引入不準(zhǔn)確之處。一般來(lái)說(shuō),你不需要進(jìn)行的人工切割越少,引入的不準(zhǔn)確之處就越少。

盡管Granite Speech 3.3可以處理相當(dāng)長(zhǎng)的音頻輸入,但值得注意的是,該模型尚未針對(duì)長(zhǎng)音頻數(shù)據(jù)進(jìn)行微調(diào)。為了保持一致的準(zhǔn)確性,建議每個(gè)離散音頻輸入單元的時(shí)長(zhǎng)限制為1分鐘。

改進(jìn)方向

Granite Speech 3.3只是IBM探索Granite系列音頻能力的開端。正在進(jìn)行的研究旨在為未來(lái)的版本(特別是在Granite 4中)增強(qiáng)Granite Speech,包括:

  • 多語(yǔ)言編碼:目前,Granite Speech 3.3的音頻編碼器僅支持英語(yǔ)。未來(lái)的一個(gè)重要步驟是開發(fā)能夠處理多種語(yǔ)言并敏感于副語(yǔ)言現(xiàn)象的音頻編碼器,從而實(shí)現(xiàn)真正的多語(yǔ)言輸入。
  • 精細(xì)化數(shù)據(jù)配方:未來(lái)的訓(xùn)練計(jì)劃將納入更多且更高質(zhì)量的訓(xùn)練數(shù)據(jù),其中針對(duì)特定用例的合成數(shù)據(jù)生成將發(fā)揮重要作用。我們還在嘗試額外的微調(diào)和數(shù)據(jù)平衡步驟。
  • 早期模態(tài)融合:我們正在探索實(shí)現(xiàn)一個(gè)更統(tǒng)一的結(jié)構(gòu),將音頻特征整合到未來(lái)Granite模型的所有訓(xùn)練階段。
  • 情感檢測(cè):未來(lái)的Granite Speech模型將通過訓(xùn)練我們的聲學(xué)編碼器對(duì)非詞匯音頻事件更加敏感,從而支持語(yǔ)音情感識(shí)別(SER)能力。

文本推理與FIM能力:Granite 3.3 Instruct的升級(jí)

Granite 3.3 8B Instruct和Granite 3.3 2B Instruct是IBM最新的僅文本指令調(diào)優(yōu)模型,它們?cè)黾恿颂畛渲虚g(FIM)能力,并繼續(xù)完善在Granite 3.2中引入的推理能力。

我們還發(fā)布了它們的基礎(chǔ)模型對(duì)應(yīng)版本——Granite 3.3 8B Base和Granite 3.3 2B Base,它們?nèi)〈薌ranite 3.1的前輩,為開發(fā)者提供了訪問我們FIM能力模型的機(jī)會(huì),以便他們進(jìn)行自己的微調(diào)工作。

填充中間(FIM)

自回歸LLM(通常用于文本生成的LLM)本質(zhì)上是從左到右移動(dòng)的。它們通過自監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練,以迭代預(yù)測(cè)序列中的下一個(gè)標(biāo)記,基于前面標(biāo)記的信息,直到序列被認(rèn)為完成。盡管這種設(shè)計(jì)適用于各種生成任務(wù),但它在另一種任務(wù)上存在不足:根據(jù)前面和后面的標(biāo)記預(yù)測(cè)正確的標(biāo)記。換句話說(shuō),傳統(tǒng)的自回歸LLM無(wú)法“填充中間”。

要將自回歸模型適應(yīng)填充中間,需要重新設(shè)計(jì)訓(xùn)練任務(wù),以“欺騙”LLM使用其內(nèi)在的左到右預(yù)測(cè)能力來(lái)預(yù)測(cè)中間的標(biāo)記。這通常需要將一個(gè)樣本段落劃分為前綴(前面的標(biāo)記)、后綴(后面的標(biāo)記)和中間(需要通過填充預(yù)測(cè)的標(biāo)記),然后重新排列段落,使模型在被要求預(yù)測(cè)中間標(biāo)記之前,同時(shí)提供前綴和后綴。Granite 3.3利用專用標(biāo)記,使模型能夠基于前綴和后綴生成內(nèi)容。

FIM有廣泛的應(yīng)用場(chǎng)景,特別是在編碼任務(wù)中,從代碼修復(fù)和錯(cuò)誤連接到重構(gòu),再到快速生成樣板代碼,以及啟用函數(shù)參數(shù)或文檔字符串的插入。

增強(qiáng)推理

Granite 3.2的重點(diǎn)是通過思考偏好優(yōu)化(TPO)豐富指令模型的推理能力,以提高它們遵循復(fù)雜指令的能力,而不會(huì)犧牲一般性能。Granite 3.3 Instruct的重點(diǎn)是在保留這些收益的同時(shí),豐富模型在復(fù)雜數(shù)學(xué)推理上的表現(xiàn)。

基于更新的Granite 3.3基礎(chǔ)模型,并通過多階段強(qiáng)化學(xué)習(xí)使用TPO和組相對(duì)策略優(yōu)化(GRPO)進(jìn)行微調(diào),Granite 3.3 Instruct模型在與“推理”能力相關(guān)的高技術(shù)基準(zhǔn)測(cè)試中表現(xiàn)出顯著的改進(jìn)。

IBM Granite 3.3:語(yǔ)音識(shí)別、推理增強(qiáng)與RAG的完美融合-AI.x社區(qū)

Granite 3.3 8B在MATH500基準(zhǔn)測(cè)試中的表現(xiàn)輕松超過了Anthropic的Claude 3.5 Haiku(64.2%)和Meta的Llama 3.1 8B Instruct(44.4%),與24B參數(shù)的Mistral Small 3(70.6%)大致相當(dāng),僅略低于Claude 3.5 Sonnet(72.4%)和OpenAI的GPT-4o Mini(72.6%)。

與Granite 3.2 Instruct模型一樣,“思考”功能可以輕松地開啟和關(guān)閉,允許開發(fā)者在需要時(shí)優(yōu)先考慮增強(qiáng)的推理鏈(CoT),而在不需要時(shí)優(yōu)先考慮成本效益和低延遲。

通過LoRA適配器優(yōu)化RAG

為了增強(qiáng)現(xiàn)有的基于Granite的應(yīng)用,并為下一代性能增強(qiáng)的LoRA適配器的開發(fā)提供信息,IBM還通過Granite Experiments(一個(gè)IBM研究用于測(cè)試開源想法的游樂場(chǎng))發(fā)布了5個(gè)(主要是)RAG特定的LoRA適配器,用于Granite 3.2 8B Instruct。這些LoRA適配器中的每一個(gè)都利用模型的內(nèi)在知識(shí)來(lái)啟用特定任務(wù),例如重寫檢索查詢或檢測(cè)幻覺。

IBM研究開發(fā)了這些“傳統(tǒng)”LoRA適配器,并為每個(gè)適配器開發(fā)了使用一種新的低秩適應(yīng)方法的對(duì)應(yīng)版本,我們稱之為激活LoRA(aLoRA)。與標(biāo)準(zhǔn)LoRA適配器不同,IBM的aLoRA簡(jiǎn)單地重用現(xiàn)有的鍵值(KV)緩存,避免了重新計(jì)算上下文(或“預(yù)填充”)的需要。激活LoRA在生成質(zhì)量上與標(biāo)準(zhǔn)LoRA相當(dāng),同時(shí)提供了顯著的運(yùn)行時(shí)和計(jì)算優(yōu)勢(shì)。aLoRA的源代碼可以在這里找到。

RAG幻覺檢測(cè)

即使使用了RAG,LLM有時(shí)也會(huì)產(chǎn)生幻覺。當(dāng)配備了RAG幻覺檢測(cè)LoRA時(shí),模型將提供一個(gè)“忠實(shí)度分?jǐn)?shù)”,范圍在0到1之間(以0.1為增量),反映了其輸出與檢索到的文檔中信息的接近程度。較低的忠實(shí)度分?jǐn)?shù)表示更高的幻覺風(fēng)險(xiǎn)。如果問題無(wú)法通過可用信息回答,模型將輸出“無(wú)法回答”。

RAG查詢重寫

檢索引擎對(duì)包含所有相關(guān)信息的獨(dú)立查詢的響應(yīng)結(jié)果,比對(duì)需要對(duì)話中早期上下文才能執(zhí)行的查詢的響應(yīng)結(jié)果要好得多。配備了查詢重寫LoRA后,模型將自動(dòng)將任何非獨(dú)立用戶查詢重寫為一個(gè)完全自包含的查詢。例如,考慮以下對(duì)話:

用戶:“蘋果公司的CEO是誰(shuí)?”模型:“蒂姆·庫(kù)克是蘋果公司的首席執(zhí)行官?!庇脩簦骸拔④浤兀俊蹦P蜁?huì)將用戶的第一個(gè)查詢?cè)瓨觽鬟f,但將第二個(gè)查詢重寫為“微軟公司的CEO是誰(shuí)?”。在測(cè)試中,這種重寫將模型響應(yīng)的相關(guān)性提高了多達(dá)21個(gè)百分點(diǎn)。

盡管它是為RAG設(shè)計(jì)的,但查詢重寫并不需要RAG文檔的存在:它也可以用于重寫用戶查詢以用于其他用例,例如工具調(diào)用。

RAG引用生成

當(dāng)配備了RAG引用生成LoRA時(shí),模型將為其輸出的每一句話生成引用(如果該句子受到任何外部來(lái)源的啟發(fā))。每個(gè)句子級(jí)別的引用不僅注明了引用的來(lái)源,還包含了來(lái)自引用來(lái)源的一組句子,這些句子支持模型的相應(yīng)輸出句子。

RAG可回答性預(yù)測(cè)

當(dāng)配備了RAG可回答性預(yù)測(cè)LoRA時(shí),模型將確定用戶的問題是否可以使用連接文檔中的信息回答。這種二元分類——“可回答”或“不可回答”——可以用于過濾掉無(wú)法回答的問題(減少幻覺)或提示模型以不同的方式重新查詢檢索器。

不確定性預(yù)測(cè)

對(duì)于每個(gè)模型輸出,不確定性LoRA(源自MIT-IBM沃森人工智能實(shí)驗(yàn)室的AI模型校準(zhǔn)研究)使模型能夠生成一個(gè)量化后的“確定性分?jǐn)?shù)”,范圍從0到9(分別代表5%到95%的確定性)。該分?jǐn)?shù)本質(zhì)上反映了模型的響應(yīng)在多大程度上得到了其訓(xùn)練數(shù)據(jù)中信息的支持。

組合使用RAG LoRA

傳統(tǒng)的RAG涉及單次推理——一個(gè)基于特定上下文的簡(jiǎn)單提示——產(chǎn)生單個(gè)模型輸出。我們建議在利用多個(gè)LoRA適配器進(jìn)行多次推理的工作流程中使用這些LoRA,以產(chǎn)生最終的模型響應(yīng)。

例如,你可以首先實(shí)現(xiàn)查詢重寫,以在必要時(shí)快速重寫初始提示,以實(shí)現(xiàn)最佳的檢索器準(zhǔn)確性。一旦模型使用重寫后的提示生成了檢索增強(qiáng)的響應(yīng),你隨后可以實(shí)現(xiàn)RAG幻覺檢測(cè),以驗(yàn)證對(duì)檢索到的文檔信息的適當(dāng)忠實(shí)度。如果忠實(shí)度分?jǐn)?shù)低于可接受的閾值,你的工作流程可以指示模型重新采樣響應(yīng),直到忠實(shí)度分?jǐn)?shù)超過該閾值。一旦不再檢測(cè)到幻覺,你可以啟用RAG引用,為用戶提供最終響應(yīng)。

這本質(zhì)上類似于RAG的測(cè)試時(shí)間計(jì)算擴(kuò)展,通過多次推理來(lái)改進(jìn)和豐富模型的最終輸出。我們期待看到開源社區(qū)如何實(shí)現(xiàn)和實(shí)驗(yàn)這些新的LoRA適配器。有關(guān)RAG LoRA及其對(duì)模型性能的影響的更多信息,可以在隨附的技術(shù)論文中找到。

IBM Granite的未來(lái)展望

IBM研究團(tuán)隊(duì)目前正在積極訓(xùn)練Granite 4.0,這是Granite架構(gòu)的重大演變,展示了在速度、上下文長(zhǎng)度和容量方面的有希望的提升。盡管具體細(xì)節(jié)將在第二季度晚些時(shí)候公布,但客戶、合作伙伴和開發(fā)者可以相信,IBM將繼續(xù)致力于開發(fā)小而實(shí)用的模型,這些模型可以在低成本和低延遲下運(yùn)行。

開始使用Granite 3.3

新的Granite 3.3 Instruct模型已在IBM watsonx.ai上線,這是IBM集成的端到端企業(yè)AI開發(fā)工作室。你可以在Granite Playground上嘗試Granite 3.3 Instruct 8B,并輕松實(shí)驗(yàn)開啟和關(guān)閉“思考”功能。

Granite Speech 3.3 8B以及所有新發(fā)布的Granite模型和LoRA適配器都可以在Hugging Face上找到。部分Instruct模型也可以通過平臺(tái)合作伙伴(按字母順序排列)LMStudio、Ollama和Replicate獲得,未來(lái)還會(huì)有更多合作伙伴加入。

結(jié)語(yǔ)

Granite 3.3標(biāo)志著IBM在開發(fā)強(qiáng)大、模塊化和透明的AI系統(tǒng)方面邁出了重要一步。此次發(fā)布針對(duì)語(yǔ)音處理、邏輯推理和檢索增強(qiáng)生成的關(guān)鍵需求,提供了基于可衡量改進(jìn)的技術(shù)升級(jí)。aLoRA的引入為內(nèi)存高效的檢索提供了支持,對(duì)填充中間任務(wù)的支持以及多語(yǔ)言語(yǔ)音建模的改進(jìn),使得Granite 3.3成為企業(yè)環(huán)境中的一個(gè)技術(shù)上合理的選擇。其開源發(fā)布進(jìn)一步鼓勵(lì)了在更廣泛的AI社區(qū)中的采用、實(shí)驗(yàn)和持續(xù)開發(fā)。


本文轉(zhuǎn)載自公眾號(hào)Halo咯咯    作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/_nCfhfkmJZicJniTocU3Dw??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-4-23 10:14:08修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦