自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

深入探討語(yǔ)音轉(zhuǎn)文本技術(shù)的演進(jìn)

發(fā)布于 2025-1-6 11:19

瀏覽

0收藏

語(yǔ)音轉(zhuǎn)文本（STT），也稱為自動(dòng)語(yǔ)音識(shí)別（ASR），是一種將口語(yǔ)轉(zhuǎn)錄成書面文本的 AI 技術(shù)，現(xiàn)在越來(lái)越多的公司利用 STT 在現(xiàn)有應(yīng)用程序中嵌入新的音頻功能，并為一系列用例創(chuàng)建智能助手?！?/p>

語(yǔ)音轉(zhuǎn)文本模型簡(jiǎn)史

首先，一些背景信息。語(yǔ)音轉(zhuǎn)文本是 AI 中自然語(yǔ)言處理（NLP）分支的一部分。它的目標(biāo)是使機(jī)器能夠理解人類語(yǔ)音并將其轉(zhuǎn)錄成書面格式?！?/p>

你可能會(huì)想，轉(zhuǎn)錄語(yǔ)音有多難。簡(jiǎn)短的回答是：非常難。與可以以相對(duì)簡(jiǎn)單的方式放入矩陣中的圖像不同，音頻數(shù)據(jù)受背景噪聲、音頻質(zhì)量、口音和行業(yè)術(shù)語(yǔ)的影響，這使得機(jī)器難以掌握?！?/p>

幾十年來(lái)，研究人員一直在努力應(yīng)對(duì)這些挑戰(zhàn)。這一切都始于 1949 年 Weaver 的備忘錄，它激發(fā)了使用計(jì)算機(jī)處理語(yǔ)言的想法。早期的自然語(yǔ)言處理（NLP）模型使用隱馬爾可夫模型（HMM）等統(tǒng)計(jì)方法來(lái)轉(zhuǎn)錄語(yǔ)音，但它們準(zhǔn)確識(shí)別不同口音、方言和語(yǔ)音風(fēng)格的能力受到限制?！?/p>

在接下來(lái)的幾十年里，從語(yǔ)法理論到符號(hào) NLP 再到統(tǒng)計(jì)模型，見(jiàn)證了許多重要的發(fā)展，所有這些都為我們今天所知道的 ASR 系統(tǒng)鋪平了道路。但該領(lǐng)域真正的重大變化發(fā)生在 2010 年代，隨著機(jī)器學(xué)習(xí) （ML）和深度學(xué)習(xí)的興起。　

統(tǒng)計(jì)模型被 ML 算法所取代，例如深度神經(jīng)網(wǎng)絡(luò) （DNN）和遞歸神經(jīng)網(wǎng)絡(luò) （RNN），這些算法能夠捕獲以前難以檢測(cè)的慣用表達(dá)和其他細(xì)微差別。不過(guò)，仍然存在上下文問(wèn)題：模型無(wú)法根據(jù)整個(gè)句子推斷特定單詞的含義，這不可避免地導(dǎo)致了錯(cuò)誤?！?/p>

然而，這十年來(lái)最大的發(fā)明是 2017 年發(fā)明 Transformers。Transformers 的自注意力機(jī)制徹底改變了 ASR。與以前的所有模型不同，Transformers 成功地捕獲了不同詞性之間的長(zhǎng)期依賴關(guān)系，使它們能夠考慮每個(gè)轉(zhuǎn)錄句子的更廣泛上下文?！?/p>

深入探討語(yǔ)音轉(zhuǎn)文本技術(shù)的演進(jìn)-AI.x社區(qū)

基于 Transformers 的 ASR 模型的出現(xiàn)重塑了語(yǔ)音識(shí)別領(lǐng)域。其卓越的性能和效率為各種應(yīng)用程序提供支持，從語(yǔ)音助手到高級(jí)轉(zhuǎn)錄和翻譯服務(wù)。　

許多人認(rèn)為，正是在那時(shí)，我們從單純的“語(yǔ)音識(shí)別”過(guò)渡到更全面的“語(yǔ)言理解”領(lǐng)域。　

由于最新的突破，ASR 系統(tǒng)的整體性能（在速度和質(zhì)量方面）多年來(lái)得到了顯著提高，這得益于開(kāi)源存儲(chǔ)庫(kù)的可用性、來(lái)自 Web 的大型訓(xùn)練數(shù)據(jù)集以及更易于訪問(wèn)的 GPU/CPU 硬件成本。　

Speech-to-Text 的工作原理

如今，尖端的 ASR 解決方案依靠各種模型和算法來(lái)產(chǎn)生快速準(zhǔn)確的結(jié)果。但是 AI 究竟是如何將語(yǔ)音轉(zhuǎn)換為書面形式的呢？　

轉(zhuǎn)錄是一個(gè)復(fù)雜的過(guò)程，涉及多個(gè)階段和 AI 模型協(xié)同工作。以下是 speech-to-text 中關(guān)鍵步驟的概述：　

預(yù)處理。在轉(zhuǎn)錄輸入音頻之前，它通常會(huì)經(jīng)歷一些預(yù)處理步驟。這可能包括降噪、回聲消除和其他提高音頻信號(hào)質(zhì)量的技術(shù)。
特征提取。然后將音頻波形轉(zhuǎn)換為更適合分析的表示形式。這通常涉及從音頻信號(hào)中提取特征，以捕獲聲音的重要特征，例如頻率、振幅和持續(xù)時(shí)間。梅爾頻率倒譜系數(shù) （MFCC）是語(yǔ)音處理中常用的特征。
聲學(xué)建模。涉及訓(xùn)練一個(gè)統(tǒng)計(jì)模型，該模型將提取的特征映射到音素，音素是語(yǔ)言中的最小聲音單位。
語(yǔ)言建模。語(yǔ)言建模側(cè)重于語(yǔ)音的語(yǔ)言方面。它涉及創(chuàng)建一個(gè)概率模型，說(shuō)明單詞和短語(yǔ)在特定語(yǔ)言中的可能顯示方式。這有助于系統(tǒng)根據(jù)句子中的前一個(gè)單詞，就哪些單詞更有可能出現(xiàn)做出明智的決定。
譯碼。在解碼階段，系統(tǒng)使用聲學(xué)和語(yǔ)言模型將音頻轉(zhuǎn)錄為單詞或標(biāo)記序列。此過(guò)程涉及搜索與給定音頻特征對(duì)應(yīng)的最可能的單詞序列。
后處理。解碼后的轉(zhuǎn)錄可能仍包含錯(cuò)誤，例如誤識(shí)別或同音異義詞（發(fā)音相同但含義不同的單詞）。在生成最終輸出之前，應(yīng)用后處理技術(shù)（包括語(yǔ)言約束、語(yǔ)法規(guī)則和上下文分析）來(lái)提高轉(zhuǎn)錄的準(zhǔn)確性和連貫性。

STT 模型的主要類型

轉(zhuǎn)錄發(fā)生的確切方式取決于所使用的 AI 模型。一般來(lái)說(shuō)，我們可以區(qū)分聲學(xué)遺留系統(tǒng)和基于端到端深度學(xué)習(xí)模型的系統(tǒng)。　

聲學(xué)系統(tǒng)依賴于隱馬爾可夫模型（HMM）和深度神經(jīng)網(wǎng)絡(luò) （DNN）等傳統(tǒng)模型的組合來(lái)執(zhí)行一系列子過(guò)程來(lái)執(zhí)行上述步驟?！?/p>

這里的轉(zhuǎn)錄過(guò)程是通過(guò)傳統(tǒng)的聲學(xué)-語(yǔ)音匹配完成的，即系統(tǒng)嘗試根據(jù)聲音猜測(cè)單詞。由于每個(gè)步驟都由單獨(dú)的模型執(zhí)行，因此這種方法容易出錯(cuò)，并且由于需要獨(dú)立訓(xùn)練所涉及的每個(gè)模型，因此成本相當(dāng)高且效率低下?！?/p>

相比之下，由 CNN、RNN 和/或變壓器提供支持的端到端系統(tǒng)作為單個(gè)神經(jīng)網(wǎng)絡(luò)運(yùn)行，所有關(guān)鍵步驟都合并到一個(gè)互連的過(guò)程中。一個(gè)值得注意的例子是 OpenAI 的 Whisper ASR?！?/p>

深入探討語(yǔ)音轉(zhuǎn)文本技術(shù)的演進(jìn)-AI.x社區(qū)

這種方法旨在解決遺留系統(tǒng)的局限性，由于采用了更精細(xì)的基于嵌入的機(jī)制，因此可以提高準(zhǔn)確性，從而根據(jù)每個(gè)給定單詞的語(yǔ)義接近性實(shí)現(xiàn)語(yǔ)言的上下文理解?！?/p>

關(guān)于微調(diào)的注意事項(xiàng)

盡管上一代轉(zhuǎn)錄模型非常準(zhǔn)確，但得益于新技術(shù)和大型語(yǔ)言模型（LLMs）的支持，它們?nèi)匀恍枰稽c(diǎn)幫助才能應(yīng)用于特定用例，而不會(huì)影響輸出準(zhǔn)確性。更具體地說(shuō)，這些模型可能需要額外的工作才能用于特定的轉(zhuǎn)錄或音頻智能任務(wù)?！?/p>

微調(diào)包括通過(guò)在特定于任務(wù)的數(shù)據(jù)上訓(xùn)練預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)，使其適應(yīng)新的應(yīng)用程序。這是使高質(zhì)量 STT 具有商業(yè)可行性的關(guān)鍵?！?/p>

在音頻中，微調(diào)用于使模型適應(yīng)技術(shù)專業(yè)領(lǐng)域（即醫(yī)學(xué)詞匯、法律術(shù)語(yǔ)）、口音、語(yǔ)言、噪音水平、特定說(shuō)話人等。在我們的微調(diào) ASR 模型的指南中，我們更詳細(xì)地探討了這項(xiàng)技術(shù)的機(jī)制、用例和應(yīng)用?！?/p>

主要特點(diǎn)和參數(shù)

除了核心轉(zhuǎn)錄技術(shù)之外，如今大多數(shù)提供商還提供一系列附加功能，從說(shuō)話人分類到摘要，再到情感分析，統(tǒng)稱為“音頻智能”?！?/p>

深入探討語(yǔ)音轉(zhuǎn)文本技術(shù)的演進(jìn)-AI.x社區(qū)

使用 API，基礎(chǔ)轉(zhuǎn)錄輸出并不總是由負(fù)責(zé) “智能” 層的同一模型執(zhí)行。事實(shí)上，商業(yè)語(yǔ)音文本提供商通常使用多種模型的組合來(lái)創(chuàng)建高質(zhì)量和多功能的企業(yè)級(jí) STT API。　

轉(zhuǎn)錄：關(guān)鍵概念

有許多參數(shù)會(huì)影響轉(zhuǎn)錄過(guò)程，并可能影響一個(gè)人對(duì) STT 解決方案或提供者的選擇。以下是需要考慮的關(guān)鍵因素?！?/p>

輸入

格式：大多數(shù)轉(zhuǎn)錄模型根據(jù)音頻文件格式（m4a、mp3、mp4、mpeg）提供不同級(jí)別的質(zhì)量，其中一些模型只接受特定格式。根據(jù)轉(zhuǎn)錄是異步轉(zhuǎn)錄還是實(shí)時(shí)轉(zhuǎn)錄，格式的應(yīng)用會(huì)有所不同。
音頻編碼：音頻編碼是將音頻文件從一種格式更改為另一種格式的過(guò)程，例如，為了減少傳輸音頻信息所需的位數(shù)。
頻率：對(duì)于語(yǔ)音轉(zhuǎn)文本模型，聲音可以理解的最小頻率。目前生成的大多數(shù)音頻文件的最低頻率為 40 kHz，但某些類型的音頻（例如來(lái)自呼叫中心的電話錄音）的頻率較低，導(dǎo)致錄音頻率為 16 kHz 甚至 8 kHz。需要對(duì)更高的頻率（如 128Khz 的 mp3 文件）進(jìn)行重新采樣。
位深度：位深度表示錄制了音頻樣本的振幅量。它有點(diǎn)像圖像分辨率，但用于聲音。具有較高位深度的文件將表示更廣泛的聲音范圍，從非常柔和到非常響亮。例如，大多數(shù) DVD 的音頻為 24 位，而大多數(shù)電話的音頻為 8 位。
渠道：輸入音頻可以有多個(gè)通道：?jiǎn)温暤溃▎温暤溃?、立體聲（雙聲道）; 多通道（多個(gè)軌道）。

輸出

任何轉(zhuǎn)錄輸出都應(yīng)該包含一些基本組件，并且通常以一系列轉(zhuǎn)錄文本的形式出現(xiàn)，其中包含關(guān)聯(lián)的 ID 和時(shí)間戳。　

除此之外，請(qǐng)務(wù)必考慮轉(zhuǎn)錄輸出的格式。大多數(shù)提供商至少會(huì)提供至少包含上述數(shù)據(jù)點(diǎn)的轉(zhuǎn)錄文本的 JSON 文件。有些還將提供轉(zhuǎn)錄的純文本版本，例如 .txt 文件，或適合字幕的格式，例如 SRT 或 VTT?！?/p>

性能

延遲

延遲是指模型接收到輸入（即語(yǔ)音或音頻信號(hào)）與開(kāi)始生成輸出（即轉(zhuǎn)錄文本）之間的延遲。在 STT 系統(tǒng)中，延遲是一個(gè)關(guān)鍵因素，因?yàn)樗苯佑绊懹脩趔w驗(yàn)。延遲越短，響應(yīng)時(shí)間越短，聽(tīng)錄體驗(yàn)越實(shí)時(shí)?！?/p>

推理

在 AI 中，推理是指根據(jù)數(shù)據(jù)和以前的學(xué)習(xí)“推斷”輸出的操作。在 STT 中，在推理階段，該模型利用其學(xué)到的語(yǔ)音模式和語(yǔ)言知識(shí)來(lái)生成準(zhǔn)確的轉(zhuǎn)錄?！?/p>

推理的效率和速度會(huì)影響 STT 系統(tǒng)的延遲?！?/p>

準(zhǔn)確性

STT 模型的性能結(jié)合了許多因素，例如：　

端到端延遲（上傳、編碼等期間）
在惡劣環(huán)境（例如背景噪聲或靜電）下的穩(wěn)健性。
涵蓋復(fù)雜的詞匯和語(yǔ)言。
模型架構(gòu)、訓(xùn)練數(shù)據(jù)數(shù)量和質(zhì)量。

單詞錯(cuò)誤率（WER）是用于評(píng)估語(yǔ)音識(shí)別系統(tǒng)或機(jī)器翻譯系統(tǒng)準(zhǔn)確性的行業(yè)范圍指標(biāo)。它測(cè)量系統(tǒng)輸出中與參考或真實(shí)文本中的單詞不同的單詞的百分比?！?/p>

深入探討語(yǔ)音轉(zhuǎn)文本技術(shù)的演進(jìn)-AI.x社區(qū)

用于對(duì)準(zhǔn)確性進(jìn)行基準(zhǔn)測(cè)試的其他指標(biāo)是誤差率（DER），它評(píng)估說(shuō)話人分類和單詞級(jí)時(shí)間戳的平均絕對(duì)對(duì)齊誤差（MAE）。　

語(yǔ)言

即使是最先進(jìn)的多語(yǔ)言模型，如 OpenAI 的 Whisper，也嚴(yán)重偏向于某些語(yǔ)言，如英語(yǔ)、法語(yǔ)和西班牙語(yǔ)。發(fā)生這種情況是因?yàn)橛糜谟?xùn)練它們的數(shù)據(jù)，或者因?yàn)槟Ｐ驮谵D(zhuǎn)錄過(guò)程中權(quán)衡不同參數(shù)的方式?！?/p>

為了擴(kuò)展語(yǔ)言和方言的范圍，需要額外的微調(diào)和優(yōu)化技術(shù)，尤其是在涉及開(kāi)源模型的情況下。　

音頻智能

對(duì)于越來(lái)越多的使用案例，僅靠轉(zhuǎn)錄是不夠的。如今，大多數(shù)商業(yè) STT 提供商都至少提供一些附加功能，也稱為附加組件，旨在使成績(jī)單更易于消化和提供信息，以及獲得演講者的見(jiàn)解。以下是一些示例：　

深入探討語(yǔ)音轉(zhuǎn)文本技術(shù)的演進(jìn)-AI.x社區(qū)

安全

在數(shù)據(jù)安全方面，托管架構(gòu)起著重要作用。希望將 Language AI 集成到現(xiàn)有技術(shù)堆棧中的公司需要決定底層網(wǎng)絡(luò)基礎(chǔ)設(shè)施的位置以及他們希望誰(shuí)擁有它：云多租戶（SaaS）、云單租戶、本地、氣隙?！?/p>

可以使用 Speech-to-Text 構(gòu)建什么

AI 語(yǔ)音轉(zhuǎn)文本是一項(xiàng)用途廣泛的技術(shù)，可解鎖各行各業(yè)的一系列用例。借助專門的 API，可以將 Language AI 功能嵌入到現(xiàn)有應(yīng)用程序和平臺(tái)中，讓你的用戶能夠享受轉(zhuǎn)錄、字幕、關(guān)鍵字搜索和分析。還可以構(gòu)建全新的支持語(yǔ)音的應(yīng)用程序，例如虛擬助手和機(jī)器人?！?/p>

一些更具體的例子：　

轉(zhuǎn)錄服務(wù)：采訪、講座、會(huì)議等的書面記錄。
呼叫中心自動(dòng)化：將客戶互動(dòng)的錄音轉(zhuǎn)換為文本以供分析和處理。
語(yǔ)音筆記和聽(tīng)寫：允許用戶聽(tīng)寫筆記、消息或電子郵件，并將其轉(zhuǎn)換為書面文本。
實(shí)時(shí)字幕：為實(shí)時(shí)活動(dòng)、會(huì)議、網(wǎng)絡(luò)研討會(huì)或視頻提供實(shí)時(shí)字幕和配音。
譯本：用于多語(yǔ)言交流的實(shí)時(shí)翻譯服務(wù)。
語(yǔ)音和關(guān)鍵字搜索：使用語(yǔ)音命令或語(yǔ)義搜索搜索信息。
語(yǔ)音分析：分析錄制的音頻以進(jìn)行情緒分析、客戶反饋或市場(chǎng)研究。
輔助功能：開(kāi)發(fā)應(yīng)用程序，通過(guò)將口語(yǔ)轉(zhuǎn)換為文本來(lái)幫助殘障人士，以便于溝通和理解。

語(yǔ)音轉(zhuǎn)文本 AI 的終極詞匯表

語(yǔ)音轉(zhuǎn)文本也稱為自動(dòng)語(yǔ)音識(shí)別（ASR），它是將口語(yǔ)轉(zhuǎn)換為書面文本的技術(shù)。
自然語(yǔ)言處理（NLP）AI 的一個(gè)子領(lǐng)域，專注于計(jì)算機(jī)和人類語(yǔ)言之間的交互。
機(jī)器學(xué)習(xí)人工智能的一個(gè)領(lǐng)域，涉及開(kāi)發(fā)算法和模型，使計(jì)算機(jī)能夠根據(jù)數(shù)據(jù)學(xué)習(xí)并做出預(yù)測(cè)或決策，而無(wú)需為特定任務(wù)明確編程。
神經(jīng)網(wǎng)絡(luò)一種以人腦結(jié)構(gòu)為模型的機(jī)器學(xué)習(xí)算法。
深度學(xué)習(xí) 機(jī)器學(xué)習(xí)的一個(gè)子集，涉及使用深度神經(jīng)網(wǎng)絡(luò)。
聲學(xué)模型用于語(yǔ)音識(shí)別的模型，用于將聲學(xué)特征映射到語(yǔ)音單元。
語(yǔ)言模型NLP 中用于確定單詞序列概率的統(tǒng)計(jì)模型。
大型語(yǔ)言模型（LLM）像 GPT-3 這樣的高級(jí) AI 系統(tǒng)，它們經(jīng)過(guò)大量文本數(shù)據(jù)的訓(xùn)練，以生成類似人類的文本并執(zhí)行各種自然語(yǔ)言處理任務(wù)。
音素語(yǔ)言中的最小聲音單位，由特定符號(hào)表示。
Transformers一種依賴于多頭自我注意機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu) - 除其他外 - 它允許模型關(guān)注輸入序列的不同部分以捕獲其關(guān)系和依賴關(guān)系。
編碼器在神經(jīng)網(wǎng)絡(luò)的上下文中，將輸入數(shù)據(jù)轉(zhuǎn)換為壓縮或抽象表示的組件，通常用于特征提取或創(chuàng)建嵌入等任務(wù)。
解碼器一種神經(jīng)網(wǎng)絡(luò)組件，它采用壓縮表示（通常來(lái)自編碼器）并重建或生成有意義的輸出數(shù)據(jù)，經(jīng)常用于語(yǔ)言生成或圖像合成等任務(wù)。
嵌入對(duì)象（如單詞或圖像）在低維空間中的數(shù)字表示形式，其中保留了對(duì)象之間的關(guān)系。嵌入通常用于將分類數(shù)據(jù)轉(zhuǎn)換為適合 ML 算法的格式，并捕獲單詞之間的語(yǔ)義相似性。
依賴關(guān)系給定文本中單詞和句子之間的關(guān)系。可以與語(yǔ)法和句法相關(guān)，也可以與內(nèi)容的含義相關(guān)。
說(shuō)話人分類分離和識(shí)別錄音或音頻流中發(fā)言者的過(guò)程。
說(shuō)話人適應(yīng)調(diào)整語(yǔ)音識(shí)別模型以更好地識(shí)別特定說(shuō)話人的聲音的過(guò)程。
Language Identification自動(dòng)識(shí)別錄音中所說(shuō)的語(yǔ)言的過(guò)程。
關(guān)鍵字識(shí)別檢測(cè)錄音中特定單詞或短語(yǔ)的過(guò)程。
自動(dòng)字幕為視頻或音頻錄制生成字幕或字幕的過(guò)程。
說(shuō)話人驗(yàn)證驗(yàn)證說(shuō)話人身份的過(guò)程，通常用于安全或身份驗(yàn)證目的。
語(yǔ)音合成從書面文本生成口語(yǔ)的過(guò)程，也稱為文本轉(zhuǎn)語(yǔ)音（TTS）技術(shù)。
單詞錯(cuò)誤率（WER）用于衡量語(yǔ)音識(shí)別系統(tǒng)準(zhǔn)確性的指標(biāo)。
遞歸神經(jīng)網(wǎng)絡(luò) （RNN）一種特別適合于序列數(shù)據(jù)（如語(yǔ)音）的神經(jīng)網(wǎng)絡(luò)。
微調(diào)與優(yōu)化微調(diào)涉及在特定數(shù)據(jù)集或域上訓(xùn)練預(yù)先存在的模型，以使其適應(yīng)以獲得更好的性能，而優(yōu)化側(cè)重于微調(diào)超參數(shù)和訓(xùn)練設(shè)置，以最大限度地提高模型的整體效率。這兩個(gè)過(guò)程都有助于提高語(yǔ)音轉(zhuǎn)文本模型對(duì)特定應(yīng)用程序或領(lǐng)域的準(zhǔn)確性和適用性。
模型并行性使大型模型的不同部分能夠分布在多個(gè) GPU 上，從而允許使用 AI 芯片以分布式方式訓(xùn)練模型。通過(guò)將模型劃分為更小的部分，可以并行訓(xùn)練每個(gè)部分，與在單個(gè) GPU 或處理器上訓(xùn)練整個(gè)模型相比，訓(xùn)練過(guò)程更快。

本文轉(zhuǎn)載自 ??芝士AI吃魚??，作者：芝士AI吃魚

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

深入理解Sora技術(shù)原理

卓勝微wjp ? 3406瀏覽 ? 0回復(fù)
TAVGBench: 文本生成語(yǔ)音-視頻最新基準(zhǔn)

angel ? 2792瀏覽 ? 0回復(fù)
GPT-4o背后可能的語(yǔ)音技術(shù)

魚蟲子 ? 2798瀏覽 ? 0回復(fù)
與ChatGPT的供應(yīng)鏈數(shù)字化探討

ceesoft ? 3594瀏覽 ? 0回復(fù)
AI大模型技術(shù)的四大核心架構(gòu)演進(jìn)之路

AIGC觀察者 ? 3268瀏覽 ? 0回復(fù)
微軟發(fā)表的深入探討視覺(jué)語(yǔ)言模型的空間推理能力

sbf_2000 ? 2931瀏覽 ? 0回復(fù)
ElevenLabs悄然推出最強(qiáng)文本轉(zhuǎn)語(yǔ)音模型，Turbo2.5模型成行業(yè)領(lǐng)頭羊

InfonityAI智推星 ? 2431瀏覽 ? 0回復(fù)
揭開(kāi)神秘面紗：深入了解語(yǔ)音識(shí)別算法

51CTO內(nèi)容精選 ? 2143瀏覽 ? 0回復(fù)
【人工智能】10分鐘解讀-深入淺出大語(yǔ)言模型（LLM）——從ChatGPT到未來(lái)AI的演進(jìn)

唐克 ? 4998瀏覽 ? 0回復(fù)
Moonshine 語(yǔ)音模型：資源受限設(shè)備的語(yǔ)音識(shí)別超強(qiáng) “芯” 動(dòng)力！

穿越時(shí)空111 ? 1978瀏覽 ? 0回復(fù)
四年匠心磨礪，快手系統(tǒng)軟件技術(shù)創(chuàng)新與領(lǐng)域演進(jìn)之路

快手技術(shù) ? 1790瀏覽 ? 0回復(fù)
Meta開(kāi)源多模式模型，輕松混合文本和語(yǔ)音

Aceryt ? 1544瀏覽 ? 0回復(fù)
微軟開(kāi)源小模型Phi系列：技術(shù)演進(jìn)、能力突破與未來(lái)展望

上堵吟1 ? 2724瀏覽 ? 0回復(fù)
視覺(jué)文本語(yǔ)音強(qiáng)強(qiáng)聯(lián)合！南大&騰訊優(yōu)圖發(fā)布GPT-4o級(jí)別的實(shí)時(shí)視覺(jué)語(yǔ)音交互——VITA1.5

angel ? 2013瀏覽 ? 0回復(fù)
人工智能代理架構(gòu)：深入探討

Halo咯咯 ? 1612瀏覽 ? 0回復(fù)
深入探討AI Agent在2025年的發(fā)展

PyTorch研習(xí)社 ? 1534瀏覽 ? 0回復(fù)
Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語(yǔ)言處理 ? 2745瀏覽 ? 0回復(fù)
MCP 架構(gòu)設(shè)計(jì)演進(jìn)：從 Local MCP Server 到 Remote MCP Server 開(kāi)源架構(gòu)設(shè)計(jì)實(shí)現(xiàn)

玄姐聊AGI ? 3518瀏覽 ? 0回復(fù)
MCP 架構(gòu)設(shè)計(jì)剖析：從 Service Mesh 演進(jìn)到 Agentic Mesh

玄姐聊AGI ? 2025瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Agentic RAG 的小白科普文 7天前發(fā)布
S1-Bench：評(píng)估大型推理模型中的系統(tǒng) 1 思維 7天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：為什么多模態(tài)AI是下一個(gè)風(fēng)口？深度解讀新一代LLM

下一篇：從RAG到RAG+：讓大模型更懂業(yè)務(wù)的權(quán)威指南

社區(qū)精華內(nèi)容

目錄

<legend id="xzty6"><track id="xzty6"></track></legend>

<blockquote id="xzty6"></blockquote>^{<blockquote id="xzty6"></blockquote>}

<sub id="xzty6"></sub>