自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="stghh"><delect id="stghh"><del id="stghh"></del></delect></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

使用PyTorch和Hugging Face構(gòu)建一個自動語音識別系統(tǒng)

作者：布加迪 2025-04-01 09:31:34

這篇分成多個步驟的指南介紹了如何使用PyTorch和Hugging Face構(gòu)建一個語音轉(zhuǎn)文本系統(tǒng)。

譯者 | 布加迪

審校 | 重樓

從語音助手到轉(zhuǎn)錄服務(wù)，自動語音識別（ASR）是許多應(yīng)用中的一項(xiàng)關(guān)鍵技術(shù)。我們在本教程中旨在使用Hugging Face的預(yù)訓(xùn)練模型構(gòu)建一條能夠?qū)⒄Z音轉(zhuǎn)錄為文本的ASR管道。我們將使用輕量級數(shù)據(jù)集來提高效率，并使用Wav2Vec2這種強(qiáng)大的語音識別自監(jiān)督模型。

我們的系統(tǒng)將：

加載和預(yù)處理語音數(shù)據(jù)集
微調(diào)預(yù)訓(xùn)練的Wav2Vec2模型
使用字錯誤率（WER）評估模型的性能
部署模型進(jìn)行實(shí)時語音轉(zhuǎn)文本推理

為了確保模型輕量級、高效，我們將使用小型語音數(shù)據(jù)集，而不是Common Voice之類的大型數(shù)據(jù)集。

第1步：安裝依賴項(xiàng)

在開始之前，我們需要安裝必要的庫。這些庫將允許我們加載數(shù)據(jù)集、處理音頻文件并微調(diào)我們的模型。

pip install torch torchaudio transformers datasets soundfile jiwer

以下是下列庫的主要用途：

transformers：為語音識別提供預(yù)訓(xùn)練的Wav2Vec2模型
datasets：加載和處理語音數(shù)據(jù)集
torchaudio：處理音頻處理和操縱
soundfile：讀取和寫入.wav文件
jiwer：計(jì)算WER以評估ASR性能

第2步：加載輕量級語音數(shù)據(jù)集

我們使用SUPERB KS而不是使用Common Voice之類的大型數(shù)據(jù)集，這是一個非常適合快速試驗(yàn)的小型數(shù)據(jù)集。該數(shù)據(jù)集由“是”、“不”和“停止”等簡短的口頭命令組成。

from datasets import load_dataset
dataset = load_dataset("superb", "ks", split="train[:1%]") # Load only 1% of the data for quick testing
print(dataset)

這會加載數(shù)據(jù)集的一小部分以降低計(jì)算成本，同時仍允許我們對模型進(jìn)行微調(diào)。

提醒：數(shù)據(jù)集仍需要存儲空間，因此在處理較大的分割時，請注意磁盤使用情況。

第3步：預(yù)處理音頻數(shù)據(jù)

為了訓(xùn)練ASR模型，我們需要確保音頻數(shù)據(jù)的格式正確。Wav2Vec2模型需要：

16 kHz 采樣率
無填充或截斷（動態(tài)處理）

我們定義一個函數(shù)來處理音頻并提取相關(guān)特征。

import torchaudio
def preprocess_audio(batch):
 speech_array, sampling_rate = torchaudio.load(batch["audio"]["path"])
 batch["speech"] = speech_array.squeeze().numpy()
 batch["sampling_rate"] = sampling_rate
 batch["target_text"] = batch["label"] # Use labels as text output
 return batch

dataset = dataset.map(preprocess_audio)

這確保了所有音頻文件正確加載，并正確格式化，供進(jìn)一步處理。

第4步：加載預(yù)訓(xùn)練的Wav2Vec2模型

我們使用來自Hugging Face模型中心的預(yù)訓(xùn)練Wav2Vec2模型。該模型已使用大型數(shù)據(jù)集進(jìn)行了訓(xùn)練，可以針對我們的特定任務(wù)進(jìn)行微調(diào)。

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")

在這里，我們定義了將原始音頻轉(zhuǎn)換為對模型友好的特征的處理器和模型，包括使用960 小時長的語音進(jìn)行預(yù)訓(xùn)練的Wav2Vec2。

第5步：為模型準(zhǔn)備數(shù)據(jù)

我們必須對音頻進(jìn)行分詞和編碼，以便模型可以理解它。

def preprocess_for_model(batch):
 inputs = processor(batch["speech"], sampling_rate=16000, return_tensors="pt", padding=True)
 batch["input_values"] = inputs.input_values[0]
 return batch

dataset = dataset.map(preprocess_for_model, remove_columns=["speech", "sampling_rate", "audio"])

該步驟確保我們的數(shù)據(jù)集與Wav2Vec2模型兼容。

第6步：定義訓(xùn)練參數(shù)

在訓(xùn)練之前，我們需要設(shè)置訓(xùn)練配置。這包括批量大小、學(xué)習(xí)速率和優(yōu)化步驟。

from transformers import TrainingArguments
training_args = TrainingArguments(
 output_dir="./wav2vec2",
 per_device_train_batch_size=4,
 evaluation_strategy="epoch",
 save_strategy="epoch",
 logging_dir="./logs",
 learning_rate=1e-4,
 warmup_steps=500,
 max_steps=4000,
 save_total_limit=2,
 gradient_accumulation_steps=2,
 fp16=True,
 push_to_hub=False,
)

第7步：訓(xùn)練模型

使用Hugging Face的Trainer，我們對Wav2Vec2模型進(jìn)行了微調(diào)。

from transformers import Trainer

trainer = Trainer(
 model=model,
 args=training_args,
 train_dataset=dataset,
 tokenizer=processor,
)

trainer.train()

第8步：評估模型

為了評估我們的模型轉(zhuǎn)錄語音的效果，我們計(jì)算了WER。

import torch
from jiwer import wer
def transcribe(batch):
 inputs = processor(batch["input_values"], return_tensors="pt", padding=True)
 with torch.no_grad():
 logits = model(inputs.input_values).logits
 predicted_ids = torch.argmax(logits, dim=-1)
 batch["predicted_text"] = processor.batch_decode(predicted_ids)[0]
 return batch

results = dataset.map(transcribe)
wer_score = wer(results["target_text"], results["predicted_text"])
print(f"Word Error Rate: {wer_score:.2f}")

WER分?jǐn)?shù)越低，表示性能越好。

第9步：對新音頻運(yùn)行推理

最后，我們可以使用訓(xùn)練過的模型轉(zhuǎn)錄真實(shí)世界的語音。

import torchaudio
import soundfile as sf

speech_array, sampling_rate = torchaudio.load("example.wav")
inputs = processor(speech_array.squeeze().numpy(), sampling_rate=16000, return_tensors="pt", padding=True)

with torch.no_grad():
 logits = model(inputs.input_values).logits

predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

結(jié)語

好了，你已經(jīng)使用PyTorch和Hugging Face以及輕量級數(shù)據(jù)集成功構(gòu)建了一個ASR系統(tǒng)。

原文標(biāo)題：Building an Automatic Speech Recognition System with PyTorch & Hugging Face，作者：Josep Ferrer

責(zé)任編輯：姜華來源： 51CTO

PyTorch 自動語音識別 ASR系統(tǒng)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<dfn id="2ybca"></dfn>

<cite id="2ybca"></cite>