使用OpenAI的Whisper模型將語音轉(zhuǎn)換成文本
譯文譯者 | 布加迪
審校 | 重樓
圖1. OpenAI Whisper模型的工作原理圖
在這個(gè)日益數(shù)字化的世界,將語音轉(zhuǎn)換成文本的需求變得越來越重要。無論為了可訪問性、內(nèi)容創(chuàng)建、數(shù)據(jù)分析還是其他用途,將口語轉(zhuǎn)換成書面語都是一個(gè)需要有效解決方案的問題。OpenAI開發(fā)的人工智能模型Whisper就能做到這一點(diǎn):將口語轉(zhuǎn)化成易于理解的文本。
本文將逐步介紹Whisper是什么、它是如何工作的以及如何有效使用它。目前Whisper在AIModels.fyi排名第19位,這款功能強(qiáng)大的工具可以在各種應(yīng)用中發(fā)揮巨大作用。本文還將探討如何使用AIModels.fyi找到適合您獨(dú)特需求的類似模型。
Whisper模型簡介
由OpenAI開發(fā)的AI模型Whisper旨在將音頻文件中的語音轉(zhuǎn)換為文本。其應(yīng)用非常廣泛,從生成視頻字幕到轉(zhuǎn)錄采訪或會議文字,不一而足。Whisper的運(yùn)行次數(shù)超過了200萬人次,在同類產(chǎn)品中脫穎而出,是一種可靠且受歡迎的模型。
該模型接受音頻輸入并將其轉(zhuǎn)錄成書面文字,有效地彌合了口語和書面語之間的差距。此外,它支持大量語言,因而成為適合多語言項(xiàng)目的出色工具。關(guān)于該模型的更多詳細(xì)信息可以在詳情頁面上找到。
了解Whisper模型的輸入和輸出
在深入研究Whisper模型的使用之前,了解模型的輸入和輸出很重要。
輸入
Whisper的主要輸入是一個(gè)音頻文件,它對其進(jìn)行處理并轉(zhuǎn)錄成文本。額外的輸入?yún)?shù)允許您定制模型的操作方式:
- model string:允許您從不同版本的Whisper模型中選擇。
- transcription string:允許您選擇轉(zhuǎn)錄的格式,有純文本、srt或vtt等選項(xiàng)。
- translate boolean:使您能夠?qū)⑽谋?/span>翻譯成英語。
- language string:允許您指定音頻中所說的語言。
- temperature number:該參數(shù)控制模型輸出的“創(chuàng)造性”。
- suppress_tokens string:您不希望模型輸出的token id列表。
輸出
模型輸出含有已轉(zhuǎn)錄文本的對象,帶有幾個(gè)字段:
- segments:轉(zhuǎn)錄內(nèi)容分成幾個(gè)片段。
- srt_file & txt_file:轉(zhuǎn)錄結(jié)果可以以這些格式獲得。
- translation:如果啟用了翻譯選項(xiàng),這里提供翻譯后的文本。
- transcription:這是最終的已轉(zhuǎn)錄文本。
- detected_language:模型檢測到的語言。
我們已了解了模型的輸入和輸出,不妨看看如何使用它來解決我們的轉(zhuǎn)錄問題!
使用Whisper模型將語音轉(zhuǎn)錄成文本
無論您是喜歡動手操作的程序員,還是偏愛交互性較強(qiáng)的演示方法,使用Whisper模型都簡單又直接。
第1步:身份驗(yàn)證
首先,需要安裝Replicate Node.js客戶軟件,并使用API令牌進(jìn)行身份驗(yàn)證。這允許您以編程方式與Whisper模型進(jìn)行交互。
npm install replicate
export REPLICATE_API_TOKEN=your_api_token_here
第2步:運(yùn)行模型
完成身份驗(yàn)證后,您可以用音頻輸入來運(yùn)行模型:
import Replicate from "replicate";
const replicate = new Replicate({
auth: process.env.REPLICATE_API_TOKEN,
});
const output = await replicate.run(
"openai/whisper:91ee9c0c3df30478510ff8c8a3a545add1ad0259ad3a9f78fba57fbc05ee64f7",
{
input: {
audio: "your_audio_here"
}
}
您還可以設(shè)置預(yù)測完成后所調(diào)用的Web鉤子(webhook),這適用于異步處理:
const prediction = await replicate.predictions.create({
version: "91ee9c0c3df30478510ff8c8a3a545add1ad0259ad3a9f78fba57fbc05ee64f7",
input: {
audio: "your_audio_here"
},
webhook: "https://example.com/your-webhook",
webhook_events_filter: ["completed"]
});
更進(jìn)一步:使用AIMmodels.fyi找到其他音頻到文本模型
也許您想將Whisper與其他模型進(jìn)行比較,或者探究同一問題領(lǐng)域的其他模型。怎樣才能找到它們?AIModels.fyi正是滿足這個(gè)用途的上佳資源,它有一個(gè)完全可搜索和可過濾的數(shù)據(jù)庫,列有來自各種平臺的AI模型。
第1步:訪問AIModels.fyi
進(jìn)入到AIModels.fyi,開始尋找類似的模型。
第2步:使用搜索欄
使用頁面頂部的搜索欄,搜索具有特定關(guān)鍵字的模型,比如“audio-to-text”或“transcription”。這將顯示相關(guān)模型列表。
第3步:篩選結(jié)果
使用搜索欄后,您可以通過使用頁面左側(cè)的過濾器進(jìn)一步縮小結(jié)果范圍??梢愿鶕?jù)各種標(biāo)準(zhǔn)來篩選和搜索模型,包括如下:
- 平臺:托管模型所用的平臺,比如OpenAI和Hugging Face等。
- 創(chuàng)建者:模型背后的創(chuàng)建者或組織。
- 成本:使用模型的價(jià)格范圍。
- 描述:該模型的功能和用途。
第4步:探究模型細(xì)節(jié)
一旦您找到了一個(gè)感興趣的模型,點(diǎn)擊它來查看更多的細(xì)節(jié)。您能夠看到闡述全面的模型特點(diǎn),包括其輸入和輸出、性能指標(biāo)和用例。
結(jié)語
無論您是經(jīng)驗(yàn)豐富的開發(fā)人員還是AI領(lǐng)域的新手,OpenAI的Whisper都是一個(gè)易于使用且功能強(qiáng)大的工具,可以將語音轉(zhuǎn)換成文本。若結(jié)合AIModels.fyi之類的資源,現(xiàn)在比以往任何時(shí)候更容易找到適合您獨(dú)特項(xiàng)目需求的完美模型。立即開始探究起來吧!
原文標(biāo)題:Converting Speech into Text with OpenAI's Whisper Model,作者:Mike Young