自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="szy9s"></sub>

<meter id="szy9s"><cite id="szy9s"><option id="szy9s"></option></cite></meter>

<cite id="szy9s"><rp id="szy9s"><form id="szy9s"></form></rp></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

OpenAI語音轉(zhuǎn)錄工具被曝嚴(yán)重幻覺：轉(zhuǎn)錄100小時(shí)，一半兒在瞎扯

2024-10-28 07:15:00

Whisper是OpenAI老早前推出的開源自動(dòng)語音識別（ASR）系統(tǒng)，于2022年9月發(fā)布。它采用簡單的端到端方式，基于編碼器-解碼器Transformer架構(gòu)。輸入音頻將被分成30秒的塊，轉(zhuǎn)化為梅爾倒譜（音頻特征提取方式之一，log-Mel spectrogram），然后傳入編碼器。

OpenAI的AI語音轉(zhuǎn)寫工具，那個(gè)號稱近乎“人類水平”的Whisper，被曝幻覺嚴(yán)重——

100多小時(shí)轉(zhuǎn)錄，被工程師發(fā)現(xiàn)約一半都在瞎扯。

更嚴(yán)重的是，美聯(lián)社還爆料有醫(yī)療機(jī)構(gòu)利用Whisper來轉(zhuǎn)錄醫(yī)生與患者的會(huì)診，瞬間引發(fā)大量網(wǎng)友關(guān)注。

據(jù)悉，明尼蘇達(dá)州的曼卡托診所和洛杉磯兒童醫(yī)院在內(nèi)的超過30000名臨床醫(yī)生和40個(gè)衛(wèi)生系統(tǒng)已開始使用法國AI診療公司Nabla基于Whisper打造的工具。

而且他們已經(jīng)轉(zhuǎn)錄了大概700萬次醫(yī)療就診。

網(wǎng)友紛紛表示這就有點(diǎn)嚇人了。

值得一提的是，OpenAI之前早就警告過，該工具不應(yīng)在“高風(fēng)險(xiǎn)領(lǐng)域”中使用。

針對最新爆料，有OpenAI發(fā)言人回應(yīng)，OpenAI會(huì)在模型更新中加入相應(yīng)的反饋機(jī)制。

OpenAI被督促趕緊解決此問題

Whisper是OpenAI老早前推出的開源自動(dòng)語音識別（ASR）系統(tǒng)，于2022年9月發(fā)布。

它采用簡單的端到端方式，基于編碼器-解碼器Transformer架構(gòu)。輸入音頻將被分成30秒的塊，轉(zhuǎn)化為梅爾倒譜（音頻特征提取方式之一，log-Mel spectrogram），然后傳入編碼器。

經(jīng)過68萬小時(shí)的多語言和多任務(wù)監(jiān)督網(wǎng)絡(luò)數(shù)據(jù)的訓(xùn)練，Whisper可以進(jìn)行多語言轉(zhuǎn)錄。

Whisper推出后得到廣泛應(yīng)用，如今GitHub已攬獲70.2k標(biāo)星：

據(jù)悉，它還被集成在ChatGPT的一些版本中，同時(shí)也是Oracle和微軟云計(jì)算平臺(tái)的一項(xiàng)內(nèi)置服務(wù)，而這些平臺(tái)為全球數(shù)千家公司提供服務(wù)。

此外，僅在上個(gè)月，HuggingFace上的一個(gè)最新版本W(wǎng)hisper就被下載了超420萬次。HuggingFace社區(qū)的機(jī)器學(xué)習(xí)工程師Sanchit Gandhi表示，Whisper是最受歡迎的開源語音識別模型。

而現(xiàn)在，據(jù)美聯(lián)社報(bào)道，很多研究人員和工程師反映，在工作中他們經(jīng)常遇到Whisper產(chǎn)生的幻覺。

例如，密歇根大學(xué)的一位研究員在嘗試改進(jìn)模型之前，發(fā)現(xiàn)其檢查的每10份音頻轉(zhuǎn)錄中有8份出現(xiàn)了幻覺。

一位機(jī)器學(xué)習(xí)工程師指出，在他分析的超過100小時(shí)Whisper轉(zhuǎn)錄中，大約一半出現(xiàn)了幻覺。

還有一位開發(fā)者表示，在他使用Whisper創(chuàng)建的26,000份轉(zhuǎn)錄中，幾乎每一份都發(fā)現(xiàn)了幻覺。

……

這種問題甚至存在于錄制良好的短音頻樣本中。

在最近的一項(xiàng)研究中，計(jì)算機(jī)科學(xué)家們在審查的超過13000個(gè)清晰音頻片段中發(fā)現(xiàn)了187個(gè)幻覺。

工程師和研究人員表示，他們從未見過其它任何AI驅(qū)動(dòng)的轉(zhuǎn)錄工具像Whisper這樣頻繁地產(chǎn)生幻覺。

Whisper幻覺嚴(yán)重的原因目前尚未可知，但有軟件開發(fā)者表示，這些虛構(gòu)內(nèi)容往往發(fā)生在停頓、有背景聲音或音樂播放時(shí)。

之前，OpenAI就有提醒：

不要在決策情境中使用Whisper，準(zhǔn)確性上的缺陷可能導(dǎo)致結(jié)果出現(xiàn)明顯偏差。

然鵝，美聯(lián)社表示，這一警告并未阻止一些醫(yī)院或醫(yī)療中心使用Whisper等語音轉(zhuǎn)文字模型——

包括明尼蘇達(dá)州的曼卡托診所和洛杉磯兒童醫(yī)院在內(nèi)，已經(jīng)有超30000名臨床醫(yī)生和40個(gè)醫(yī)療系統(tǒng)已經(jīng)開始使用由Nabla公司基于Whisper開發(fā)的工具。

Nabla CTO Martin Raison稱，該工具針對醫(yī)療語言對模型進(jìn)行了微調(diào)，用于轉(zhuǎn)錄和總結(jié)患者的交流。

目前，該工具已被用于轉(zhuǎn)錄約700萬次醫(yī)療就診。

在得知Whisper可能會(huì)產(chǎn)生幻覺后，Nabla表示正在解決此問題，不過：

由于“數(shù)據(jù)安全原因”，Nabla的工具會(huì)刪除原始音頻，無法將Nabla生成的AI文本與原始錄音進(jìn)行比較。

此外，據(jù)了解，Whisper還被用來為聾人和聽力障礙者創(chuàng)建字幕。

Whisper幻覺嚴(yán)重問題被發(fā)現(xiàn)后，有人敦促OpenAI趕緊解決此問題。

今年2月離開OpenAI的研究員William Saunders也開麥了：

如果公司愿意優(yōu)先考慮，這似乎是可以解決的。如果你把它放出去，人們過于自信于它的功能，并將其集成到所有這些其他系統(tǒng)中，那就成了問題。

有OpenAI發(fā)言人回應(yīng)稱，公司持續(xù)研究如何減少幻覺現(xiàn)象，并感謝研究人員的發(fā)現(xiàn)，同時(shí)補(bǔ)充道OpenAI會(huì)在模型更新中融入相應(yīng)反饋機(jī)制。

參考鏈接：
[1]https://apnews.com/article/ai-artificial-intelligence-health-business-90020cdf5fa16c79ca2e5b6c4c9bbb14。
[2]https://x.com/AP/status/1850150400424345858。

責(zé)任編輯：姜華來源：量子位

OpenAI Whisper 語音轉(zhuǎn)錄工具

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="q1bax"></blockquote>}