Nvidia 和 Mozilla 公布新版 Common Voice 數(shù)據(jù)集,已支持 76 種語言
Common Voice 是 Mozilla 的開源項(xiàng)目,基于 MPL 協(xié)議發(fā)行,到目前為止已經(jīng)誕生了幾年時(shí)間,它允許志愿者們?yōu)檎Z音識別軟件的數(shù)據(jù)庫做出貢獻(xiàn),而這個(gè)數(shù)據(jù)庫屬于公共領(lǐng)域,所有人都可以將這些數(shù)據(jù)用于語音合成和識別軟件。
今年 4 月,Nvidia 通過向 Mozilla 投資 150 萬美元的方式參與了這項(xiàng)計(jì)劃的合作。
近日,在雙方和整個(gè)社區(qū)的共同努力下,Common Voice 數(shù)據(jù)集的最新版本正式公開了。它帶來了多項(xiàng)值得注意的新內(nèi)容。首先,該語料數(shù)據(jù)集現(xiàn)在有超過 13000 小時(shí)的眾包語音數(shù)據(jù)。與之前的版本相比,最新版本帶來了 4622 小時(shí)的全新音頻數(shù)據(jù)。還增加了 16 種新語言,即巴薩語、斯洛伐克語、北庫爾德語、保加利亞語、哈薩克語、巴什基爾語、加利西亞語、維吾爾語、亞美尼亞語、白俄羅斯語、烏爾都語、瓜拉尼語、塞爾維亞語、烏茲別克斯坦語、阿塞拜疆語和豪薩語。這使得數(shù)據(jù)集中的語言總數(shù)達(dá)到了 76 種。總的來說,該數(shù)據(jù)集現(xiàn)在有超過 182,000 個(gè)獨(dú)特的聲音,過去六個(gè)月里貢獻(xiàn)者社區(qū)增長了 25% 。
Mozilla 新發(fā)布的 Common Voice 數(shù)據(jù)集的其他內(nèi)容包括:
- 按總時(shí)長排列的前五的語言是英語(2630 小時(shí))、基尼亞盧旺達(dá)語(2260 小時(shí))、德語(1040 小時(shí))、加泰羅尼亞語(920 小時(shí))和世界語(840 小時(shí));
- 按百分比增加最多的語言是泰語(增長了 20 倍,從 12 小時(shí)增長到 250 小時(shí)),盧干達(dá)語(增長了 10 倍,從 8 小時(shí)到 80 小時(shí)),世界語(增長了 8 倍多,從 100 小時(shí)到 840 小時(shí)),以及泰米爾語(增長了 9 倍多,從 24 小時(shí)到 220 小時(shí));
如果你有興趣為 Common Voice 數(shù)據(jù)集做出貢獻(xiàn),可以訪問項(xiàng)目官網(wǎng)參與這項(xiàng)計(jì)劃,為項(xiàng)目添磚加瓦。想要將數(shù)據(jù)集用于相關(guān)項(xiàng)目開發(fā)的開發(fā)者可以在 GitHub 倉庫中找到源代碼和使用文檔。作為 Mozilla 和 Nvidia 合作的一部分,在這個(gè)公共數(shù)據(jù)集上訓(xùn)練的模型可以通過 Nvidia NeMo 免費(fèi)獲得。
本文轉(zhuǎn)自O(shè)SCHINA
本文標(biāo)題:Nvidia 和 Mozilla 公布新版 Common Voice 數(shù)據(jù)集,已支持 76 種語言
本文地址:https://www.oschina.net/news/153279/nvidia-and-mozilla-latest-version-common-voice-data