自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="urrf3"></p>

<style id="urrf3"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

YOLOv5的妙用：學習手語，幫助聽力障礙群體

作者：魔王、杜偉 2020-10-26 14:14:36

計算機視覺可以學習美式手語，進而幫助聽力障礙群體嗎？數(shù)據(jù)科學家 David Lee 用一個項目給出了答案。

計算機視覺可以學習美式手語，進而幫助聽力障礙群體嗎？數(shù)據(jù)科學家 David Lee 用一個項目給出了答案。

如果聽不到了，你會怎么辦？如果只能用手語交流呢？

當對方無法理解你時，即使像訂餐、討論財務事項，甚至和朋友家人對話這樣簡單的事情也可能令你氣餒。

對普通人而言輕輕松松的事情對于聽障群體可能是很困難的，他們甚至還會因此遭到歧視。在很多場景下，他們無法獲取合格的翻譯服務，從而導致失業(yè)、社會隔絕和公共衛(wèi)生問題。

為了讓更多人聽到聽障群體的聲音，數(shù)據(jù)科學家 David Lee 嘗試利用數(shù)據(jù)科學項目來解決這一問題：

計算機視覺可以學習美式手語，進而幫助聽力障礙群體嗎？

如果通過機器學習應用可以精確地翻譯美式手語，即使從最基礎的字母表開始，我們也能向著為聽力障礙群體提供更多的便利和教育資源前進一步。

數(shù)據(jù)和項目介紹

出于多種原因，David Lee 決定創(chuàng)建一個原始圖像數(shù)據(jù)集。首先，基于移動設備或攝像頭設置想要的環(huán)境，需要的分辨率一般是 720p 或 1080p?，F(xiàn)有的幾個數(shù)據(jù)集分辨率較低，而且很多不包括字母「J」和「Z」，因為這兩個字母需要一些動作才能完成。

YOLOv5的妙用：學習手語，幫助聽力障礙群體

為此，David Lee 在社交平臺上發(fā)送了手語圖像數(shù)據(jù)收集請求，介紹了這個項目和如何提交手語圖像的說明，希望借此提高大家的認識并收集數(shù)據(jù)。

項目地址：https://github.com/insigh1/GA_Data_Science_Capstone

數(shù)據(jù)變形和過采樣

David Lee 為該項目收集了 720 張圖片，其中還有幾張是他自己的手部圖像。由于這個數(shù)據(jù)集規(guī)模較小，于是 David 使用 labelImg 軟件手動進行邊界框標記，設置變換函數(shù)的概率以基于同一張圖像創(chuàng)建多個實例，每個實例上的邊界框有所不同。

下圖展示了數(shù)據(jù)增強示例：

YOLOv5的妙用：學習手語，幫助聽力障礙群體

經(jīng)過數(shù)據(jù)增強后，該數(shù)據(jù)集的規(guī)模從 720 張圖像擴展到 18,000 張圖像。

建模

David 選擇使用 YOLOv5 進行建模。將數(shù)據(jù)集中 90% 的圖像用作訓練數(shù)據(jù)，10% 的圖像用作驗證集。使用遷移學習和 YOLOv5m 預訓練權重訓練 300 個 epoch。

YOLOv5的妙用：學習手語，幫助聽力障礙群體

在驗證集上成功創(chuàng)建具備標簽和預測置信度的新邊界框。

YOLOv5的妙用：學習手語，幫助聽力障礙群體

由于損失值并未出現(xiàn)增長，表明模型未過擬合，因此該模型或許可以訓練更多輪次。

模型最終獲得了 85.27% 的 mAP@.5:.95 分數(shù)。

圖像推斷測試

David 額外收集了他兒子的手部圖像數(shù)據(jù)作為測試集。事實上，還沒有兒童手部圖像用于訓練該模型。理想情況下，再多幾張圖像有助于展示模型的性能，但這只是個開始。

YOLOv5的妙用：學習手語，幫助聽力障礙群體

26 個字母中，有 4 個沒有預測結果（分別是 G、H、J 和 Z）。

四個沒有得到準確預測：

D 被預測為 F；

E 被預測為 T；

P 被預測為 Q；

R 被預測為 U。

視頻推斷測試

‍即使只有幾個手部圖像用于訓練，模型仍能在如此小的數(shù)據(jù)集上展現(xiàn)不錯的性能，而且還能以一定的速度提供優(yōu)秀的預測結果，這一結果表現(xiàn)出了很大的潛力。

更多數(shù)據(jù)有助于創(chuàng)建可在多種新環(huán)境中使用的模型。

如以上視頻所示，即使字母有一部分出框了，模型仍能給出不錯的預測結果。最令人驚訝的是，字母 J 和 Z 也得到了準確識別。

‍其他測試

David 還執(zhí)行了其他一些測試，例如：

左手手語測試

幾乎所有原始圖像都顯示的是右手，但 David 驚喜地發(fā)現(xiàn)數(shù)據(jù)增強在這里起到了作用，因為有 50% 的可能性是針對左手用戶進行水平翻轉。

‍兒童手語測試

‍David 兒子的手語數(shù)據(jù)未被用于訓練集，但模型對此仍有不錯的預測。

‍多實例

‍盡管手語的使用和視頻中有所不同，但這個示例表明當多個人出現(xiàn)在屏幕上時，模型可以分辨出不止一個手語實例。

模型局限性

David 發(fā)現(xiàn)，該模型還有一些地方有待改進。

距離

‍許多原始圖像是用手機拍攝的，手到攝像頭的距離比較近，這對遠距離推斷有一定負面影響。

新環(huán)境‍

‍這支視頻來自于志愿者，未用于模型訓練。盡管模型看到過很多字母，但對此的預測置信度較低，還有一些錯誤分類。

‍背景推斷

該測試旨在驗證不同的背景會影響模型的性能。

結論

這個項目表明：計算機視覺可用于幫助聽力障礙群體獲取更多便利和教育資源！

該模型在僅使用小型數(shù)據(jù)集的情況下仍能取得不錯的性能。即使對于不同環(huán)境中的不同手部，模型也能實現(xiàn)良好的檢測結果。而且一些局限性是可以通過更多訓練數(shù)據(jù)得到解決的。經(jīng)過調整和數(shù)據(jù)集的擴大，該模型或許可以擴展到美式手語字母表以外的場景。

資源‍

Yolov5 GitHub 項目：https://github.com/ultralytics/yolov5

責任編輯：張燕妮來源：機器之心Pro

YOLOv5 數(shù)據(jù)科學技術

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<cite id="zbxu6"><track id="zbxu6"></track></cite>

^{<blockquote id="zbxu6"></blockquote>}