2021年機器學習的下一步是什么?
2020年啊!從全球醫(yī)療保健問題到技術(shù)采用和再利用方式的革命,已經(jīng)過去了一年。
每年年底,停下來思考一下機器學習(ML)的趨勢總是很有趣的,這種趨勢已經(jīng)出現(xiàn)了驚人的增長,尤其是在工具,資源和信息可訪問性方面。
作為PerceptiLabs視覺建模工具的開發(fā)人員,我們將始終關(guān)注這些趨勢,并詢問下一步將如何發(fā)展,因為我們將繼續(xù)增強工具的功能。這樣做意味著調(diào)查水晶球或黑匣子(取決于選擇的工具),以了解ML的未來前景。在最近進行了這項練習之后,以下是我們對2021年ML的三大預測(倒計時)。
尖端模型的可用性
排名第三的是可用的尖端模型的增長。隨著ML的廣泛采用,我們看到了開放訪問模型的平行趨勢。一個促成因素是大型ML公司正在不斷提高模型性能的標準。他們之所以能夠做到這一點,是因為他們擁有龐大而全面的數(shù)據(jù)集,可以在專門的ML從業(yè)人員團隊的支持下訓練模型。
許多中小型公司和組織希望利用這些高性能模型,但可能無法從頭開始構(gòu)建它們。因此,許多人正在轉(zhuǎn)向遷移學習,以便他們可以在經(jīng)過大量培訓的這些模型的基礎(chǔ)上,甚至重新利用這些模型。相反,許多確實有資源開發(fā)此類模型的大型企業(yè)已經(jīng)意識到,他們?nèi)匀豢梢詮耐獠繉ζ淠P退龅呢暙I中受益。
學生,業(yè)余愛好者和其他嘗試ML的團體也使用開源和公共模型,其中一些人使用或貢獻于這些模型來促進他們的職業(yè)發(fā)展。
更好的ML支持工具
在2021年的頂級ML預測中排名第二的是為ML實踐者提供的更全面的工具支持。
僅僅生成一個可以做出相當不錯的預測的ML模型已不再足夠。當今的機器學習從業(yè)者要求模型具有可解釋性,需要理解為什么要進行預測,也就是說,如果愿意,可以進入眾所周知的黑匣子,然后決定是否應將模型投入生產(chǎn)。這在企業(yè)中經(jīng)常要根據(jù)社會因素(包括道德,社會公正和公平)對預測進行仔細檢查的情況下尤其重要。
模型卡的使用已成為模型開發(fā)的強大工具,我們希望它們在2021年變得更加普遍。從本質(zhì)上講,這些卡(實際上更像是設計文檔)正式描述了模型的各個方面。它們的內(nèi)容可以包括:
- 詳細概述:概述了模型的用途。
- 規(guī)格:層/神經(jīng)網(wǎng)絡,輸入和輸出的類型。
- 后勤:作者,日期,其他文檔的鏈接,如何引用模型,許可證。
- 預期用途:適用用途,領(lǐng)域限制等。
- 限制和注意事項:速度/準確性約束,道德和隱私問題,潛在的偏見等。
- 培訓:數(shù)據(jù)源,測試環(huán)境和設備等。
- 目標和實際績效指標:諸如預期與實際準確性之類的指標。
有關(guān)模型卡的一些很好的示例,請從MediaPipe中查看此收藏集。
另一個關(guān)鍵工具是可視化。在設計,培訓甚至審計過程中可視化模型的能力本身就是非常寶貴的。這就是PerceptiLabs的亮點,因為它為TensorFlow提供了GUI和可視化API。
這些方面補充了模型卡,因為團隊成員可以根據(jù)模型卡上指定的內(nèi)容不斷評估模型。有關(guān)其他信息,請查看TensorFlow概述以及PerceptiLabs如何使其更容易。
在PerceptiLabs,我們還在尋求超越具有支持解釋功能的可視化功能。不久,我們將添加新的庫,這些庫不僅使您可以查看正在使用的數(shù)據(jù),還可以洞悉該數(shù)據(jù)的哪一部分(例如,圖像的某些部分,CSV數(shù)據(jù)的某些列等)。具有最大的影響預測。
邊緣機器學習
最后,在您一直等待的時刻,我們對2021年的ML預測(鼓聲):邊緣機器學習。
我們看到邊緣推理的趨勢正在增長,我們預計該細分市場將在2021年大幅增長。這有很多因素,包括物聯(lián)網(wǎng)的增長以及對遠程工作設備的更多依賴。但是,要對此趨勢有所了解,最好將邊緣推理與"面向云的ML"進行比較和對比,后者在面向企業(yè)的設備和消費類設備(例如Google Mini)中都可以找到。
支持云的ML可能會讓人聯(lián)想到可以訪問互聯(lián)網(wǎng)的微型設備的圖像,這些設備會收集數(shù)據(jù),將數(shù)據(jù)發(fā)送到云以進行推斷,并且在某些情況下會在設備上接收數(shù)據(jù)(例如執(zhí)行某些操作)。這樣的部署對于許多情況(例如,對于檢測欺詐的銀行而言)是必要的,并且非常適合于可能不需要較長延遲的情況,需要第三方云托管的情況等。也就是說,5G的增長可能會使延遲成為過去。
但是,邊緣設備正在迅速獲得在邊緣執(zhí)行推理所需的處理能力。以Google的Coral為例,它具有板載張量處理單元(TPU),并且可以處理眾多IoT用例(例如,分析圖像和語音)。通過將此類技術(shù)封裝在一個小巧的外形中,現(xiàn)在就可以進行推理,而無需Internet連接和云后端。此設置還通過將所有收集的數(shù)據(jù)保留在設備上來增加安全性,這一方面在設備上得到了進一步增強。
從技術(shù)角度來看,此類部署通常需要更小的ML模型,這些模型可以快速轉(zhuǎn)移并適合有限的嵌入式設備存儲。一種流行的解決方案是在模型中使用量化(降低數(shù)值精度)來減小模型的大小。當然,確定正確的量化數(shù)量必須與不可避免的準確性降低保持平衡。有關(guān)更多信息,請查看我們的珊瑚手語教程,該教程演示在PerceptiLabs中的模型導出過程中使用全整數(shù)量化以將權(quán)重從32位浮點數(shù)減少到8位定點值,以及如何將模型加載到Coral開發(fā)板上。
結(jié)論
2020年是唱片業(yè)的一年,但將被銘記為即使是最艱巨的挑戰(zhàn)也要克服的時代。我們希望認為這不僅適用于全球性事件,而且還適用于ML工具,資源和信息的演變和民主化。
雖然我們的主題是2020年,但我們今年的主要預測之一是MLOps的增長。MLOps可以按照MLOps:僅適用于機器學習的"運維"中所述的不同級別采用。
總體而言,這是值得反思的一年,我們期待看到我們對ML的預測在新的一年中得以實現(xiàn)。