AI公司的練級之道:如何更具擴展性?
本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)
機器學(xué)習(xí)似乎已成為每個人都追求的一個宏大目標(biāo),超過80%的公司都正在研究至少一個AI項目。
圖源:unsplash
在開始之前,最好先詢問自己以下三個問題:
- “此機器學(xué)習(xí)模型的準(zhǔn)確性如何?”
- “培訓(xùn)時間多長?”
- “需要多少培訓(xùn)數(shù)據(jù)?”
用戶通常想知道新模型的裝載需要多長時間,以及它的性能或推廣效果如何,他們想要一種根據(jù)性能衡量總體成本的方法。但遺憾的是,以上問題的答案并不能解決這個問題。
它們甚至具有誤導(dǎo)性。
模型訓(xùn)練只是冰山一角。獲取合適的數(shù)據(jù)集以及清理、存儲、聚合、標(biāo)記、建立可靠的數(shù)據(jù)流和基礎(chǔ)架構(gòu)管道需要巨大成本,但大多數(shù)用戶和AI / ML公司都忽略了這一點。
根據(jù)最近的研究,公司在AI / ML項目中將80%以上的時間用于數(shù)據(jù)準(zhǔn)備和工程業(yè)務(wù)。換句話說,如果將大部分精力放在構(gòu)建和訓(xùn)練模型上,則總的工程工作量和成本可能是預(yù)計的五倍。
此外,機器學(xué)習(xí)模糊了用戶和軟件開發(fā)商之間的界線。
AIaaS或MLaaS已經(jīng)開始出現(xiàn)。隨著數(shù)據(jù)的增長,云端模型不斷改進(jìn)。也正因如此,MLaaS的業(yè)務(wù)比SaaS更具挑戰(zhàn)性。
機器模型從訓(xùn)練數(shù)據(jù)中學(xué)習(xí),因此缺乏高質(zhì)量的數(shù)據(jù),模型將無法良好運行。在大多數(shù)情況下,用戶并不了解生成或注釋適當(dāng)數(shù)據(jù)集的最佳做法。
當(dāng)系統(tǒng)性能不佳時,用戶往往會歸咎于模型。因此,AI / ML公司通?;ㄙM大量時間和資源進(jìn)行培訓(xùn)并與用戶合作,以確保數(shù)據(jù)質(zhì)量,這成為AI公司與其客戶之間的共同責(zé)任。
例如,要訓(xùn)練生產(chǎn)線上的缺陷檢查模型,計算機視覺公司需要與客戶合作,以正確的角度和位置安裝攝像頭,檢查分辨率和幀頻,確保每個場景都有足夠的正負(fù)面訓(xùn)練樣本。
某些時候機器人或車輛需要人為操作,因此使用機器人技術(shù)或自動駕駛汽車應(yīng)用程序進(jìn)行數(shù)據(jù)收集更加耗時且成本更高。
即使進(jìn)行了培訓(xùn)課程,且看完了所有用戶手冊和指南,你仍然不能完全控制用戶生成的數(shù)據(jù)。一家機器視覺相機公司告訴我,他們的工程師會手動驗證所有數(shù)據(jù)以確保其完整輸入。
圖源:unsplash
所有這些經(jīng)常被忽視的額外培訓(xùn)、手動檢查、數(shù)據(jù)清理和標(biāo)記任務(wù)會給AI公司帶來巨大的間接費用。這就是為什么要建立更具可擴展性的AI/ML項目的原因。那么該如何解決這個問題呢?
1. 可擴展性是關(guān)鍵。
確定大量客戶愿意購買的正確用例,并使用相同的模型體系結(jié)構(gòu)解決。最后,你需要在沒有標(biāo)準(zhǔn)產(chǎn)品的情況下為不同的公司構(gòu)建和訓(xùn)練不同的模型。
2. 盡量提供自助服務(wù)。
盡可能使培訓(xùn)和數(shù)據(jù)管道自動化,以提高運營效率并減少對體力勞動的依賴。相比較內(nèi)部工具或自動化,公司更看重開放客戶可見的功能,但是前者很快就會收到回報,你需要確保為內(nèi)部流程自動化分配足夠的資源。
3. 最后,確定并跟蹤成本,尤其是隱性成本。
工程師花費了多少時間清理、過濾或聚合數(shù)據(jù)?他們花費多少時間來確保第三方正確完成注釋?他們需要多久幫助客戶設(shè)置環(huán)境并正確收集數(shù)據(jù)?其中有多少可以自動化或外包?
練級之路可能艱難而漫長,但有些問題是遲早都需要面對的。