開始使用人工智能時不得不問的10個問題
人工智能(AI)和機器學(xué)習(xí)(ML)技術(shù)正在顛覆全球幾乎所有行業(yè),并且人工智能技術(shù)不僅在機器人技術(shù)和車輛自動化中得到應(yīng)用,金融服務(wù)、零售、制造業(yè)、健康和生命科學(xué)等行業(yè)的組織也在通過人工智能(AI)和機器學(xué)習(xí)(ML)產(chǎn)生的見解實現(xiàn)業(yè)務(wù)的發(fā)展。
很多數(shù)字領(lǐng)導(dǎo)者也正在關(guān)注這些新興技術(shù):
- 根據(jù)調(diào)研機構(gòu)IDG公司在2019年進行的數(shù)字業(yè)務(wù)研究,大型組織計劃在數(shù)字計劃上平均花費1530萬美元,其中人工智能(AI)和機器學(xué)習(xí)(ML)名列前茅。
- 盡管對技術(shù)充滿熱情,但人工智能(AI)和機器學(xué)習(xí)(ML)項目的失敗率一直在50%到85%之間。
導(dǎo)致這些失敗的原因包括:沒有提前制定計劃、沒有得到高管或業(yè)務(wù)領(lǐng)導(dǎo)的認可、或者沒有找到合適的團隊來執(zhí)行項目。在沒有適當(dāng)策略的情況下追趕熱門技術(shù)趨勢,通常會使組織走上失敗的道路。
幸運的是,很多組織從這些失敗中接受了教訓(xùn),可以為其下一個人工智能(AI)或機器學(xué)習(xí)(ML)項目提供更好的計劃。以下是人工智能團隊在開始新的人工智能項目時應(yīng)該問自己的10個問題:
1. 是否明確了定義目標(biāo)并確定了正確的問題?
令人驚訝的是,許多組織對他們想通過人工智能項目實現(xiàn)的目標(biāo)并沒有清晰的愿景。此外,他們對于在實現(xiàn)目標(biāo)的過程中采取必要的步驟沒有正確的認識。
WekaIO公司首席技術(shù)官Shimon Ben David說:“很多公司都會從‘我們知道人工智能是游戲規(guī)則的改變者,所以讓我們看看能用它做些什么’。”
WekaIO公司提供了并行文件系統(tǒng)來幫助解決存儲問題,就像那些開始人工智能之旅的公司一樣。
就像探險者為到達目的地做好準(zhǔn)備一樣,組織項目負責(zé)人需要確定最終目標(biāo),然后提供一張地圖,其中包括旅程中每一步要遵循的具體方向。對于人工智能項目來說,需要確定具體的結(jié)果,然后通過提出問題和回答問題來指明方向,以幫助達到目標(biāo)并實現(xiàn)預(yù)期的結(jié)果。
這里的關(guān)鍵是建立一個良好的人工智能團隊,有能力提出和回答這些問題。團隊成員可能包括軟件工程師、業(yè)務(wù)主管、主題專家,甚至是客戶。
例如,假設(shè)一家金融機構(gòu)的最終目標(biāo)是通過提高利潤率來獲得更多收入。首先要問的一個問題是,“如何使用人工智能來做到這一點”,其中的一個解決辦法是考慮使用人工智能來幫助降低貸款的違約率,從而獲得更好的投資回報。
因此,誰能提出正確的問題來確定違約風(fēng)險最高的客戶?在這種情況下,這家金融機構(gòu)的團隊成員和個人客戶將是提出問題和收集數(shù)據(jù)的最佳人選,因為他們是最接近數(shù)據(jù)來源的人——客戶。組織的團隊需要了解客戶面臨的問題,并經(jīng)常與客戶進行互動,經(jīng)常會聽到付款延遲的原因,這會導(dǎo)致貸款狀況受到威脅,有時甚至?xí)?dǎo)致違約。
對于良好的客戶,金融機構(gòu)可以提供激勵,例如降低利率。對于高風(fēng)險客戶,金融機構(gòu)可以提供計劃和監(jiān)控措施,以確保他們保持正常付款或?qū)⑵渑懦诟唢L(fēng)險類別之外。
需要記住的是,組織為實現(xiàn)最終目標(biāo)而產(chǎn)生的問題可能會隨著收集的數(shù)據(jù)的增多而改變和演變。如果選擇了正確的目標(biāo),那么應(yīng)該保持不變,但是當(dāng)組織遇到問題和障礙時,實現(xiàn)目標(biāo)的步驟可能會改變。如果還沒有確定正確的目標(biāo),則提出問題可能會讓組織明白這一點,這樣就可以朝著正確的方向前進。
Ben David說:“組織需要不斷地提出問題,這些問題很有可能隨著項目的進展而改變,但組織必須在一開始就對這些問題做出初步的回應(yīng)。”
2. 實現(xiàn)目標(biāo)或解決問題需要哪些數(shù)據(jù)?
在人工智能項目團隊確定了人工智能可以實現(xiàn)的目標(biāo)或可以解決的特定問題后,組織團隊將繼續(xù)提出問題,以確定實現(xiàn)目標(biāo)或解決特定問題所需的數(shù)據(jù)或變量。
以這家金融機構(gòu)為例,在確定高風(fēng)險類別的貸款客戶之后,其團隊只是朝著目標(biāo)邁出了第一步。需要記住的是,其目標(biāo)不僅是確定違約風(fēng)險較高的客戶,而且還要防止他們違約,以便可以提高利潤率。
研究團隊提出了更多的問題,以便進入下一個步驟:高風(fēng)險類別中的每個客戶是否都面臨著同樣的情況,使他們無法支付貸款?如果不是,那么團隊如何識別和分類需要不同形式幫助以實現(xiàn)及時付款的客戶?有哪些補救措施可以幫助這些客戶并防止他們違約?
這就是數(shù)據(jù)實際發(fā)揮作用的地方。金融機構(gòu)擁有客戶的姓名、個人信息、銀行信息、社交媒體公告、圖像、視頻和其他記錄,可以通過這些數(shù)據(jù)來回答問題。雖然存在大量數(shù)據(jù),但可能不需要所有數(shù)據(jù)。另一方面,一些信息可能會丟失。事實上,大多數(shù)組織在開始實施人工智能項目時都認為有足夠的數(shù)據(jù)來回答這個問題,但是相當(dāng)一部分?jǐn)?shù)據(jù)已經(jīng)丟失,或者他們擁有的數(shù)據(jù)對回答問題沒有用處。Ben David表示,根據(jù)他的經(jīng)驗,從未遇到過一家收集太多數(shù)據(jù)的公司。
Ben David說:“也許我有銀行記錄,但它們沒有信用評分。也許我的社交媒體上沒有他們發(fā)布的相關(guān)標(biāo)簽來幫助我了解他們的財務(wù)狀況。而了解數(shù)據(jù)中的內(nèi)容非常重要。”
有時,組織必須采用自己的數(shù)據(jù)來填補缺失的內(nèi)容。用于提取數(shù)據(jù)集的工具會根據(jù)需要收集的數(shù)據(jù)類型而有所不同。例如,Google Analytics提供了網(wǎng)站訪問者數(shù)據(jù)和指標(biāo),但是還可以通過Hubspot、Salesforce或許多其他服務(wù)擁有客戶或聯(lián)系人數(shù)據(jù)庫。
但是要記住的是:保留一切數(shù)據(jù)!組織往往會獲取大量數(shù)據(jù),在創(chuàng)建人工智能或機器學(xué)習(xí)模型時提取數(shù)據(jù),然后將原始數(shù)據(jù)存儲在某個永遠不會被訪問的地方,或者更糟的是,刪除未使用的數(shù)據(jù)。在以后重新評估需要再次使用原始數(shù)據(jù)的特定模型時,數(shù)據(jù)可能至關(guān)重要。
例如,研究犯罪的專家利用DNA技術(shù)和方法來幫助查證嫌疑人在幾年前或幾十年前犯罪的事實。因為在這些情況下需要存儲和保存證據(jù),所以研究犯罪的專家可以重新分析犯罪線索。人工智能適用相同的原則:人們可能不認為自己現(xiàn)在需要所有收集的數(shù)據(jù),但是多年以后,更好的算法或新技術(shù)的進步可能會將一些看似無用的數(shù)據(jù)變?yōu)楦叨认嚓P(guān)的證據(jù)(例如頭發(fā)的DNA采樣)。
3. 如果還沒有數(shù)據(jù),將從哪里獲取數(shù)據(jù)?
如果組織發(fā)現(xiàn)自己需要更多數(shù)據(jù),下一步將確定從何處獲取所需數(shù)據(jù)。組織是否生成了數(shù)據(jù),是否購買或租用了這些數(shù)據(jù)?
例如,一家從事涉及遺傳學(xué)的人工智能項目的醫(yī)療公司需要查看公共基因組數(shù)據(jù)庫中的數(shù)據(jù),但可能發(fā)現(xiàn)他們沒有特定人工智能模型所需的數(shù)據(jù),在這種情況下,他們可能需要進行實驗?;蛘咭苍S他們只需要圖像中的一段數(shù)據(jù),而不是查看一組完整的標(biāo)記數(shù)據(jù)。
Ben David說:“組織要確保知道要在哪里獲取數(shù)據(jù),但也要明白這一點可能會隨著時間的推移而改變。”
例如一名農(nóng)民通過無人機拍攝其農(nóng)田的大量照片,并通過傳感器收集數(shù)據(jù),用于跟蹤作物生長或土壤濕度。即使農(nóng)民收集了一個月的數(shù)據(jù),其條件也會持續(xù)發(fā)生變化(天氣、作物生長、野生動物等),以至于數(shù)據(jù)收集工作永遠不會完成。因此數(shù)據(jù)采集不是一勞永逸的事情。Ben David 說,“需要提前計劃何時何地獲得下一批數(shù)據(jù),并采取措施獲取數(shù)據(jù),通常與其他工作同時進行。”
4. 組織的計算策略是什么:內(nèi)部部署、云計算還是混合部署?
人工智能項目遇到的一個主要問題是讓它在與組織的整體數(shù)字計算戰(zhàn)略不一致的計算平臺上運行。組織需要了解當(dāng)前和將來的計劃可以幫助人工智能團隊正確規(guī)劃最佳方法,以接近用于人工智能或機器學(xué)習(xí)模型的平臺。
Ben David說,“如果希望采用最有效的方式來適應(yīng)組織的戰(zhàn)略。這可能是因為組織在具有多個GPU的內(nèi)部部署環(huán)境中投入了大量資金,這是組織獲得成功最快的一條途徑。”
人工智能和機器學(xué)習(xí)項目可以通過內(nèi)部部署、云計算或混合平臺獲得成功,因為它們符合組織的整體戰(zhàn)略,并且不會與未來的變更或修改相沖突。而主要業(yè)務(wù)在云計算環(huán)境運營的中小組織可能會發(fā)現(xiàn)運營成本隨著規(guī)模的增長而變高,因此轉(zhuǎn)移到內(nèi)部部署環(huán)境更有意義。
5. 移動和存儲數(shù)據(jù)的計劃是什么?
很多組織發(fā)現(xiàn),在處理人工智能模型的過程中,他們并沒有存儲和移動數(shù)據(jù)的計劃。想象一下,跨國公司的業(yè)務(wù)部門遍布世界各地,在各地的多個地點生成數(shù)PB的數(shù)據(jù)。那么是在創(chuàng)建數(shù)據(jù)的地方進行處理,還是在世界各地的站點之間以某種方式傳輸數(shù)PB的數(shù)據(jù)?這是人工智能項目有時沒有考慮的關(guān)鍵事項之一。
另一種選擇是將數(shù)據(jù)集中在一個數(shù)據(jù)中心,但傳輸數(shù)據(jù)可能需要壓縮數(shù)據(jù)或以物理方式傳送數(shù)據(jù),而不是通過云平臺傳輸數(shù)據(jù),因為其成本十分高昂。而且,確保數(shù)據(jù)安全也是一個主要問題,因為某些數(shù)據(jù)由于所在地的法規(guī)而無法傳輸。最后,等到數(shù)據(jù)到達時在人工智能處理現(xiàn)場,可能會發(fā)現(xiàn)它已經(jīng)過時了。
Ben David說:“每個組織都有不同的答案。但是如果不在項目開始時就考慮這個問題,那么很有可能會遇到問題。”
此外,組織需要考慮保留數(shù)據(jù)以備將來使用的策略。在許多情況下,組織頻繁進行實驗中生成數(shù)據(jù)。這些實驗數(shù)據(jù)需要保存、存儲和保護,但也可以在需要時用于快速檢索。如上所述,保留的數(shù)據(jù)集其中包括原始數(shù)據(jù),這些數(shù)據(jù)當(dāng)時似乎無關(guān)緊要,但隨著人工智能模型的發(fā)展和分析能力的發(fā)展,以后可能會有用途。Ben David強調(diào),組織不應(yīng)刪除或忽略原始數(shù)據(jù)。
6. 將如何消除偏見并驗證模型結(jié)果?
收集數(shù)據(jù)并保存之后,需要確保知道如何驗證人工智能或機器學(xué)習(xí)模型生成的結(jié)果。一種方法是運行已知數(shù)據(jù)集并查看結(jié)果,以確保組織對預(yù)期結(jié)果具有更高的準(zhǔn)確性。
例如,如果組織的人工智能算法正在識別一批照片,并確定哪些包括蘋果的圖像,哪些包括桔子的圖像,那么其模型會準(zhǔn)確地識別出正確的水果嗎?Ben David說,人類通??梢院芎唵蔚亟o出答案,但當(dāng)數(shù)據(jù)集包含數(shù)百或數(shù)千張圖像時,人工智能的能力無法很好地擴展。在這種情況下,人工智能專家通常通過模擬器進行驗證,這樣可以在更大范圍內(nèi)驗證人工智能模型。
此外,驗證結(jié)果是確定人工智能是否具有內(nèi)置于模型中的固有偏見的重要步驟。例如,當(dāng)亞馬遜公司的簡歷篩選應(yīng)用程序沒有以性別中立的方式對軟件開發(fā)人員職位和其他技術(shù)職位的求職者進行評定。這是因為訓(xùn)練過的模型是通過10年以來所提交的簡歷的模式來選擇求職者,而10年來的大多數(shù)簡歷都來自男性求職者(男性在軟件開發(fā)領(lǐng)域占據(jù)主導(dǎo)地位)。
在評估人工智能模型時,需要確保具有發(fā)現(xiàn)和消除偏見的策略,否則最終得到的結(jié)果可能會扭曲,影響項目的可信度。
7. 多久微調(diào)一次模型?
由于人工智能和機器學(xué)習(xí)的大部分內(nèi)容都基于軟件,因此開發(fā)人員經(jīng)常采用“設(shè)置后不管”的方法,這對人工智能技術(shù)可能是災(zāi)難性的。微調(diào)不僅包括準(zhǔn)備好定期更改模型,還包括了解從業(yè)人員如何更改模型中的不同變量以實現(xiàn)不同的結(jié)果。
例如,某些人工智能模型將根據(jù)組織的數(shù)據(jù)提供結(jié)果,但還將說明它們?nèi)绾潍@得這些結(jié)果。但是,有些模型只是簡單地將結(jié)果提交出來,然后交給數(shù)據(jù)科學(xué)家去弄清楚原因,從而導(dǎo)致許多數(shù)據(jù)科學(xué)家稱之為“可解釋的人工智能”。 Ben David表示,任何人工智能項目總是在進行中,在可以為其決策提供充分理由的模型上創(chuàng)建和執(zhí)行,是建立對模型的信任的重要一步。
組織通常會發(fā)現(xiàn)具有“不良數(shù)據(jù)”的結(jié)果。不良數(shù)據(jù)是尚未“清理”的數(shù)據(jù),或者包含缺少的字段、重復(fù)項、或者數(shù)據(jù)類型的格式不正確,例如采用文本格式而不是以日期格式編寫的日期。
但是,即使是干凈的數(shù)據(jù)也可能被認為是不好的數(shù)據(jù),如果它太具體或者具有偏見,比如在面部識別中產(chǎn)生的問題,或者在亞馬遜的簡歷掃描應(yīng)用程序中發(fā)現(xiàn)的性別偏見。最初的數(shù)據(jù)可能看起來不錯,但在算法不斷篩選女性求職者的簡歷之后,其結(jié)果卻很糟糕,因為該模型沒有考慮到歷史數(shù)據(jù)中女性應(yīng)聘者簡歷很少的情況。數(shù)學(xué)算法中的這個錯誤實際上表明了數(shù)據(jù)集中的錯誤:歷史數(shù)據(jù)不夠廣泛。
確定數(shù)據(jù)好壞的最佳方法是,首先確保數(shù)據(jù)干凈,然后檢查數(shù)據(jù)范圍是否足以產(chǎn)生公正的結(jié)果。
8. 如何部署新模型?
通過定期進行微調(diào)的模型,組織就需要有圍繞部署新人工智能模型的可能性的策略,該模型可以更好地回答原始問題,或者根據(jù)他們看到的結(jié)果生成新問題的可能性。
例如,在某些時候,數(shù)據(jù)科學(xué)家可能會決定將其人工智能模型或算法轉(zhuǎn)移到其他神經(jīng)網(wǎng)絡(luò),這可能需要創(chuàng)建新的模型,而不是微調(diào)或修改原有的模型。其中許多決定取決于組織要實現(xiàn)的特定算法或目標(biāo),但人工智能團隊?wèi)?yīng)該關(guān)注如何部署新的模型需要在以后的日期出現(xiàn)的問題。
有些人可能認為獲取更多數(shù)據(jù)是微調(diào)或創(chuàng)造更好結(jié)果的一種方式,但這對于許多公司而言可能是一個陷阱。如果數(shù)據(jù)不好,那么添加更多數(shù)據(jù)將不會解決問題。當(dāng)人們認為獲取更多數(shù)據(jù)會有所幫助時,他們通常暗示需要獲取滿足高質(zhì)量標(biāo)準(zhǔn)的更廣泛的數(shù)據(jù)集。
Data Quality Solutions公司總裁Thomas C.Redman在2018年發(fā)表在《哈佛商業(yè)評論》的一篇文章中指出,良好的數(shù)據(jù)必須以兩種方式正確處理:
- 必須正確,貼有標(biāo)簽,刪除重復(fù)數(shù)據(jù)等
- 一定適合組織。
今年早些時候,Redman在《麻省理工學(xué)院斯隆管理評論》發(fā)表的一篇文章中還談到了組織在處理不良數(shù)據(jù)時經(jīng)常浪費關(guān)鍵資源。他說:“糟糕的數(shù)據(jù)反過來會滋生對數(shù)據(jù)的不信任,進一步減緩創(chuàng)造優(yōu)勢的努力。”
9. 計算基礎(chǔ)設(shè)施在第3天和第300天的情況如何?
人工智能項目正在不斷變化和發(fā)展。算法或軟件以及計算基礎(chǔ)設(shè)施都可能發(fā)生變化,這意味著該模型可以開始在組織擁有的服務(wù)器上運行,然后轉(zhuǎn)換為在公共云或混合平臺中運行。如果組織將其人工智能數(shù)據(jù)策略與組織的整體計算策略保持一致,這并不是什么大問題。
Ben David說,“例如,一家組織以通過一兩名數(shù)據(jù)科學(xué)家采用帶有GPU的筆記本電腦開展項目,如果一切順利,那么需要更多的數(shù)據(jù)科學(xué)家工作,那么需要提供更多的基礎(chǔ)設(shè)施。組織需要做好規(guī)劃。”
隨著數(shù)據(jù)量的擴展和模型變得越來越復(fù)雜,對更健壯計算的需求也越來越大;否則,數(shù)據(jù)量是原來的10倍意味著模型將花費10倍的時間,從而降低了生產(chǎn)率和靈活性。計算規(guī)模擴展需要組織確??梢韵鄳?yīng)地擴展網(wǎng)絡(luò)。
組織經(jīng)常會犯的代價高昂的錯誤是,沒有為項目過程中的數(shù)據(jù)顯著增長做好規(guī)劃。積累10倍的數(shù)據(jù)意味著存儲成本的顯著增加和額外的延遲,這通常是由于在冷存儲層中存儲更多的數(shù)據(jù)并將其來回移動到熱存儲層。這些讀寫操作非常耗時。一些組織為了規(guī)模經(jīng)濟和靈活的容量,在云中對一些數(shù)據(jù)進行分層,這給多個服務(wù)器和不同的運營模式帶來了管理開銷。
較新的文件系統(tǒng)(如WekaFS)在服務(wù)器中管理不同的層,其吞吐量與本地存儲設(shè)施相當(dāng)。使用現(xiàn)代文件系統(tǒng)可以極大地減輕成本和管理負擔(dān),幫助組織在數(shù)據(jù)增加時保持較高的生產(chǎn)效率。大多數(shù)現(xiàn)代文件系統(tǒng)都是從頭開始設(shè)計的,以支持EB級的數(shù)據(jù)以及人工智能和機器學(xué)習(xí)工作負載。
10. 如何對項目進行未來驗證?
Ben David表示,他看到許多組織在啟動人工智能項目時都對成功寄予厚望,但團隊并沒有對整個項目采取全面的看法,因此在開發(fā)方面將會遇到麻煩。他說:“很多組織在業(yè)務(wù)發(fā)展之后需要更多的基礎(chǔ)設(shè)施。通常情況下,會看到客戶試圖擴展其現(xiàn)有的基礎(chǔ)設(shè)施,而不是重新設(shè)計。”
例如,一名數(shù)據(jù)科學(xué)家可能在開始時采用自己的筆記本電腦工作,然后需要更多的數(shù)據(jù)科學(xué)家的參與,而組織的團隊需要在連接網(wǎng)絡(luò)的存儲設(shè)備上工作。
另一方面,一個項目可能是從云端開始的,但是團隊有10到50名數(shù)據(jù)科學(xué)家參與了這個項目,因此組織領(lǐng)導(dǎo)者認為購買用于計算、網(wǎng)絡(luò)和存儲環(huán)境的內(nèi)部設(shè)備更劃算。圍繞如何有效管理增長和擴大項目規(guī)模制定戰(zhàn)略,有助于組織的人工智能項目需要經(jīng)得起未來的考驗。
結(jié)論
總而言之,組織在項目上獲得成功必須有人工智能團隊在基礎(chǔ)設(shè)施變更方面保持靈活性,愿意微調(diào)其模型,并具有足夠的前瞻性思維,以制定計劃來安全有效地移動和存儲數(shù)據(jù)。