自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

在人工智能和大數(shù)據(jù)產品的開發(fā)中,有哪些需要特別注意的點?

人工智能 大數(shù)據(jù)
人工智能是近年來科技發(fā)展的重要方向,大數(shù)據(jù)的采集、挖掘、應用的技術越來越受到矚目。在人工智能和大數(shù)據(jù)產品的開發(fā)過程中,有哪些特別需要注意的要點?人工智能領域的算法大師、華盛頓大學教授Pedro Domingos對此進行了深入思考。

人工智能是近年來科技發(fā)展的重要方向,大數(shù)據(jù)的采集、挖掘、應用的技術越來越受到矚目。在人工智能和大數(shù)據(jù)產品的開發(fā)過程中,有哪些特別需要注意的要點?人工智能領域的算法大師、華盛頓大學教授Pedro Domingos對此進行了深入思考。

在達觀數(shù)據(jù)最新翻譯的《智能Web算法》(第2版)中,對Pedro Domingos教授的觀點進行了高度概括,提煉出12個注意點,為行業(yè)開發(fā)實踐提供了重要的參考:

[[197792]]

注意點1:你的數(shù)據(jù)未必可靠

在實際應用中,有很多各種各樣的原因會導致你的數(shù)據(jù)是不可靠的。因此,當你將數(shù)據(jù)用于解決問題前,必須經常留心來檢查數(shù)據(jù)是否值得信賴。如果基于糟糕的數(shù)據(jù)來挖掘,無論多么聰明的人也永遠只會獲得糟糕的結果。下面列舉了一些常見的會導致數(shù)據(jù)可靠性問題的因素:

用于開發(fā)的數(shù)據(jù),往往和實際情況下的數(shù)據(jù)分布不同。例如也許你想把用戶按照身高劃分為“高”、“中等”、“矮”三檔,但如果系統(tǒng)開發(fā)時使用的數(shù)據(jù)集里最低用戶的身高是6英尺(184cm),那么很有可能你開發(fā)出來的系統(tǒng)里會把一個“僅有6英尺”的用戶稱為“矮”用戶。

你的數(shù)據(jù)集中存在很多缺失數(shù)據(jù)。事實上,除非是人為構造的數(shù)據(jù)集合,否則很難避免缺失數(shù)據(jù)問題的發(fā)生,如何處理數(shù)據(jù)缺失的問題是很有技巧的事情。實踐中我們要么是干脆丟棄一部分殘缺的數(shù)據(jù),要么就是想辦法計算一些數(shù)值去填補這些缺失值。無論哪種方法都可能導致應用結果的不穩(wěn)定。

你的數(shù)據(jù)可能隨時在變化。數(shù)據(jù)庫的表結構可能會變,數(shù)據(jù)定義也可能會變。

你的數(shù)據(jù)可能沒有被歸一化。假設你可能在觀察一組用戶的體重,為了能夠獲得有效的結論,首先需要對每個體重的衡量單位進行歸一化,是英鎊還是公斤,不能混淆著用。

你的數(shù)據(jù)可能并不適用于相應的算法。數(shù)據(jù)存在著各種各樣的形式和規(guī)范,或者叫數(shù)據(jù)類型(data types),有些是數(shù)值化的數(shù)據(jù),有些則不是。有些數(shù)據(jù)集合能被有序排列,有些則做不到。有些是離散化的數(shù)據(jù)(例如房間里的人數(shù)),另一些則是連續(xù)化的(例如氣溫或者氣壓等數(shù)據(jù))。

注意點2:計算難以瞬間完成

完成任何一個人工智能解決方案的計算,都需要一定的時間,方案的響應速度,對商業(yè)應用的成功與否起到十分關鍵的作用。不能總是盲目假設任何算法在所有數(shù)據(jù)集上都一定能在規(guī)定時間內完成,你需要測試下算法的性能是否在可接受的應用范圍內。

以搜索引擎為例,用戶對結果返回的時長是有忍耐的限度的。如果用戶等待的時間超過10秒,50%的用戶會流失,如果等待時間超過1分鐘,90%以上的用戶會流失。在開發(fā)智能應用系統(tǒng)時,不能為了達到更好的算法精度而忽略系統(tǒng)運算和等待的時間,否則會導致整個產品的失敗。

注意點3: 數(shù)據(jù)的規(guī)模非常重要

當我們考慮智能應用時,數(shù)據(jù)規(guī)模是很重要的因素。數(shù)據(jù)規(guī)模的影響可以分為兩點來考察:第一點是規(guī)模會影響應用系統(tǒng)的響應速度,上一節(jié)我們剛提過;第二點是在很大的數(shù)據(jù)集上的挖掘出有價值結果的能力會受到考驗。例如為100個用戶開發(fā)的電影或音樂推薦系統(tǒng)可能效果很好,但是同樣的算法移植到有著100000個用戶的環(huán)境里,效果可能就不盡如人意了。

其次,使用更多的數(shù)據(jù)來訓練的簡單算法,比受制于維度詛咒(Dimension Curse)的復雜算法往往有好得多的效果。類似Google這樣擁有海量數(shù)據(jù)的大型企業(yè),優(yōu)秀的應用效果不僅來自于精妙復雜的算法,也來自于其對海量訓練數(shù)據(jù)的大規(guī)模分析挖掘。

注意點4: 不同的算法具有不同的擴展能力

我們不能假設智能應用系統(tǒng)都可以通過簡單增加服務器的方法來擴展性能。有些算法是有擴展性的,而另一些則不行。

例如如果我們要從數(shù)億的文章標題里,找出標題相似的各個組的文章,注意并不是所有的聚類算法此時都能并行化運行的,你應該在設計系統(tǒng)的同時就考慮可擴展性。有些情況下你需要將數(shù)據(jù)切分成較小的集合,并能夠讓智能算法在各個集合上并行運行。設計系統(tǒng)時所選擇的算法,往往需要有并行化的版本,而在一開始就需要將其納入考慮,因為通常圍繞著算法還會有很多相關聯(lián)的商業(yè)邏輯和體系結構需要一并考慮。

注意點5:并不存在萬能的方法

你可能聽說過一句諺語“當你有了把榔頭的時候,看什么東西都像釘子”,這里想表達的意思是:并不存在能夠解決所有智能應用問題的萬能算法。

 

智能應用軟件和其他所有軟件類似——具有其特定的應用領域和局限性。當面對新的應用領域時,一定要充分的驗證原有方法的可行性,而且你最好能嘗試用全新的視角來考察問題,因為不同的算法在解決特定的問題時才會更有效和得當。

注意點6:數(shù)據(jù)并不是萬能的

根本上看,機器學習算法并不是魔法,它需要從訓練數(shù)據(jù)開始,逐步延伸到未知數(shù)據(jù)中去。

例如假設你已經對數(shù)據(jù)的分布規(guī)律有所了解,那么通過圖模型來表達這些先驗的知識會非常有效。除了數(shù)據(jù)以外,你還需要仔細的考慮,該領域有哪些先驗知識可以應用,這對開發(fā)一個更有效的分類器會很有幫助。數(shù)據(jù)和行業(yè)經驗結合往往能事半功倍。

注意點7:模型訓練的時間差異很大

在特定應用中,可能某些參數(shù)的微小變化就會讓模型的訓練時間出現(xiàn)很大的差異。例如在深度神經網絡訓練時就會有各種各樣的參數(shù)調節(jié)的情況發(fā)生。

人們往往會直觀地覺得調整參數(shù)時,訓練時間是基本穩(wěn)定不變的。例如假設有個系統(tǒng)是計算地球平面上任意兩點之間的距離的,那么任意給出兩個點的坐標時,計算時間差不多都是相同的。但在另一些系統(tǒng)里卻并非如此,有時細微的調整會帶來很明顯的時間差異,有時差異甚至可以大到數(shù)小時,而不是數(shù)秒。

注意點8:泛化能力是目標

機器學習實踐中最普遍存在的一個誤區(qū)是陷入處理細節(jié)中而忘了最初的目標——通過調查來獲得處理問題的普適的方法。

測試階段是驗證某個方法是否具備泛化能力(generalization ability)的關鍵環(huán)節(jié)(通過交叉驗證、外部數(shù)據(jù)驗證等方法),但是尋找合適的驗證數(shù)據(jù)集不容易。如果在一個只有幾百個樣本的集合上去訓練有數(shù)百萬維特征的模型,試圖想獲得優(yōu)秀的精度是很荒唐的。

注意點9:人類的直覺未必準確

[[197794]] 

在特征空間膨脹的時候,輸入信息間形成的組合關系會快速增加,這讓人很難像對中等數(shù)據(jù)集合那樣能夠對其中一部分數(shù)據(jù)進行抽樣觀察。更麻煩的是,特征數(shù)量增加時人類對數(shù)據(jù)的直覺會迅速降低。

例如在高維空間里,多元高斯分布并不是沿著均值分布,而是像一個扇貝形狀圍繞在均值附近,這和人們的主觀感受完全不同。在低維空間中建立一個分類器并不難,但是當維度增加時,人類就很難直觀的理解了。

注意點10:要考慮融入更多新特征

你很可能聽說過諺語“進來的是垃圾,出去的也是垃圾”(garbage in, garbage out),在建立機器學習應用中這一點尤其重要。為了避免挖掘的效果失控,關鍵是要充分掌握問題所在的領域,通過調查數(shù)據(jù)來生成各種各樣的特征,這樣的做法會對提升分類的準確率和泛化能力有很大的幫助。僅靠把數(shù)據(jù)扔進分類器就想獲得優(yōu)秀結果的幻想是不可能實現(xiàn)的。

注意點11:要學習各種不同的模型

模型的組合(Ensemble)技術正變得越來越流行了,因為組合方法,僅需要付出少許偏見(bias)的代價,就能大大的減少算法的不確定性。在著名的Netflix算法競賽中,冠軍隊以及成績優(yōu)異隊伍們全都使用了組合模型方法,把超過100個模型合并在一起(在模型上疊加高層的模型形成組合)以提升效果。在人工智能用于實際應用時,從業(yè)者普遍都認為,未來的算法一定時會通過模型組合的方法來獲得更好精度,但是這也會抬高非專業(yè)人員理解系統(tǒng)機制的門檻。

注意點12:相關關系不等同于因果關系

這一點值得反復強調,我們可以通過一句調侃的話來解釋:“地球變暖、地震、龍卷風,以及其他自然災害,都和18世紀以來全球海盜數(shù)量的減少有直接關系”。這兩個變量的變化有相關性,但是并不能說存在因果關系,因為往往存在第三類(甚至第4、5類)未被觀察到的變量在起作用。相關關系應該看作是潛在的因果關系的一定程度的體現(xiàn),但需要進一步研究。

在開發(fā)人工智能與大數(shù)據(jù)應用系統(tǒng)時,把握好以上十二個注意點,將能夠有效避免實戰(zhàn)中的各種“坑”,幫助技術在走出實驗室、走向落地應用時,發(fā)揮更加強大的作用。

陳運文,達觀數(shù)據(jù)創(chuàng)始人兼CEO,復旦大學計算機專業(yè)博士,上海市計算機學會多媒體分會副會長,國際計算機學會(ACM)和國際電子電器工程師學會(IEEE)高級會員。曾任盛大文學首席數(shù)據(jù)官,騰訊文學高級總監(jiān)、數(shù)據(jù)中心負責人,百度核心技術研發(fā)工程師,多次代表中國參加ACM等國際數(shù)據(jù)挖掘競賽并獲冠。 

責任編輯:龐桂玉 來源: CSDN大數(shù)據(jù)
相關推薦

2017-07-17 14:15:43

大數(shù)據(jù)人工智能注意要點

2018-09-14 08:50:12

人工智能大數(shù)據(jù)

2017-07-13 10:35:35

人工智能大數(shù)據(jù)開發(fā)

2021-10-12 21:56:23

數(shù)據(jù)安全互聯(lián)網信息

2018-03-29 11:11:32

人工智能大數(shù)據(jù)開發(fā)

2023-05-09 13:51:21

人工智能能源效率

2024-01-29 11:12:23

人工智能機器學習物聯(lián)網

2020-09-18 16:01:18

大數(shù)據(jù)

2021-10-20 22:28:02

人工智能開發(fā)系統(tǒng)

2009-11-23 17:20:20

光纜路由器

2022-01-10 17:42:33

人工智能大數(shù)據(jù)技術

2017-10-23 12:19:38

2018-02-27 13:50:47

人工智能移動應用開發(fā)

2024-05-07 11:29:59

2023-09-13 07:04:34

人工智能建模SME

2019-04-11 17:44:08

2018-06-07 15:22:58

人工智能大數(shù)據(jù)比較

2019-09-25 07:34:10

人工智能大數(shù)據(jù)數(shù)據(jù)科學

2023-08-01 14:01:16

人工智能智能建筑

2023-07-26 15:19:57

物聯(lián)網人工智能
點贊
收藏

51CTO技術棧公眾號