大數(shù)據(jù)分析的三大障礙
大數(shù)據(jù)問世之后,很多企業(yè)把大數(shù)據(jù)當成解決企業(yè)問題良方。盡管大數(shù)據(jù)同樣可依現(xiàn)代科學方法來研究和處理難解問題,但意大利科學家薩羅‧蘇奇(Sauro Succi)博士和倫敦大學學院(UCL)名譽教授彼得‧科維尼(Peter V. Coveney)指出,大數(shù)據(jù)分析仍存有三大障礙無法突破,因此雖然大數(shù)據(jù)帶來新視角,但企業(yè)卻不能把它當成救世主。
蘇奇與科維尼于2019年發(fā)表了一篇名為《大數(shù)據(jù):科學方法的終結(jié)?(Big data: the end of the scientific method? )》[1]文章。蘇奇與科維尼認為,我們身處的世界非常復雜,因此大數(shù)據(jù)研究方法所提出的一些主張仍需要修訂。因為源自于伽利略的「現(xiàn)代科學方法」,背后存在著一些障礙,這些障礙包括:非線性(nonlinearity)、非局部性(non-locality)和高維度性(hyperdimensions),如圖1所示。

圖1 大數(shù)據(jù)分析的三大障礙 繪圖者:張琬旖
1.非線性(nonlinearity)
非線性是在理論建模時,眾所周知的難題。非線性建模最典型的案例,就是氣象學里的「蝴蝶效應(Butterfly effect)」。一只小蝴蝶在中美洲的古巴拍拍翅膀,能在美國德州引發(fā)龍卷風嗎?(Does the Flap of a Butterfly’s wings in Brazil Set Off a Tornado in Texas?[2])
蝴蝶效應是由美國氣象學家,也是麻省理工學院的教授愛德華‧諾頓‧羅倫茲(Edward Norton Lorenz)所提出,意思是指在一個復雜的系統(tǒng)中,一個變量的微小變化,配合背后的連鎖反應,將會對整個系統(tǒng)造成巨大的影響。而這種非線性的影響,大大限制了模型的預測能力。大數(shù)據(jù)分析可以協(xié)助解決一些非線性系統(tǒng)的問題,但許多機器學習算法的基本假設,并不適合用在非線性系統(tǒng)當中。
2.非局部性(non-locality)
非局部性則是指存在著遠距離的相關(guān)性,縱使在系統(tǒng)里不同的子系統(tǒng)或是變量之間距離很遠,但仍然可能保有因果關(guān)系。非局部性通?!高`反直覺」,畢竟一般人會認為,越接近的事物,它們彼此之間的相互作用影響也最多。用機器學習來解決非局部性問題顯然是一個重大挑戰(zhàn)。
3.高維度性(hyperdimensions)
我們已經(jīng)習慣在三維空間上,再加上時間維度來生活。但當維度超過三個以上,人類的認知就會受到相當大的限制(這時一般會透過數(shù)學來運算)。復雜系統(tǒng)背后所探討的變量非常多,而這也造成計算維度的復雜。
蘇奇與科維尼最后指出,如果機器學習技術(shù)能夠協(xié)助克服上述三個基本障礙,那將是非常理想的,但到目前為止,幾乎沒有證據(jù)能表明大數(shù)據(jù)分析研究能有效突破以上的障礙,這需要大家持續(xù)的努力(一些例外是在天文學,機器學習在天文領(lǐng)域開始獲得很大的進展)。