拋磚引玉:像數(shù)據(jù)科學家那樣思考
這個題目在素材庫中已經(jīng)放了很久了,久久不敢動筆去寫。每次打好腹稿,列好提綱,卻不知該不該寫。之所以猶豫,原因是知道這個話題未來肯定會火。所以現(xiàn)在寫起來,需要謹慎,免得貽笑后人。
像經(jīng)濟學家那樣思考,是常常被人提起的。究其原因,是因為經(jīng)濟學在社會科學領(lǐng)域有一統(tǒng)天下的趨勢,其研究范式被社會學,心理學,甚至歷史性借鑒,經(jīng)濟學的思維方式,也可用到日常生活中,從而使得人們想變得想經(jīng)濟學家那樣思考問題。類似的,數(shù)據(jù)科學這幾年也是火的不能再火了,過不了幾年,每家公司都會考慮增設(shè)Cheif AI office,那么如何像個數(shù)據(jù)科學家那樣思考,也會成為熱門話題的。
不愿意寫這個題目的第二個原因,是在于這個題木下可以寫的思維方式真的很多,如果無法分清楚主次,那么會變成名詞的羅列。然而“少則得,多則惑”,少年時看倚天小說的***章,寫小郭襄炫技式的展示十種不同的武功,但每一種都沒有精通,只覺得過癮。如今看來,金庸在用暗筆預示著未來峨嵋武功終究不及武當少林。思考方式不過是方法論,不追求掌握的多,但追求收發(fā)自如。因此我也釋懷了,這里的總結(jié)也不必追求全面了。本文中任何的一種思維方式,雖然只是一招一式,不成體系,但任何一招用好,都可以提升自己的思維的敏銳性。
所以這篇文章我更希望是一個拋磚引玉的起點,吸引更多的人來思考該如何讓數(shù)據(jù)科學的思維方式民主化,希望能開啟相關(guān)的討論。
下面開始正文。先放幾張圖,讓各位猜猜每張圖所代表的思維方法,算熱身。
***個圖對應的是抽象。相比于匯編語言,C算是一種抽象;相比于C,python則更是一種抽象。每一種抽象,都提供了一種更快更易上手的高級工具。掌握抽象思維,意味著你能直接就站在巨人的肩膀上,直接站在前人的基礎(chǔ)上進行自己的創(chuàng)造。學會使用新出現(xiàn)的高級工具,還意味著你能趕上時代進步帶來的紅利,不必思考已經(jīng)被科技進步的紅利已解決的問題。
抽象的思維方式,意味著你能擺脫細節(jié),整合不同維度和場景的觀察。然而數(shù)據(jù)思維不等于統(tǒng)計,還需要找出規(guī)律,給出解釋。對數(shù)據(jù)的解讀,需要你具有要提到的第二種思維方式,即取舍。
有明處就有暗處,有得就有失。而數(shù)據(jù)能讓我們更清楚的看到這些暗處的得失,正是因為這些得失,我們才需要數(shù)據(jù),這個不會被我們的情感和主觀好惡影響的參謀來幫我們做決策。然而只有意識到任何數(shù)據(jù)在解讀時都會包含取舍,我們才能更全面的解讀數(shù)據(jù)。也只有記住在面臨不同質(zhì)事物的抉擇時記得需要搬出數(shù)據(jù),才能避免只看到明處的當下的得,而沒有看到未來的失。而在需要說服別人去做出取舍時,也需用可視化的數(shù)據(jù)來量化損益。
第三幅圖說的是隨機。數(shù)據(jù)思維不試圖追根究底問出具體的因果,而是承認隨機的力量,然后試圖通過重新類似的現(xiàn)象來預測未來。蒙特卡羅就是這樣一種計算方式,而有一類算法,則是基于隨機數(shù)的。隨機性的思維意味著接受不確定性,這方面有很多文章可以參考。例如 隨機生存的智慧無常世界的生存圣經(jīng) (上)無常世界的生存圣經(jīng) (下)。
***一張圖說的你可能會覺得是網(wǎng)絡(luò)。但這里的關(guān)鍵詞是結(jié)構(gòu)。不同的網(wǎng)絡(luò)有著相同的結(jié)構(gòu),這是可以在不同領(lǐng)域跨界的基礎(chǔ)。結(jié)構(gòu)的改變往往關(guān)聯(lián)著物理上說的相變。識別不同的結(jié)構(gòu),在數(shù)據(jù)科學里是找到“隱變量”,是通過調(diào)節(jié)網(wǎng)絡(luò)的連接方式來在進行深度學習。而了解一個網(wǎng)絡(luò)的***方式,也是按結(jié)構(gòu)對其分類。上圖的6種網(wǎng)絡(luò)結(jié)構(gòu),每一種會對應不同的行為規(guī)律,看清楚了網(wǎng)絡(luò)的結(jié)構(gòu)的變化,就能找到變化的拐點何時到來。
***再說一遍,一個拋磚引玉的起點,歡迎大家在留言區(qū)討論。而在鐵哥的書中,會對這個話題給出進一步的探討。