自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)科學(xué)中的強(qiáng)大思維

大數(shù)據(jù) 機(jī)器學(xué)習(xí)
如果你參加過(guò)統(tǒng)計(jì)學(xué)入門課程,就會(huì)知道數(shù)據(jù)點(diǎn)可以用來(lái)激發(fā)靈感,也可以用來(lái)測(cè)試?yán)碚摚珒烧邊s不能兼顧,這是為什么呢?

如果你參加過(guò)統(tǒng)計(jì)學(xué)入門課程,就會(huì)知道數(shù)據(jù)點(diǎn)可以用來(lái)激發(fā)靈感,也可以用來(lái)測(cè)試?yán)碚摚珒烧邊s不能兼顧,這是為什么呢? 

[[274975]]

圖1

人類擅長(zhǎng)在所有的事物中尋找對(duì)應(yīng)的模式。 真模式,假模式,命名的模式。 我們是那種能在薯片上找到貓王的臉的生物。 如果你傾向于將模式與洞察力等同起來(lái),請(qǐng)記住有三種數(shù)據(jù)模式:

  1. 存在于你的數(shù)據(jù)集中和數(shù)據(jù)之外的模式/事實(shí)
  2. 僅存在于數(shù)據(jù)集中的模式/事實(shí)
  3. 只存在于你想象中的模式/事實(shí) 

數(shù)據(jù)科學(xué)中的強(qiáng)大思維

圖2:A data pattern can exist (1) in the entire sample, or (3) only in xkcd

數(shù)據(jù)模式可以存在于(1)所有感興趣的人群中,(2)僅僅在樣本中,或者(3)只存在于你的頭腦中。

哪一種對(duì)你來(lái)說(shuō)更有用,取決于你的目標(biāo)是什么。

一、追求靈感

你追求的是純粹的靈感,那么它們都非常適用。即使是來(lái)自術(shù)語(yǔ)apophenia中的奇特的定義apopheny(人類有錯(cuò)誤地感知不相關(guān)事物之間的聯(lián)系和意義的傾向)也可以激發(fā)你(文章里面的稱呼統(tǒng)一一下,要么都你,要么都你吧)的創(chuàng)意。 創(chuàng)造力是沒(méi)有特定的答案的,所以你需要做的就是查看你的數(shù)據(jù),并享受它帶來(lái)的樂(lè)趣。 創(chuàng)造力是一種額外的收獲,盡量不要在這個(gè)過(guò)程中浪費(fèi)太多時(shí)間。

二、崇尚事實(shí)

政府想要向你征稅的時(shí)候,它一點(diǎn)也不關(guān)心你這一年除了財(cái)務(wù)數(shù)據(jù)之外的模式。 基于事實(shí)的決定是,通過(guò)你的欠債情況,分析去年的數(shù)據(jù)得出應(yīng)該采取的方法。它會(huì)基于事實(shí)對(duì)你所欠下的債務(wù)做出決定,而做出決定的方法就是分析去年的數(shù)據(jù)。換句話說(shuō),查看數(shù)據(jù)并使用公式進(jìn)行評(píng)估。你只需要對(duì)手頭的數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析。前面兩種模式都可以很好地做到這一點(diǎn)。

三、在不確定的情況下做出決策

騰訊視頻:統(tǒng)計(jì)思維-1-什么是統(tǒng)計(jì)數(shù)據(jù)

YouTube:https://youtu.be/OJt-k9h9pmk

有時(shí),理想和現(xiàn)實(shí)是有差距的,當(dāng)你不具備做決定所需要的全部信息時(shí),你就需要在不確定性中尋找方向,選擇一個(gè)合理的行動(dòng)方案。

這就是統(tǒng)計(jì)學(xué),它是一門會(huì)改變你在不確定情況下思維方式的科學(xué)。它的目的是能產(chǎn)生一個(gè)像icarus一樣的飛躍,突破你的知識(shí)局限,而不是遇到短板就突然結(jié)束。

這就是數(shù)據(jù)科學(xué)的核心挑戰(zhàn):如何應(yīng)對(duì)數(shù)據(jù)不足的情況。

在你離開一個(gè)斷崖式的障礙之前,你當(dāng)然會(huì)希望你在現(xiàn)實(shí)中可以運(yùn)用的模式是可以突破它的。換句話說(shuō),模式必須一般化才能真正有用。 

數(shù)據(jù)科學(xué)中的強(qiáng)大思維

圖3:Source: xkcd

在三種類型中,如果你是在不確定的情況下做出決策,那么只有第一種(可推廣的)模式是安全的。 不幸的是,你還會(huì)在數(shù)據(jù)中發(fā)現(xiàn)其他類型的模式,這也是數(shù)據(jù)科學(xué)的核心問(wèn)題: 如何應(yīng)對(duì)數(shù)據(jù)不足的情況。

四、泛化

如果你認(rèn)為從數(shù)據(jù)中提取無(wú)用的模式純粹是人類才會(huì)做出的事情,那就大錯(cuò)特錯(cuò)了!如果你不小心,機(jī)器也會(huì)自動(dòng)為你做出同樣的蠢事。

ML / AI的全部要點(diǎn)是對(duì)出現(xiàn)的新情況進(jìn)行正確的歸納。

機(jī)器學(xué)習(xí)是一種能做出,許多類似決策的方法,這些決策涉及在算法中查找數(shù)據(jù)中的模式,并使用這些模式對(duì)全新數(shù)據(jù)做出正確決策。 在ML / AI術(shù)語(yǔ)中,泛化是指這個(gè)模型能夠很好地處理以前從未見過(guò)的數(shù)據(jù)。 基于模式的方法如果只能在原來(lái)的數(shù)據(jù)上起作用,那又有什么用處呢?ML / AI的全部要點(diǎn)是對(duì)出現(xiàn)的新情況也能通用。 

數(shù)據(jù)科學(xué)中的強(qiáng)大思維

圖4

這就是為什么我們列表中的第一種模式是唯一適合機(jī)器學(xué)習(xí)的模式。它是信號(hào)的一部分,其余部分只是干擾信息(這些干擾只存在于舊數(shù)據(jù)中,分散了你對(duì)于可泛化模型的注意力)。

  • 信號(hào):存在于你的數(shù)據(jù)集中以及它之外的模式。
  • 噪聲:僅存在于數(shù)據(jù)集中的模式。

事實(shí)上,在機(jī)器學(xué)習(xí)中,“過(guò)擬合”指的是獲得一個(gè)處理原始干擾而不是新數(shù)據(jù)的解決方案。我們?cè)跈C(jī)器學(xué)習(xí)中所做的幾乎所有工作都是為了避免過(guò)度擬合。

五、尋找合適的模式

假設(shè)你(或你的機(jī)器)從數(shù)據(jù)中提取的模式超出了你的想象,那么它是哪種模式呢?它是存在于感興趣的對(duì)象(“信號(hào)”)中的真實(shí)現(xiàn)象,還是當(dāng)前數(shù)據(jù)集的特性(“噪聲”)。如何判斷在訪問(wèn)數(shù)據(jù)集時(shí)發(fā)現(xiàn)了哪種模式?

如果你已經(jīng)查看了所有可用的數(shù)據(jù),那么你就被困住了,無(wú)法判斷你的模式是否存在于其他地方。統(tǒng)計(jì)性假設(shè)檢驗(yàn)的分析手段取決于出現(xiàn)的意外情況,而對(duì)數(shù)據(jù)中已經(jīng)存在的模式可能會(huì)出現(xiàn)的意外進(jìn)行模擬,效果會(huì)差異性很大。 

[[274978]]

圖5

這有點(diǎn)像在云中看到兔子的形狀,然后使用相同的云測(cè)試所有的云是否都像兔子。我希望你們需要一些新的云來(lái)驗(yàn)證你們的理論。

  • 任何用來(lái)激發(fā)理論或問(wèn)題的數(shù)據(jù)點(diǎn)都不能用來(lái)測(cè)試同一理論
  • 在查看數(shù)據(jù)之前要先提出問(wèn)題
  • 數(shù)學(xué)從來(lái)都不是基本常識(shí)的反制

我們?cè)谶@里得到了一個(gè)結(jié)論。 如果你在尋求靈感的時(shí)候用光了你的數(shù)據(jù)集,你就不能再用它來(lái)嚴(yán)格測(cè)試它所帶來(lái)的理論(無(wú)論你多么充分的使用數(shù)學(xué),因?yàn)閿?shù)學(xué)絕不是基本常識(shí)的反制)。

六、進(jìn)行艱難的選擇

這意味著你必須進(jìn)行選擇! 如果你只有一個(gè)數(shù)據(jù)集,你就不得不問(wèn)自己:“我是否有認(rèn)真思索,設(shè)置了所有的統(tǒng)計(jì)性假設(shè)檢驗(yàn),然后仔細(xì)采取嚴(yán)格的方法,或者只是挖掘數(shù)據(jù)獲取了靈感。

這里的問(wèn)題是,你只有一個(gè)數(shù)據(jù)集,而你需要不止一個(gè)數(shù)據(jù)集。如果你有很多數(shù)據(jù),那么我會(huì)為你模擬一個(gè)黑客攻擊,擾亂你的思路。 

[[274979]]

圖6

七、奇特的技巧

要想在數(shù)據(jù)科學(xué)中勝出,只需通過(guò)拆分?jǐn)?shù)據(jù)將一個(gè)數(shù)據(jù)集轉(zhuǎn)換為(至少)兩個(gè)數(shù)據(jù)集。然后用一個(gè)獲取靈感,另一個(gè)用于嚴(yán)格的測(cè)試。如果最初啟發(fā)你的模式也存在于那些沒(méi)有機(jī)會(huì)影響你的觀點(diǎn)的數(shù)據(jù)中,那么這將是一個(gè)更有希望的選擇,這種模式就像是存在于貓砂里的東西,你要從中挖出你的數(shù)據(jù)。

如果相同的現(xiàn)象存在于兩個(gè)數(shù)據(jù)集中,也許這是一個(gè)普遍的現(xiàn)象,它也存在于這些數(shù)據(jù)集中的任何地方。

八、令人驚嘆

如果未經(jīng)審視的生活不值得過(guò)下去,那么以下四個(gè)詞就是生活的準(zhǔn)則:把該死的數(shù)據(jù)拆開。

如果每個(gè)人都能分享自己的數(shù)據(jù),世界會(huì)變得更好。我們會(huì)有更優(yōu)的答案(從統(tǒng)計(jì)學(xué))到更好的問(wèn)題(從分析學(xué))。人們不把數(shù)據(jù)分割作為一種強(qiáng)制性習(xí)慣的唯一原因是,在上個(gè)世紀(jì),它是一種奢侈的事情,很少有人能負(fù)擔(dān)得起;數(shù)據(jù)集非常小,如果你試圖拆分它們,那么可能就什么都沒(méi)有了。(在這里可以了解更多關(guān)于數(shù)據(jù)科學(xué)史的信息。) 

數(shù)據(jù)科學(xué)中的強(qiáng)大思維

圖7

將你的數(shù)據(jù)拆分為一個(gè)探索性數(shù)據(jù)集,每個(gè)人都可以挖掘靈感和測(cè)試數(shù)據(jù)集,以后專家可以使用這些數(shù)據(jù)集嚴(yán)格確認(rèn)在探索階段發(fā)現(xiàn)的任何“見解”。

如果你沒(méi)有拆分?jǐn)?shù)據(jù)的習(xí)慣,你可能會(huì)被困在20世紀(jì)。

如果你有大量的數(shù)據(jù),但是你看到的是未分割的數(shù)據(jù)集,那么你的瓶頸可能就是會(huì)受到老式視角的影響。每個(gè)人都習(xí)慣了陳舊的思維方式,卻忘記了與時(shí)俱進(jìn)。

九、機(jī)器學(xué)習(xí)是數(shù)據(jù)分裂的產(chǎn)物

說(shuō)到底,這里的想法很簡(jiǎn)單。使用一個(gè)數(shù)據(jù)集來(lái)形成一個(gè)理論,發(fā)號(hào)施令,然后開始執(zhí)行,證明你知道你在一個(gè)全新的數(shù)據(jù)集中談?wù)摰氖鞘裁础?/p>

為了更健康的數(shù)據(jù)文化,數(shù)據(jù)分割是最簡(jiǎn)單且快速解決方案。

這就是你如何在統(tǒng)計(jì)數(shù)據(jù)中保持安全,以及你如何避免因過(guò)度擬合ML / AI而被活活吃掉的方法。 事實(shí)上,機(jī)器學(xué)習(xí)的歷史就是數(shù)據(jù)分裂的歷史。

十、如何在數(shù)據(jù)科學(xué)中運(yùn)用最好的理念

為了利用數(shù)據(jù)科學(xué)中優(yōu)秀創(chuàng)意,雷鋒網(wǎng)認(rèn)為你所要做的就是確保將一些測(cè)試數(shù)據(jù)放在窺探者無(wú)法觸及的地方,然后對(duì)其余的數(shù)據(jù)進(jìn)行充分的分析。

要贏得數(shù)據(jù)科學(xué),只需通過(guò)拆分?jǐn)?shù)據(jù)將一個(gè)數(shù)據(jù)集轉(zhuǎn)換為(至少)兩個(gè)。

如果你認(rèn)為他們?yōu)槟闾峁┝顺鏊麄兯剿餍畔⒌目刹僮鞫床炝?,?qǐng)使用你的秘密測(cè)試數(shù)據(jù)來(lái)檢查他們的結(jié)論。 就這么簡(jiǎn)單!

小結(jié):數(shù)據(jù)科學(xué)需要強(qiáng)大的思維邏輯,與時(shí)俱進(jìn)的洞察力,還要能膽大心細(xì)摒棄一系列的干擾信息。即使是機(jī)器也并不能脫離人腦自行工作,還需要在理論與精準(zhǔn)模式的加持下不斷探索,這可真不是一項(xiàng)簡(jiǎn)單的工作。

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

 

責(zé)任編輯:未麗燕 來(lái)源: 雷鋒網(wǎng)
相關(guān)推薦

2020-08-30 16:29:12

數(shù)據(jù)科學(xué)團(tuán)隊(duì)數(shù)據(jù)團(tuán)隊(duì)CIO

2019-06-10 16:08:06

數(shù)據(jù)科學(xué)家數(shù)據(jù)驅(qū)動(dòng)原則

2019-03-07 13:57:39

數(shù)據(jù)科學(xué)家框架架構(gòu)

2016-12-22 23:27:49

數(shù)據(jù)數(shù)據(jù)科學(xué)家變量

2016-12-23 14:56:49

數(shù)據(jù)科學(xué)商業(yè)視角思維

2023-12-01 15:10:56

2022-04-28 10:29:38

數(shù)據(jù)數(shù)據(jù)收集

2016-12-29 15:31:13

機(jī)器學(xué)習(xí)計(jì)算數(shù)據(jù)

2019-02-14 14:47:39

大數(shù)據(jù)數(shù)據(jù)科學(xué)家企業(yè)

2017-12-13 10:08:26

大數(shù)據(jù)圖數(shù)據(jù)推理數(shù)據(jù)科學(xué)

2018-10-28 18:30:51

數(shù)據(jù)科學(xué)數(shù)據(jù)項(xiàng)目管理

2019-09-09 15:28:04

數(shù)據(jù)科學(xué)帕累托法則工具

2018-07-12 13:47:04

數(shù)據(jù)科學(xué)變量虛擬變量

2025-04-16 08:00:00

2021-02-27 09:28:09

數(shù)據(jù)科學(xué)數(shù)據(jù)

2023-10-08 07:40:29

2023-03-03 08:00:00

重采樣數(shù)據(jù)集

2021-05-07 05:54:43

數(shù)據(jù)庫(kù)數(shù)據(jù)湖數(shù)據(jù)

2012-08-06 15:59:17

MongoDB

2021-03-24 15:17:32

數(shù)據(jù)管理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)