自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Google科學(xué)家最新整理,給新手推薦的十篇優(yōu)秀數(shù)據(jù)科學(xué)文章

大數(shù)據(jù)
作為數(shù)據(jù)科學(xué)的初學(xué)者,一些好的文章能夠快速帶我們?nèi)腴T這一充滿了未知和挑戰(zhàn)的領(lǐng)域。近日,google 決策智庫的主管 Cassie Kozyrkov 整理了十篇給學(xué)生們的優(yōu)秀文章。下面這些文章幾乎都來自于相同的博客。讓我們來看看是哪些文章吧~

作為數(shù)據(jù)科學(xué)的初學(xué)者,一些好的文章能夠快速帶我們?nèi)腴T這一充滿了未知和挑戰(zhàn)的領(lǐng)域。近日,google 決策智庫的主管 Cassie Kozyrkov 整理了十篇給學(xué)生們的優(yōu)秀文章。下面這些文章幾乎都來自于相同的博客。讓我們來看看是哪些文章吧~

#1 理解數(shù)據(jù)

文章地址:

如果你從網(wǎng)上購買數(shù)據(jù)集開始你的學(xué)習(xí)旅程,你就有可能忘記它們從何而來。 

Google 科學(xué)家<span><span><span><i style=最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章" src="https://s2.51cto.com/oss/201908/20/673d3b11763ec8641106956d988b7195.jpeg" _fcksavedurl="https://s2.51cto.com/oss/201908/20/673d3b11763ec8641106956d988b7195.jpeg" _fcksavedurl="https://s2.51cto.com/oss/201908/20/673d3b11763ec8641106956d988b7195.jpeg" width="640" height="324">

上面這張照片就是數(shù)據(jù),它被存儲為信息,你的設(shè)備用這些數(shù)據(jù)來顯示漂亮的顏色。

我們有無限的選擇去關(guān)注和記住什么。這是我看食物時看到的東西: 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

如何表示這些并沒有一個普遍的規(guī)律,食物的重量單位是克,是最好注意的。我們可以選擇數(shù)量、價格、原產(chǎn)國或其他適合我們要求的商品。

如果你閉上眼睛,你還記得剛才看到的每一個細節(jié)嗎?我反正不記得了。這就是我們收集數(shù)據(jù)的原因。如果我們能在頭腦中很好地記憶和處理它,就沒有必要了。

當(dāng)我們分析數(shù)據(jù)時,我們正在訪問別人的記憶。

雖然,用手在紙上打草稿也可以,但是當(dāng)數(shù)據(jù)量很大的時候,我們最好還是用電腦吧。

我們可以用 excel 處理很多數(shù)據(jù)。 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

當(dāng)然,你還可以選擇 python。

為了加速你的訓(xùn)練,不要只是粘貼魔法單詞-嘗試改變它們,看看會發(fā)生什么。例如,如果您在上面的代碼片段中將「真」變?yōu)椤讣佟梗瑫l(fā)生什么變化?

編程是魔法和樂高之間的交叉點。如果你希望自己能變魔術(shù),那就學(xué)著寫代碼吧。

簡而言之,這是一個程序設(shè)計:詢問互聯(lián)網(wǎng)如何做一些事情,用你剛學(xué)過的神奇單詞,看看當(dāng)你調(diào)整它們時會發(fā)生什么,然后把它們像樂高積木一樣放在一起來完成你的出價。

我們需要進行分析和總結(jié)。為此,你還需要了解很多數(shù)學(xué)知識,如中位數(shù)、眾數(shù)等。這些知識被稱為統(tǒng)計學(xué)。 

[[274202]]

你還需要學(xué)習(xí)繪圖和可視化。通常,直方圖和條形圖被使用的比較多。 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

數(shù)據(jù)沒有什么神奇之處,它只是在記錄上比大腦更可靠。一些信息是有用的,有些是誤導(dǎo)性的。我們都是數(shù)據(jù)分析師,一直都是。

#2 向孩子(或你的老板)解釋監(jiān)督學(xué)習(xí)

文章地址:

既然你知道什么是機器學(xué)習(xí),讓我們來看看最簡單的那種。我的目標是讓所有人(幾乎)所有年齡段的人都能適應(yīng)它的基本術(shù)語:實例、標簽、特性、模型、算法和有監(jiān)督的學(xué)習(xí)。

實例

看下面四個例子! 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

實例也稱為「示例」或「觀察」。

數(shù)據(jù)表

當(dāng)我們把這些例子放在一張表格上時,它們是什么樣子的?每一行都是一個例子。 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

這次我們很幸運,每個實例都有一個標簽。

標簽

標簽是正確的答案。這就是我們希望計算機在顯示像這樣的照片時學(xué)會輸出的東西,這就是為什么有些人喜歡使用「目標」、「輸出」或「響應(yīng)」這個詞的原因。

特征

其他列有什么?像素顏色。與你不同的是,電腦看到的圖像都是數(shù)字,而不是漂亮的妹子。你看到的是紅綠藍這三種顏色。不相信?嘗試將「我的數(shù)據(jù)表」中的值輸入到這個 RGB 顏色控制盤中,看看它給你顯示什么顏色。想知道如何從照片中獲取像素值嗎?看看這個代碼。 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

你知道什么很酷嗎?每次你看一張數(shù)碼照片,你分析數(shù)據(jù),弄清楚存儲在一堆數(shù)字中的東西。不管你是誰,你已經(jīng)是一個數(shù)據(jù)分析師了!

模型與算法

我們的特征將構(gòu)成模型的基礎(chǔ),計算機將使用它們把像素顏色變成標簽。

模型只是「配方」的一個花哨的詞。

具體如何做?這就是機器學(xué)習(xí)算法的工作。

監(jiān)督學(xué)習(xí) 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

我想讓你成為我的機器學(xué)習(xí)系統(tǒng)。使用你的大腦,再看一眼實例,做一些學(xué)習(xí),你覺得這是什么?

使用你從上面的示例中學(xué)習(xí)到的內(nèi)容對該圖像進行分類。 

[[274205]]

「金發(fā)」?是的。你明白了!你剛才做的是監(jiān)督學(xué)習(xí),太棒了!你現(xiàn)在經(jīng)歷了最簡單的學(xué)習(xí)方式。如果你能把你的問題定義為有監(jiān)督的學(xué)習(xí),那是個好主意。其它的更難……所以我們需要使用無監(jiān)督學(xué)習(xí)。

總結(jié):如果算法在每個實例中都有正確的標簽,那么這將是有監(jiān)督的學(xué)習(xí)。稍后,它將使用模型或配方來標記新實例,就像你所做的那樣。

#3 無監(jiān)督學(xué)習(xí)

文章地址:https://hackernoon.com/unsupervised-learning-demystified-4060eecedeaf?source=post_page-----3bae97d9bb23----------------------

無監(jiān)督學(xué)習(xí)聽起來像是一種奇特的表達方式,「讓孩子們自己學(xué)習(xí),不要觸摸熱烤箱」,但它實際上是一種從你的數(shù)據(jù)中挖掘靈感和模式的技術(shù)。

 

[[274206]]

什么是無監(jiān)督學(xué)習(xí)?

 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

你的任務(wù)是把這六張圖片分成兩組。查看上面的六個實例,缺少了什么?顯然,這些照片沒有標簽。不用擔(dān)心,你的大腦很擅長無監(jiān)督學(xué)習(xí),想想你如何將這些圖片分成兩組,讓我們試試看。

聚類數(shù)據(jù)

在實況課堂上,谷歌用戶會大聲回答「坐著還是站著」、「能看到木地板還是不能看到」、「貓自拍還是不貓自拍」等等,讓我們檢查一下第一個答案。

 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

將圖像分成兩組的一種方法是:坐著和站著。好吧,「坐」對「站」。

無監(jiān)督學(xué)習(xí)的秘密標簽

如果你認為「坐著還是站著」是標簽,那就再想想吧!這就是您用來創(chuàng)建集群的方法(模型)。在無監(jiān)督的學(xué)習(xí)中,標簽更為乏味:比如「第 1 組和第 2 組」或「A 或 B」或「0 或 1」。它們只是表示群體成員,沒有額外的人類可解釋(或詩意)的含義。 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

無監(jiān)督學(xué)習(xí)的標簽只表示集群成員。他們沒有更高的人類可解釋的意義,可能會感到令人失望的無聊。

這里所發(fā)生的一切就是算法通過相似性對事物進行分組。相似性度量是由算法的選擇來指定的,但是為什么不盡可能多地嘗試呢?畢竟,你不知道自己在找什么。

經(jīng)驗教訓(xùn):

  • 把無監(jiān)督學(xué)習(xí)看作是「物以類聚」的數(shù)學(xué)版本。
  • 結(jié)果就像一張卡羅牌,幫助你實現(xiàn)夢想。任何事情都有可能發(fā)生,把這個過程當(dāng)做一次冒險,并努力享受吧!

總結(jié):無監(jiān)督學(xué)習(xí)通過將相似的東西分組在一起,幫助你從數(shù)據(jù)中找到靈感。定義相似度有很多不同的方法,所以繼續(xù)嘗試算法和設(shè)置,直到一個很酷的模式吸引你的眼球。

#4 數(shù)據(jù)科學(xué)簡史

文章地址:

在 19 世紀,醫(yī)生可能給情緒波動開含有汞的處方,給哮喘開含有砷的處方。他們可能不會在你手術(shù)前洗手。他們不是想殺害你,只是不知道這樣做更好。

這些早期的醫(yī)生在他們的筆記本上記錄著有價值的數(shù)據(jù),但就像一個巨大的拼圖游戲,每個人都只拿了一小塊。如果沒有共享和分析信息的現(xiàn)代工具以及理解這些數(shù)據(jù)的科學(xué),那么就沒有多少東西可以阻止迷信通過可觀察到的表面事實來進行判斷的方法。

從那時起,人類在技術(shù)上取得了長足的進步,但今天機器學(xué)習(xí)(ML)和人工智能(AI)的蓬勃發(fā)展并沒有真正打破過去的局面。

后來,人們發(fā)明了第一個數(shù)據(jù)存儲和共享技術(shù)。存儲數(shù)據(jù)集的能力代表了通往更高智能道路上突破性的第一步。

不幸的是,獲取信息是一件痛苦的事情。你必須把每一個單詞上傳到你的大腦來處理它。這使得早期的數(shù)據(jù)分析非常耗時,因此最初的研究一直止步不前。

幸運的是,有一些令人難以置信的先驅(qū)。例如,JohnSnow 在 1858 年倫敦霍亂爆發(fā)期間繪制的死亡地圖,激發(fā)了醫(yī)學(xué)界重新考慮了這種疾病是由毒氣引起的迷信,并開始仔細觀察飲用水。「拿著燈的女士」,弗洛倫斯南丁格爾在克里米亞戰(zhàn)爭期間創(chuàng)造性的用信息圖表分析出醫(yī)院死亡的主要原因,挽救了許多人的生命。

數(shù)據(jù)的美妙之處在于它能讓你從中形成一種觀點。通過查看信息,你會受到啟發(fā)提出新的問題,。這就是分析學(xué)科所要做的:通過探索來激勵模型和假設(shè)。

從數(shù)據(jù)集到數(shù)據(jù)分割

在 20 世紀初,在不確定的情況下做出更好決定的愿望導(dǎo)致了一個平行的職業(yè)的誕生:統(tǒng)計學(xué)。

分析和統(tǒng)計有一個主要的弱點:如果你在假設(shè)生成和假設(shè)測試中使用相同的數(shù)據(jù)點,那你就是在作弊。統(tǒng)計的嚴謹性要求你在采取行動之前先做出決定;分析更像是一場事后諸葛亮的游戲。他們幾乎是悲劇性的不相容,直到下一次重大革命,數(shù)據(jù)分割改變了一切。

數(shù)據(jù)分割是一個簡單的想法,但對于像我這樣的數(shù)據(jù)科學(xué)家來說,這是最深刻的想法之一。

后來,機器學(xué)習(xí)出現(xiàn)了。

使用數(shù)據(jù)集會破壞其作為統(tǒng)計嚴格性來源的純度。如果你有第三個數(shù)據(jù)集,你可以用它來獲得靈感。這個篩選過程被稱為驗證,它是機器學(xué)習(xí)的核心。

一旦你可以把所有的東西都扔到一起上,你就可以讓每個人都有機會想出一個解決方案:經(jīng)驗豐富的分析師、實習(xí)生、茶葉,甚至算法,而不必考慮你的業(yè)務(wù)問題。無論哪種解決方案在驗證中效果最好,都將成為適當(dāng)統(tǒng)計測試的候選者。你只是讓自己自動激發(fā)靈感!這就是為什么機器學(xué)習(xí)是數(shù)據(jù)集的革命,而不僅僅是數(shù)據(jù)。

用深度神經(jīng)網(wǎng)絡(luò)進行機器學(xué)習(xí)在技術(shù)上被稱為深度學(xué)習(xí),但它還有一個綽號:人工智能。雖然人工智能曾經(jīng)有不同的含義,但今天你很可能會發(fā)現(xiàn)它被用作深度學(xué)習(xí)的同義詞。

深度神經(jīng)網(wǎng)絡(luò)由于在許多復(fù)雜的任務(wù)上比不太復(fù)雜的 ML 算法更容易分類,因此贏得了他們的贊譽。但它們需要更多的數(shù)據(jù)來訓(xùn)練它們,并且處理要求超過了典型的筆記本電腦。

#5 機器學(xué)習(xí)——皇帝的新衣?

文章地址:

[[274210]]

機器學(xué)習(xí)使用數(shù)據(jù)中的模式來標記事物。聽起來很神奇?核心概念實際上非常簡單。如果有人讓你覺得這是神秘的,他們應(yīng)該感到尷尬。

核心概念非常簡單

我們的標簽例子將涉及到將茶分類為美味或不美味,所有的想法在數(shù)學(xué)或代碼所需技能上都超級簡單! 

[[274211]]

原理是什么

數(shù)據(jù)

讓我們想象一下,我品嘗了 50 杯茶,并將它們的信息直觀地呈現(xiàn)在下面。每一杯都有糖和釀造時間信息,Y 代表美味,N 代表不那么美味。

在我品嘗了這些茶并將它們的數(shù)據(jù)記錄在電子表格中之后(左圖),在右圖中我以更友好的格式展示了這些信息。 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

算法

通過選擇要使用的機器學(xué)習(xí)算法,我們將選擇我們將要得到的配方類型。機器學(xué)習(xí)算法的目的是選擇一個最合理的地方來在數(shù)據(jù)中設(shè)置一個圍欄。

如果你想畫一條線,祝賀你!你剛剛發(fā)明了一種機器學(xué)習(xí)算法,它的名字是……感知器。是啊,這么簡單的東西居然有這么一個科幻名字!請不要被機器學(xué)習(xí)中的行話嚇倒,它通常不應(yīng)該受到這個名字所激發(fā)的震驚和敬畏。 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

機器學(xué)習(xí)算法的目的是選擇最合理的位置來放置圍欄,它根據(jù)數(shù)據(jù)點到達的位置來決定這一點。它是怎么做到的?通過優(yōu)化目標函數(shù)。

優(yōu)化

目標函數(shù)(損失函數(shù))類似于棋盤游戲的點系統(tǒng)。目標函數(shù)就像一個棋盤游戲的得分規(guī)則,優(yōu)化就是找出如何玩,這樣你就可以獲得最好的分數(shù)。 

[[274213]]

ML 中的目標函數(shù)傾向于稱為「損失函數(shù)」,目標是最小化損失。

損失函數(shù)就像一個棋盤游戲的得分規(guī)則,優(yōu)化它就是找出如何玩,這樣你就可以得到最好的分數(shù)。

你希望得到的解決方案是這樣的: 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

模型

一旦圍欄就位,算法就完成了,你從中得到的就是你想要的——一個模型,它只是配方的一個花哨的詞。 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

標簽

一旦你把你剛鑄造的模型投入生產(chǎn),你就可以通過給計算機輸入年齡和分數(shù)來使用它。系統(tǒng)會查找對應(yīng)的區(qū)域并輸出標簽。

當(dāng)我得到四杯新茶時,我只需將它們的輸入數(shù)據(jù)模型進行匹配,并相應(yīng)地標記它們。看到了嗎?很簡單! 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

如果你期待魔法,那么,你越早失越好。機器學(xué)習(xí)可能是平淡無奇的,但你能用它做一些不可思議的事情!它可以幫助你編寫自己無法想到的代碼,能夠自動處理無法表達的代碼。不要因為簡單而討厭它。杠桿也很簡單,但它們可以翹起地球。 

[[274216]]

#6 一句話的推斷統(tǒng)計

文章地址:

20 世紀 20 年代的深刻見解催生了你今天遇到的大多數(shù)統(tǒng)計研究。

我們收集的證據(jù)使我們的無效假設(shè)看起來荒謬?不是開玩笑,這就是一切。經(jīng)典假設(shè)檢驗就是這樣。 

[[274217]]

這里來舉個例子:假設(shè)檢驗與外星人。

你剛剛被選入?yún)⒓咏K極冒險:尋找行星尋找外星生命。不幸的是,你的經(jīng)理給了你一個微不足道的用戶界面。它只有兩個按鈕:是和否。 

[[274218]]

這是整個控制面板。是表示這里有外星人,否表示這里沒有外星人,無法輸入評論。

更糟糕的是,你的經(jīng)理沒有給你預(yù)算去搜索整個星球。你所能做的就是著陸,選擇一個方向,開始行走直到你的氧氣供應(yīng)變得不穩(wěn)定,然后回頭按這兩個按鈕中的一個。你將面臨不確定性:你可能最終不知道真正的答案是什么。

在這個例子中,你需要進行收集數(shù)據(jù),統(tǒng)計、分析以解決問題。分析關(guān)注的是存在的情況,而統(tǒng)計關(guān)注的是不存在的情況。

我們在行走中沒有看到外星人,我們的無效假設(shè)是地球上沒有外星人。我們對這個大測試問題的答案是什么?證據(jù)會讓我們的無效看起來很荒謬嗎?怎么可能?樣本中沒有一個外星人。

現(xiàn)在想象一下,如果我們不是在路上看到外星人,而是看到這個綠色的小家伙。 

[[274219]]

假設(shè)那是外星人(而不是泡菜),我們學(xué)到了什么?如果我告訴你我觀察過這個外星人,我還在考慮這個星球上沒有外星人生命的可能性,你會告訴我你觀察過一個白癡。

這個證據(jù)讓我的無效假設(shè)看起來很荒謬!當(dāng)證據(jù)使假設(shè)看起來荒謬時,我們該怎么做?我們不應(yīng)該固執(zhí)己見。把它扔掉!

我們總是巧妙地設(shè)計我們的兩個假設(shè),使它們跨越所有的可能性,拒絕一個接受另一個。 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

如果我們的證據(jù)讓我們的回答是「是」,我們就拒絕這個荒謬的假設(shè),并作出有利于選擇的結(jié)論。我們現(xiàn)在對執(zhí)行默認操作感到可笑,所以我們切換到另一個操作并按 Yes。所以我們已經(jīng)從整體上了解了這個星球:它上面有生命!

總而言之,假設(shè)檢驗的游戲就是確定我們收集的證據(jù)是否會讓我們的無效假設(shè)看起來荒謬。一切都取決于我們?nèi)绾胃鶕?jù)證據(jù)改變主意。

#7 TensorFlow 死了,TensorFlow 萬歲!

文章地址:

歡迎使用TensorFlow 2.0,這是一場革命!

這是一次徹底的改頭換面。如果你是 2019 年年中的一個 TF 初學(xué)者,你就非常幸運了,因為你選擇了進入人工智能的最佳時間。

我懷疑很多人抱怨 TensorFlow 1.x 很容易讓人上癮。它是人工智能的溫床,而且非常人性化。充其量,你可能會為能夠以令人難以置信的規(guī)模完成你的人工智能任務(wù)而感到感激。

可愛的 Keras

Keras 是一種可與多個機器學(xué)習(xí)框架逐層構(gòu)建模型的規(guī)范,它不是 tf,但你可能知道它是從TensorFlow中作為 tf.keras 訪問的高級API。

Keras 從一開始就被建造成 python 使用,它一直以人為本,具有吸引力和靈活性,且簡單易學(xué)。

TensorFlow 已經(jīng)死了,TensorFlow 2.0 萬歲!

TensorFlow 現(xiàn)在很可愛,這是一個游戲規(guī)則的改變者,因為它意味著我們這個時代最有力的工具之一剛剛擺脫了大部分人使用的障礙。來自各行各業(yè)的技術(shù)愛好者最終都有權(quán)加入進來,新版本使研究人員和其他積極性很高的人能夠接觸到他們。

在 TensorFlow 2.0 中,現(xiàn)在默認情況下是預(yù)先執(zhí)行。你甚至可以在上下文中利用圖形,這使得調(diào)試和原型設(shè)計變得容易,而 TensorFlow 運行時則負責(zé)性能和擴展。

視頻地址:

這是人工智能偉大的一步!升級到新版本是一項艱苦的工作。如果你即將開始將代碼庫遷移到 2.0,那么你并不孤單——接下來在 Google 上將會有遷移指南,歡迎關(guān)注。

#8 統(tǒng)計學(xué)家證明統(tǒng)計數(shù)據(jù)很無聊

文章地址: 

[[274220]]

這位統(tǒng)計學(xué)家即將證明統(tǒng)計數(shù)據(jù)很無聊。

人口

當(dāng)你想到「人口」這個詞時會想到什么?人,對吧?在我們的訓(xùn)練中,它更像所有的事情。一個群體可以是人、像素、南瓜,或者任何你喜歡的東西。

下面圖片中的樹是我們這篇文章感興趣的讀者群。 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

因為這是我的人口,我的發(fā)現(xiàn)充其量也適用于這些樹。

這里有你看不到的樹嗎?你死定了,無聊,它不是我們?nèi)丝诘囊徊糠帧L粢豢脴?你也死定了,一樣的無聊。

樣本

樣本是你擁有的數(shù)據(jù),總體是你希望擁有的數(shù)據(jù)。 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

觀測

觀測是對一個樣本中的一個項目進行的測量。 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

統(tǒng)計

統(tǒng)計數(shù)據(jù)是一種將樣本數(shù)據(jù)拼湊起來的方法。

那么…什么是統(tǒng)計數(shù)據(jù)?這只是一種將我們現(xiàn)有的數(shù)據(jù)搞得一團糟的方法。真讓人失望!統(tǒng)計和統(tǒng)計的規(guī)律是不同的。 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

統(tǒng)計數(shù)據(jù)令人厭煩的證據(jù)

假設(shè)我們對平均樹高感興趣,這個樣本正好是 22.5 米。這個數(shù)字對我們有意義嗎?

讓我們回顧一下我們定下的規(guī)則:只有人口才有意義。這個樣本是人口嗎?不是!因此,我們不感興趣。我們從一些無聊的樹上做了一些無聊的測量,然后我們把這些無聊的測量搞得一團糟……從這個過程中產(chǎn)生的東西也很無聊。

所以我一直在向你們證明你們心里所知道的:統(tǒng)計數(shù)據(jù)很無聊!

當(dāng)然,你還要考慮參數(shù)、假設(shè)等等,進行估算。

你總是需要統(tǒng)計數(shù)據(jù)其實是一個謊言,實際上你不需要。如果你只是想做出最好的猜測來獲得靈感,分析是你最好的選擇。拋開這些 P 值,你不需要不必要的壓力。

相反,你可以選擇遵循以下原則:越多(相關(guān)的)數(shù)據(jù)就越好,你的直覺可以很好地做出最好的猜測,但你不知道這些猜測有多好……所以保持謙虛。

不過,別以為我在刻苦訓(xùn)練。我花了十多年的時間研究統(tǒng)計學(xué),我常常認為我不是完全瘋了。

采用統(tǒng)計方法是有用的,它是非常有用的。

你什么時候真正需要它? 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

#9 用小狗解釋 P 值

文章地址:

你可能聽到的對 P 值的解釋是這樣的:p值是觀察統(tǒng)計數(shù)據(jù)的概率,前提是假設(shè)為空。有點費解吧,讓我們用小狗來解釋它。 

[[274225]]

設(shè)置(犯罪)現(xiàn)場

你有一只小狗叫 fido,想象一下回到家,你在廚房里發(fā)現(xiàn)了這個: 

[[274226]]

讓我們開始審判這個把頭伸進垃圾桶的嫌疑犯吧!

我們定下一個規(guī)則,即不要對 fido 大喊大叫,而相應(yīng)的無效假設(shè)「fido 是無辜的」。如果你對這些概念還是不確定如何建立假設(shè),請閱讀本文。 

Google 科學(xué)家最新整理,給新手推薦的十篇最佳數(shù)據(jù)科學(xué)文章

描述空假設(shè)世界

計算 p 值的第一步是深呼吸,然后說,「好吧,fido,我會認為你是無辜的?!?/p>

我們在這里所做的是可視化空假設(shè)世界,并弄清楚事情在那里是如何工作的,這樣我們就可以為它制作一個玩具模型。這就是計算的全部內(nèi)容。

這個證據(jù)讓你吃驚嗎?

如果 fido 現(xiàn)在不去追垃圾,你會剛剛為它想好了完美的無罪理由。

「如果 fido 是無辜的,這個證據(jù)會有多奇怪?」

現(xiàn)在是時候問一個大問題了:這個世界有多大可能會像我們在現(xiàn)實生活中看到的那樣,至少會看到一些該死的證據(jù)?

當(dāng)你用數(shù)字回答這個可能性時,這個數(shù)字就是 P 值本身! 

[[274227]]

P 值不能證明任何東西,這只是一種利用概率作為做出合理決定的基礎(chǔ)的方法。

很可能你得出了錯誤的結(jié)論,不確定性就是一個混蛋。在為時已晚之前,你不會知道你是否正確。這就是生活。我們只能在一個不確定的世界里努力做到最好。P 值只是一種使用概率作為做出合理決策的基礎(chǔ)的方法。如果你開始期待它為你做些別的事情,你將受到互聯(lián)網(wǎng)對 P 值濫用者的所有嘲笑。

P 值越高,我對堅持我計劃的行動的感覺就越堅定。如果 P 值足夠低,我會改變主意,做點別的。

#10 什么是決策智能?

文章地址:

很想知道在大草原上避免遇到獅子的心理活動與人工智能領(lǐng)導(dǎo)和設(shè)計數(shù)據(jù)倉庫的挑戰(zhàn)有什么共同之處?歡迎了解決策智能! 

[[274228]]

決策智能是一門涉及各個方面選擇的新學(xué)科。它將應(yīng)用數(shù)據(jù)科學(xué)、社會科學(xué)和管理科學(xué)匯集到一個統(tǒng)一的領(lǐng)域,幫助人們使用數(shù)據(jù)改善他們的生活、業(yè)務(wù)和周圍的世界。它是人工智能時代的一門重要科學(xué),涵蓋負責(zé)領(lǐng)導(dǎo)人工智能項目所需的技能。

決策智能是將信息在任何程度上轉(zhuǎn)化為更好的行動的學(xué)科。

我們將「決策」一詞定義為任何實體在選擇方案之間做出的任何選擇。正是通過我們的決定——我們的行動——我們影響了我們周圍的世界。 

[[274229]]

決策智能分類

學(xué)習(xí)決策智能的一種方法是沿著傳統(tǒng)路線將其分為定量方面(主要與應(yīng)用數(shù)據(jù)科學(xué)重疊)和定性方面(主要由社會科學(xué)和管理科學(xué)的研究人員開發(fā))。

定性方面:決策科學(xué)

構(gòu)成定性方面的學(xué)科傳統(tǒng)上被稱為決策科學(xué)。 

[[274230]]

決策科學(xué)關(guān)注的問題包括:你應(yīng)該如何設(shè)置決策標準和設(shè)計指標、你選擇的指標激勵是否兼容(經(jīng)濟學(xué))?情緒、啟發(fā)式和偏見如何影響決策(心理學(xué))、在團隊環(huán)境下做決策時,你如何優(yōu)化結(jié)果(實驗博弈論)?......

還有很多!這遠不是完整的相關(guān)學(xué)科列表。

把決策科學(xué)的一方看作是以更模糊的存儲形式(人腦)處理決策,而不是在紙上或電子上整齊地記錄下來。

基于純粹數(shù)學(xué)理性的策略,沒有對決策和人類行為的定性理解,相對于那些基于對定量和定性方面的共同掌握的策略,它們相對來說是幼稚的,而且往往表現(xiàn)不佳。人類不是優(yōu)化器,我們是「滿足者」。

定量方面:數(shù)據(jù)科學(xué)

當(dāng)你已經(jīng)下了決定,并且使用搜索引擎或分析師(為你扮演人類搜索引擎的角色)查找所有需要的事實時,剩下的就是執(zhí)行你的決定,不需要花哨的數(shù)據(jù)科學(xué)。

但如果,在所有工作之后,交付的事實不是你理想的決策所需事實呢?如果它們只是部分事實呢?也許你想要明天的事實,但你只能拿到過去的事實。那你就是在處理不確定性!你知道的不是你希望知道的。這個時候就需要數(shù)據(jù)科學(xué)了。

  • 你可以利用部分事實,通過統(tǒng)計推斷做出一個重要的預(yù)先設(shè)定的決定,補充你所掌握的信息和假設(shè),看看你是否應(yīng)該改變你的行動。
  • 你可以利用部分事實,合理地將決定更改得更為明智。
  • 你的部分事實可能包含關(guān)于存在的事實,這意味著你可以事后利用它們來做出基于存在的決定。
  • 你可以使用部分事實來自動化大量決策。
  • 你可以利用部分事實來決定你如何處理未來的重要決策,這是分析。
  • ......

對于所有這些用途,都有一些方法可以將以前孤立的各種信息中的智慧整合起來,從而更有效地進行決策。這就是決策智能的全部意義!它匯集了不同的決策觀點,使我們所有人更加堅強,團結(jié)一致,并給他們一個新的聲音,擺脫了傳統(tǒng)的限制。

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

 

責(zé)任編輯:未麗燕 來源: 雷鋒網(wǎng)
相關(guān)推薦

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2012-12-06 15:36:55

CIO

2021-10-08 13:45:23

大數(shù)據(jù)數(shù)據(jù)科學(xué)家貨幣

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2018-05-03 09:11:51

數(shù)據(jù)科學(xué)家職業(yè)數(shù)據(jù)科學(xué)

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2019-07-30 11:47:29

數(shù)據(jù)科學(xué)云計算機器學(xué)習(xí)

2020-02-12 16:49:49

數(shù)據(jù)科學(xué)技能云計算

2023-03-20 15:07:00

數(shù)據(jù)科學(xué)家質(zhì)量保證

2018-10-16 14:37:34

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析數(shù)據(jù)科學(xué)

2012-06-12 09:33:59

2015-06-11 10:27:29

數(shù)據(jù)科學(xué)家

2016-04-11 14:15:06

數(shù)據(jù)科學(xué)數(shù)據(jù)挖掘工具

2020-03-20 14:40:48

數(shù)據(jù)科學(xué)Python學(xué)習(xí)

2015-08-25 13:20:29

數(shù)據(jù)科學(xué)

2023-07-22 13:24:36

分析模型

2018-01-09 15:51:05

數(shù)據(jù)科學(xué)大數(shù)據(jù)工程師

2020-07-06 09:57:57

編程語言數(shù)據(jù)Python

2022-11-03 14:13:24

騰訊科學(xué)家
點贊
收藏

51CTO技術(shù)棧公眾號