統(tǒng)計學家怎么看數(shù)據分析
在我研究生階段的統(tǒng)計學學習中,最重要的收獲并不是一些具體的統(tǒng)計測試或者取樣分析,而是一些不太正式的知識。這些知識在工作或者僅僅是娛樂的分析問題的時候給我?guī)Я朔浅V匾膸椭?/p>
一、注意細節(jié)
在大多數(shù)時候,這些細小的信息并不會對數(shù)據分析的結果產生重要的影響。一次課堂上,我的教授給我們用投影展示了一張圖表,那是一張散點圖并伴有一條流暢的適配線條。他問我們看到了什么。顯然,在開始這里有一個上升的趨勢。中間有一定下降,接下來又有一定反彈。但是我忽略了最開始的那個小波動,這就是我們不足的地方。
所以這里的關鍵就是:模式和趨勢是重要的,但是那些離群值、缺失點和一些異常也同樣重要。
二、看到全局
當然,在一個大數(shù)據集中抓住獨立的數(shù)據點或者細節(jié)不放也是不合適的。大局觀會讓你看到數(shù)據的整體趨勢,它會幫助你分析甚至預測數(shù)據的變化。
三、不要有預判
要盡可能客觀的觀察數(shù)據,當然這并不是說在看到一組數(shù)據之前一點期待也沒有,但是不要讓自己最初的預判影響了觀察的結果。因為如果你一開始就試圖尋找一些模式,那你可能會陷入這種模式中而犧牲掉準確的結果。
四、看到數(shù)據之外的東西
上下文,上下文和上下文,重要的事情要說三遍。這些關系有時可能來自于元數(shù)據中,有時可能來自于其他的數(shù)據集。
你需要更多的了解這個數(shù)據是如何被收集的,它從哪里來,如何發(fā)生,還有它發(fā)生在什么時候。獲得更多的信息你對于結果就會更有自信。
保持懷疑
***,這是我重要的收獲:始終保持懷疑。當你看到一個圖中的異常時,你應該好奇它為什么會出現(xiàn)在那里;如果你發(fā)現(xiàn)了一些相關關系,你應該思考它是否有一些意義。如果這些發(fā)現(xiàn)有意義,那很好,如果沒有那就需要繼續(xù)深入去發(fā)現(xiàn)。
數(shù)字包含著大量的信息,但需要記住的是,當人參與到數(shù)據當時,錯誤幾乎是不可避免的。






