面板數(shù)據(jù)分析中標(biāo)準(zhǔn)誤的估計(jì)修正
眾所周知,在進(jìn)行標(biāo)準(zhǔn)二乘線性無偏估計(jì)的時(shí)候,我們假設(shè)殘差項(xiàng)是獨(dú)立同分布的(independent and identically distributed, i.i.d.)。而一旦此假設(shè)在實(shí)際數(shù)據(jù)中被打破,則估計(jì)就會(huì)出現(xiàn)偏誤( bias )。Peterson指出,在過去的很多實(shí)證金融文獻(xiàn)中,很多研究者實(shí)際上并沒有正確地選擇合適的方法,根據(jù)殘差項(xiàng)與時(shí)間或者企業(yè)的相關(guān)性來修正標(biāo)準(zhǔn)誤,或者它們只是盲目地跟從在他們之前其他文獻(xiàn)中的方法來修正偏誤,而事實(shí)上這可能完全是互相誤導(dǎo)。錯(cuò)誤的標(biāo)準(zhǔn)誤會(huì)導(dǎo)致在判斷變量顯著性的時(shí)候給出不可靠甚至錯(cuò)誤的結(jié)論,從而使得研究的可信度大打折扣。Peterson在文章當(dāng)中對(duì)不同的面板數(shù)據(jù)結(jié)構(gòu)所應(yīng)采用的標(biāo)準(zhǔn)誤估計(jì)方法做出了考察和比較。
在下文中,我將延續(xù)Peterson的文章思路,針對(duì)不同面板數(shù)據(jù)的結(jié)構(gòu)進(jìn)行總結(jié)與歸納。為編輯方便以及提高文章可讀性,我省略了數(shù)理推導(dǎo),而改用文字直接闡述邏輯及結(jié)論。
1. 只具有“企業(yè)固定效應(yīng)”(firm fixed effect)的面板數(shù)據(jù)
首先我們明確什么叫企業(yè)固定效應(yīng)。面板數(shù)據(jù)一般是二維的,具有時(shí)間和對(duì)象兩種要素。對(duì)象可以是個(gè)人、企業(yè)、國(guó)家等等。為了簡(jiǎn)化文義,我們將對(duì)象改稱為企業(yè),因?yàn)檫@也是金融實(shí)證數(shù)據(jù)中最為常見的對(duì)象。企業(yè)固定效應(yīng)指的是,在面板數(shù)據(jù)的時(shí)間維度上,每一個(gè)個(gè)體企業(yè)都具有一個(gè)特有的特征能影響被解釋變量,而且這個(gè)特征會(huì)在整個(gè)時(shí)間維度上伴隨著這個(gè)企業(yè),并且獨(dú)立于其他企業(yè),換言之,不受其他企業(yè)影響。比如某個(gè)企業(yè)的管理能力是伴隨著這個(gè)企業(yè)的一個(gè)特征,它不受其他企業(yè)影響,并且在有限的時(shí)間維度內(nèi)可以假設(shè)不變。
Peterson指出,在這種情況下,OLS的標(biāo)準(zhǔn)誤會(huì)被低估,因?yàn)槊恳粋€(gè)額外觀測(cè)值所能提供的真實(shí)信息量要小于OLS模型所假設(shè)具有的信息量。在這種情況下,研究者應(yīng)采用群集標(biāo)準(zhǔn)誤(clustered standard errors),并且根據(jù)企業(yè)來群集。簡(jiǎn)單地講,企業(yè)群集標(biāo)準(zhǔn)誤把同一個(gè)企業(yè)的變量在不同的時(shí)間點(diǎn)可能存在的相關(guān)性考慮進(jìn)去了,從而提供一個(gè)修正了的標(biāo)準(zhǔn)誤。Peterson的論證指出,企業(yè)群集標(biāo)準(zhǔn)誤在處理具有企業(yè)固定效應(yīng)的面板數(shù)據(jù)中的有效性是突出且可靠的。
除此之外,采用其他方法來估計(jì)標(biāo)準(zhǔn)誤可能會(huì)有潛在的問題產(chǎn)生。比如,OLS估計(jì)的標(biāo)準(zhǔn)誤會(huì)是有偏的,至于偏誤多少,則取決于殘差和變量存在多大的相關(guān)性。又如,用Fama-MacBeth兩階段回歸的方法也會(huì)產(chǎn)生偏誤(標(biāo)準(zhǔn)誤被低估),而且因?yàn)镕-M方法的計(jì)算手段的關(guān)系,F(xiàn)-M會(huì)比OLS具有更大的偏誤。F-M的方法是被設(shè)計(jì)用于考慮橫截面相關(guān)的(在同一時(shí)點(diǎn)上不同觀測(cè)對(duì)象之間的相關(guān)性),而非序列相關(guān)(同一觀測(cè)對(duì)象在不同時(shí)點(diǎn)上的相關(guān)性),因此用在這里不合適。再如,用Newey-West的方法也會(huì)造成標(biāo)準(zhǔn)誤的低估。Newey-West的方法在于只考慮在同一群集內(nèi)滯后期的殘差之間的相關(guān)性,而***的滯后期是比面板數(shù)據(jù)所提供的時(shí)間維度小1。Peterson的實(shí)驗(yàn)發(fā)現(xiàn),隨著滯后期的上升,Newey-West的偏誤會(huì)逐漸減小,但因?yàn)?**滯后期的限制,其永遠(yuǎn)無法消除估計(jì)上的偏誤。
2. 只具有“時(shí)間效應(yīng)”(time effect)的面板數(shù)據(jù)
同樣的,先明確什么是時(shí)間效應(yīng)。簡(jiǎn)而言之,指的是在同一時(shí)點(diǎn)上的不同企業(yè)的變量之間存在著相關(guān)性。這可能由比如宏觀經(jīng)濟(jì)狀況等某種外部因素所導(dǎo)致的,而這種因素會(huì)影響同一時(shí)點(diǎn)上的所有企業(yè),但在跨時(shí)期中會(huì)出現(xiàn)獨(dú)立變化。
Peterson發(fā)現(xiàn),當(dāng)面板數(shù)據(jù)存在時(shí)間效應(yīng)時(shí),普通最小二乘估計(jì)依然會(huì)低估標(biāo)準(zhǔn)誤。而根據(jù)時(shí)間來群集的群集標(biāo)準(zhǔn)誤則可以提供相對(duì)準(zhǔn)確的估計(jì),但這只局限于當(dāng)時(shí)間維度(即面板數(shù)據(jù)可提供的時(shí)點(diǎn)數(shù))很大的時(shí)候。比如,當(dāng)數(shù)據(jù)中只有很少的幾個(gè)年份的時(shí)候,群集標(biāo)準(zhǔn)誤也顯得不夠準(zhǔn)確。
Peterson指出,在這種僅有時(shí)間效應(yīng)的情況下,最理想的方法應(yīng)當(dāng)是采用Fama-MacBeth兩階段回歸法來估計(jì)標(biāo)準(zhǔn)誤。簡(jiǎn)而言之,先對(duì)每一個(gè)企業(yè)的時(shí)間序列進(jìn)行回歸,得到beta系數(shù)后,再將beta系數(shù)作為已知變量再進(jìn)行橫截面數(shù)據(jù)的回歸。這種方法的要義在于,通過***步來得到每個(gè)企業(yè)受各個(gè)變量影響而導(dǎo)致的超額收益,而其中還有一部分沒有觀測(cè)到的影響因素則受時(shí)間變化而變化,因此在第二步的回歸中,對(duì)同一時(shí)點(diǎn)上的所有企業(yè)做橫截面數(shù)據(jù)回歸,從而找出這些因素的影響,而這就是時(shí)間效應(yīng)之所在。
3. 同時(shí)具有“企業(yè)效應(yīng)”和“時(shí)間效應(yīng)”的面板數(shù)據(jù)
根據(jù)前文所述,如果研究者有足夠的把握選取某一種方法(群集標(biāo)準(zhǔn)誤或者F-M法)來估計(jì)標(biāo)準(zhǔn)誤,她必須要保證面板數(shù)據(jù)只存在企業(yè)效應(yīng)或者時(shí)間效應(yīng),而非同時(shí)存在兩種效應(yīng)。但往往這是一種太過于理想化的假設(shè)。
Peterson指出,一種最通常的方法是:對(duì)某一個(gè)維度使用虛擬變量(dummy variable),然后使用另一維度的群集標(biāo)準(zhǔn)誤。一般在研究中比較常見的是,對(duì)時(shí)間取虛擬變量,然后做企業(yè)的群集標(biāo)準(zhǔn)誤,因?yàn)橐话愕拿姘鍞?shù)據(jù)都具有許多個(gè)企業(yè),但未必有足夠多的時(shí)間點(diǎn)用來做時(shí)間群集標(biāo)準(zhǔn)誤。
再者,也可以在兩個(gè)維度上做群集,只要每個(gè)維度的數(shù)量足夠多。在這種方法上,Thompson(2006)提出了一種簡(jiǎn)便的算法,即:
V_{firmtime}=V_{firm}+V_{time}-V_{white}
二維標(biāo)準(zhǔn)誤 = 企業(yè)群集標(biāo)準(zhǔn)誤 + 時(shí)間群集標(biāo)準(zhǔn)誤 – 穩(wěn)健標(biāo)準(zhǔn)誤
其中穩(wěn)健標(biāo)準(zhǔn)誤即為懷特標(biāo)準(zhǔn)誤(White standard errors),也是在處理異方差時(shí)最常用的穩(wěn)健標(biāo)準(zhǔn)誤。
4. 結(jié)語
以上是面板數(shù)據(jù)中最基本的幾種效應(yīng)的處理方法,但在實(shí)證中,有些情況會(huì)比較復(fù)雜。比如Peterson提到,有些時(shí)候企業(yè)效應(yīng)是暫時(shí)性的,即隨著時(shí)間的推延,某些影響因素會(huì)漸漸消退。廣義線性估計(jì)(GLS)可以比較有效地估計(jì)隨機(jī)效應(yīng)模型,但是如果殘差間的相關(guān)性隨著時(shí)間變化而消退,那么GLS的估計(jì)可能也是有偏的。對(duì)此,Peterson提出使用調(diào)整了的F-M方法來進(jìn)行處理,但前提是殘差間相關(guān)性的消退應(yīng)比較迅速,并且面板數(shù)據(jù)的時(shí)間維度要足夠充足。
此外在實(shí)證研究中,研究者還可以對(duì)使用不同群集所產(chǎn)生的標(biāo)準(zhǔn)誤的估計(jì)進(jìn)行簡(jiǎn)單的比較,從而判斷出數(shù)據(jù)中主要的效應(yīng)是在哪個(gè)維度上,然后再采用合適的方法對(duì)其進(jìn)行修正處理。
參考文獻(xiàn):
Peterson在其個(gè)人網(wǎng)站上提供了在Stata及SAS中獲得文中提到的各種標(biāo)準(zhǔn)誤估計(jì)的代碼:Programming Advice
36大數(shù)據(jù)知識(shí)圖譜:
面板數(shù)據(jù),即Panel Data,也叫“平行數(shù)據(jù)”,是指在時(shí)間序列上取多個(gè)截面,在這些截面上同時(shí)選取樣本觀測(cè)值所構(gòu)成的樣本數(shù)據(jù)。
其有時(shí)間序列和截面兩個(gè)維度,當(dāng)這類數(shù)據(jù)按兩個(gè)維度排列時(shí),是排在一個(gè)平面上,與只有一個(gè)維度的數(shù)據(jù)排在一條線上有著明顯的不同,整個(gè)表格像是一個(gè)面板,所以把panel data譯作“面板數(shù)據(jù)”。但是,如果從其內(nèi)在含義上講,把panel data譯為“時(shí)間序列—截面數(shù)據(jù)” 更能揭示這類數(shù)據(jù)的本質(zhì)上的特點(diǎn)。也有譯作“平行數(shù)據(jù)”或“TS-CS數(shù)據(jù)(Time Series – Cross Section)”。