基于空間大數(shù)據(jù)的社會(huì)感知
大數(shù)據(jù)時(shí)代產(chǎn)生了大量具有時(shí)空標(biāo)記、能夠描述個(gè)體行為的空間大數(shù)據(jù),如手機(jī)數(shù)據(jù)、出租車數(shù)據(jù)、社交媒體數(shù)據(jù)等。這些數(shù)據(jù)為人們進(jìn)一步定量理解社會(huì)經(jīng)濟(jì)環(huán)境提供了一種新的手段。近年來(lái),計(jì)算機(jī)科學(xué)、地理學(xué)和復(fù)雜性科學(xué)領(lǐng)域的學(xué)者基于不同類型數(shù)據(jù)開(kāi)展了大量研究,試圖發(fā)現(xiàn)海量群體的時(shí)空行為模式,并建立合適的解釋性模型。筆者采用“社會(huì)感知(social sensing)”概念構(gòu)建了空間大數(shù)據(jù)研究框架,指出社會(huì)感知就是借助于各類空間大數(shù)據(jù)研究人類時(shí)空間行為特征,進(jìn)而揭示社會(huì)經(jīng)濟(jì)現(xiàn)象的時(shí)空分布、聯(lián)系及過(guò)程的理論和方法。值得一提的是,與強(qiáng)調(diào)基于多種傳感設(shè)備采集微觀個(gè)體行為數(shù)據(jù)的社會(huì)感知計(jì)算(socially aware computing)相比,社會(huì)感知更加強(qiáng)調(diào)群體行為模式以及背后地理空間規(guī)律挖掘。
社會(huì)感知數(shù)據(jù)可從三個(gè)方面獲取人的時(shí)空間行為特征:(1)對(duì)地理環(huán)境的情感和認(rèn)知,如基于社交媒體數(shù)據(jù)獲取人們對(duì)于一個(gè)場(chǎng)所的感受;(2)在地理空間中的活動(dòng)和移動(dòng),如基于出租車、簽到等數(shù)據(jù)獲取海量移動(dòng)軌跡;(3)個(gè)體之間的社交關(guān)系,如基于手機(jī)數(shù)據(jù)獲取用戶之間的通話聯(lián)系信息。由于空間大數(shù)據(jù)包含了海量人群的時(shí)空間行為信息,使得我們可以基于群體的行為特征揭示空間要素的分布格局、空間單元之間的交互以及場(chǎng)所情感與語(yǔ)義(如圖1所示)。空間大數(shù)據(jù)提供的社會(huì)感知手段,第一次為地理學(xué)乃至相關(guān)人文社會(huì)科學(xué)研究開(kāi)啟了一種“由人及地”的研究范式。而“社會(huì)感知”這一概念,正是概括描述了空間大數(shù)據(jù)在相關(guān)研究與應(yīng)用中所提供的數(shù)據(jù)以及方法上的支撐能力。
本文梳理了近年來(lái)針對(duì)空間大數(shù)據(jù)開(kāi)展的研究,尤其是其中用到的數(shù)據(jù)分析與模式發(fā)現(xiàn)方法。這些方法一方面借鑒了計(jì)算機(jī)領(lǐng)域的最新進(jìn)展,另一方面也充分考慮了地理空間的規(guī)律和特征。
社會(huì)感知分析方法
根據(jù)社會(huì)感知的概念,對(duì)于空間大數(shù)據(jù)的研究可以分為“人”和“地”兩個(gè)層面。前者關(guān)注人的空間行為模式,以及模式所受到的地理影響;后者則側(cè)重于在群體行為模式的基礎(chǔ)上,探討地理環(huán)境的相關(guān)特征。
個(gè)體行為模式分析法
空間大數(shù)據(jù)可以感知人的三個(gè)方面的空間行為模式,如圖1所示。其中,移動(dòng)是個(gè)體層次空間行為最直接的外在表現(xiàn)。由于大數(shù)據(jù)對(duì)于移動(dòng)軌跡的獲取能力較強(qiáng),因此目前的研究多集中在移動(dòng)模式和模型的建立。
動(dòng)物以及人在空間中移動(dòng)所展示的規(guī)律性是復(fù)雜系統(tǒng)領(lǐng)域研究的一個(gè)重要議題。每個(gè)個(gè)體的移動(dòng)模式可以表示為隨機(jī)游走(random walk)模型。通過(guò)對(duì)動(dòng)物的移動(dòng)進(jìn)行觀察,發(fā)現(xiàn)其移動(dòng)步長(zhǎng)和角度的統(tǒng)計(jì)分布特征呈現(xiàn)一定的模式,提高了覓食的效率。當(dāng)移動(dòng)方向均勻分布,而步長(zhǎng)為冪律分布,且指數(shù)在1~3之間時(shí),移動(dòng)為列維飛行模型(Levy flight),如圖2所示。與動(dòng)物相比,人的出行目的更加多樣化,并且存在一個(gè)或者多個(gè)頻繁重訪地點(diǎn),這使得人的移動(dòng)模式與動(dòng)物的移動(dòng)模式存在機(jī)理上的差異。在海量個(gè)體移動(dòng)軌跡數(shù)據(jù)的支持下,我們可以觀察人的移動(dòng)模式并構(gòu)建相應(yīng)的解釋模型。從布羅克曼(Brockmann)等人發(fā)表在《自然》上的基于錢(qián)幣追蹤數(shù)據(jù)開(kāi)展的研究開(kāi)始,許多學(xué)者利用手機(jī)、出租車、社交媒體簽到等數(shù)據(jù)探討了人的移動(dòng)模式,并且試圖建立解釋性模型。
步長(zhǎng)的統(tǒng)計(jì)分布是移動(dòng)性模式表達(dá)中的重要元素。對(duì)于移動(dòng)軌跡而言,由于距離衰減,使得長(zhǎng)距離出行的概率較低,而短距離出行的概率較高。表征這種分布特征的函數(shù)有冪律分布、指數(shù)分布、指數(shù)截?cái)嗟膬缏煞植嫉萚5~9]。許多學(xué)者試圖建立模型以解釋觀察到的人類移動(dòng)模式。除了距離衰減影響外,解釋移動(dòng)模式需要考慮的因素還包括地理環(huán)境和個(gè)體的空間行為特征。其中地理環(huán)境因素決定了潛在的個(gè)體移動(dòng)到訪點(diǎn)的空間分布,該分布通常與人口密度分布正相關(guān);而個(gè)體的空間行為特征則反映了人們移動(dòng)中的一些個(gè)性化的規(guī)律。目前得到較多關(guān)注的是個(gè)體軌跡中的重訪點(diǎn),這是人類移動(dòng)和動(dòng)物移動(dòng)存在較大差異的方面。人類移動(dòng)存在家和工作地等頻繁重訪的地點(diǎn),具有較高的可預(yù)測(cè)性[10]。在地理環(huán)境分布特征方面,我們通常從城市范圍內(nèi)及城市間兩個(gè)尺度分別探討移動(dòng)性模式。城市范圍內(nèi)的移動(dòng)受到城市用地結(jié)構(gòu)的影響。對(duì)于一個(gè)城市而言,通常市中心區(qū)土地開(kāi)發(fā)強(qiáng)度較大,居民出行的密度相對(duì)較高,而在城市邊緣地區(qū),土地利用強(qiáng)度和出行密度都相對(duì)較低。這種地理環(huán)境分布模式使得城市尺度的移動(dòng)步長(zhǎng)分布尾部不那么“重”[11]。而對(duì)于城市間的移動(dòng),城市體系中不同規(guī)模的城市空間分布同樣影響了觀測(cè)到的移動(dòng)模式。韓(Han,音譯)等人探討了層次城市體系對(duì)于人類移動(dòng)模式的影響,指出人們?cè)诘蛯哟纬鞘兄g的移動(dòng)通常要經(jīng)由高層次城市,從而產(chǎn)生了步長(zhǎng)的冪率分布特征[12]。
目前研究所采用的空間大數(shù)據(jù)多數(shù)都是“移動(dòng)軌跡豐富,活動(dòng)信息不足”,這使得軌跡背后豐富的語(yǔ)義信息(尤其是出行目的信息)缺失。在交通地理學(xué)研究中,出行目的是理解出行移動(dòng)模式的基礎(chǔ),不同的出行目的受到空間的約束也不同。一些學(xué)者試圖結(jié)合軌跡數(shù)據(jù)、時(shí)間約束以及地理環(huán)境特征,推斷出行目的,從而達(dá)到充實(shí)軌跡語(yǔ)義的目的[13,14]。
個(gè)體層次的時(shí)空間行為除了移動(dòng)和活動(dòng)外,社交關(guān)系(social ties)也是很重要的要素。利用空間大數(shù)據(jù)可以揭示社交關(guān)系背后的地理影響。這方面的研究主要包括個(gè)體地理位置對(duì)于個(gè)體間社交關(guān)系的影響[15,16]以及個(gè)體空間移動(dòng)與社交關(guān)系的相互作用[17,18]兩個(gè)方向,目的是探求空間距離和時(shí)空共現(xiàn)(spatio-temporal co-occurrence)與社交關(guān)系之間的量化聯(lián)系。
活動(dòng)時(shí)間變化特征分類法
不同類型的大數(shù)據(jù)可以揭示一個(gè)區(qū)域或城市的活動(dòng)以及人口分布狀態(tài)。大數(shù)據(jù)的時(shí)間標(biāo)記可以用于解釋人口分布的動(dòng)態(tài)變化特征。這種變化特征往往具有較強(qiáng)的周期性。對(duì)于城市研究而言,尤其以日周期變化最為明顯。城市居民在居住地點(diǎn)和工作地點(diǎn)之間的通勤行為產(chǎn)生了相關(guān)地理單元人口密度的時(shí)變特征(如圖3a)。因此,我們可以基于城市不同區(qū)域?qū)?yīng)的活動(dòng)日變化曲線來(lái)研究其用地特征和在城市運(yùn)行中所承載的功能。
利用空間大數(shù)據(jù)所提取的活動(dòng)分布特征感知土地利用類別的基本依據(jù)是活動(dòng)量日變化特征對(duì)地塊的指示能力。提取特征時(shí)通常采用非監(jiān)督分類方法,最常用的算法有k-平均算法(k-means)聚類、k-中心點(diǎn)算法(k-medoids)聚類等[19~21]。我們經(jīng)常可以看到相同的土地覆被對(duì)應(yīng)不同的居民活動(dòng)特征,而外形相近的建筑可能承擔(dān)了不同的社會(huì)功能,與之相較,利用大數(shù)據(jù)提取活動(dòng)分布特征的方法從活動(dòng)角度更為全面地解讀了城市土地利用情況。在分類過(guò)程中,因?yàn)楣δ芟嗤牡貕K存在活動(dòng)強(qiáng)度的差異,如高密度居民區(qū)和低密度居民區(qū),盡管人口總量不同,但是其人口密度日變化特征相似,故而在非監(jiān)督分類過(guò)程中,通常需要對(duì)活動(dòng)時(shí)變曲線進(jìn)行歸一化處理。此外,考慮城市居民工作日和周末的不同活動(dòng)特征,在一些研究中,會(huì)將工作日數(shù)據(jù)和非工作日數(shù)據(jù)分開(kāi)處理。由于空間大數(shù)據(jù)所提取的活動(dòng)時(shí)空分布信息可以處理成與傳統(tǒng)遙感數(shù)據(jù)相似的形式,因此除了非監(jiān)督分類外,一些圖像處理方法也可以應(yīng)用于社會(huì)感知數(shù)據(jù)。圖3b展示了如何從人對(duì)于城市空間利用的視角去解讀城市的結(jié)構(gòu)特征。近年來(lái),也有一些研究采用主成分分析以及非負(fù)矩陣分解方法,識(shí)別一個(gè)城市不同區(qū)域活動(dòng)變化的全局和局部變化特征[22~25]。此外,張量(tensor)也是分析時(shí)空大數(shù)據(jù)的有效工具,張量模型的高階(high order)表達(dá)能力能夠描述時(shí)空數(shù)據(jù)在時(shí)間、空間、個(gè)體狀態(tài)等多方面的特征。王靜遠(yuǎn)等使用張量分析了城市交通節(jié)律、社區(qū)組團(tuán)、用地性質(zhì)等要素之間的聯(lián)系[26],范(Fan,音譯)等人對(duì)城市時(shí)空數(shù)據(jù)進(jìn)行了譜分析,研究了不同個(gè)體在不同時(shí)間、不同地點(diǎn)對(duì)于突發(fā)災(zāi)害事件的響應(yīng)模式[27](如圖4所示)。
場(chǎng)所情感及語(yǔ)義分析法
社交媒體(推特、微博等)中包含了大量文本數(shù)據(jù),成為語(yǔ)義信息獲取的重要來(lái)源。帶有位置的社交媒體數(shù)據(jù)通常占3%,研究者可以利用這部分?jǐn)?shù)據(jù)揭示與地理位置有關(guān)的語(yǔ)義信息。目前的研究主要包括三個(gè)方向:(1)獲取一個(gè)場(chǎng)所的主題詞(圖5a);(2)獲取與場(chǎng)所有關(guān)的情感信息(圖5b),如高興還是抑郁[28~30];(3)獲取對(duì)于特定事件(如災(zāi)害[31]、事故[32]、
疾病[33])的響應(yīng)。由于社交媒體數(shù)據(jù)是大量用戶自發(fā)創(chuàng)建的,分析語(yǔ)義信息及其時(shí)空模式有助于政策制定者了解社情民意并制定相關(guān)公共政策。在社交媒體文本語(yǔ)義處理中,潛在狄利克雷分配 (Latent Dirichlet Allocation, LDA)模型被廣泛應(yīng)用,以確定每條信息所表示的主題以及相關(guān)的情緒信息。然而,由于社交媒體數(shù)據(jù)中每條文本存在字?jǐn)?shù)的限制,并且內(nèi)容隨意性較強(qiáng),因此如何從中挖掘更加精確的、有意義的信息,尚需進(jìn)一步研究。
近年來(lái),深度學(xué)習(xí)技術(shù)的發(fā)展使得自動(dòng)提取識(shí)別照片語(yǔ)義信息成為可能。一些研究基于對(duì)照片共享網(wǎng)站帶有時(shí)空標(biāo)記的圖像進(jìn)行內(nèi)容分析,揭示地理環(huán)境的特征(圖5c)。
與基于文本的語(yǔ)義信息提取相比,照片語(yǔ)義信息更為客觀且豐富。每張照片反映了拍照者對(duì)于場(chǎng)所的感知。周(Zhou,音譯)等人利用在全球不同城市拍攝的照片,研究比較了城市的空間特征,其發(fā)現(xiàn)的模式有助于評(píng)估城市規(guī)劃的效果[34]??紤]到文本和照片不同的表達(dá)能力,我們認(rèn)為結(jié)合文本和照片語(yǔ)義信息,能夠全面捕獲一個(gè)地理場(chǎng)所給人們帶來(lái)的體驗(yàn)。
空間交互分析
在地理學(xué)研究中,空間交互(spatial interaction)指的是兩個(gè)場(chǎng)所之間的聯(lián)系,通常可以基于人流、貨流、資金流等進(jìn)行量化。研究空間交互有助于理解一個(gè)區(qū)域內(nèi)部的結(jié)構(gòu)以及動(dòng)態(tài)演化特征。在空間大數(shù)據(jù)中,個(gè)體的移動(dòng)軌跡以及個(gè)體之間的社交關(guān)系都可以在聚集層面量化兩個(gè)場(chǎng)所之間的交互強(qiáng)度,前者如兩個(gè)城市間的人流總量,后者如兩個(gè)城市之間互相關(guān)注的好友對(duì)數(shù)??臻g交互強(qiáng)度受到距離衰減效應(yīng)的影響,距離遠(yuǎn)的兩個(gè)地理單元間的聯(lián)系相對(duì)較弱。因此,在地理學(xué)研究中,大多基于重力模型來(lái)擬合場(chǎng)所之間的交互強(qiáng)度,采用距離的負(fù)冪函數(shù)(d-β)表示空間阻隔的影響。目前可用的擬合方法有線性規(guī)劃法、代數(shù)求解法、模擬法等[35~37]。根據(jù)重力模型擬合結(jié)果,可以通過(guò)距離衰減系數(shù)β來(lái)表征特定空間交互行為中距離衰減效應(yīng)的大小,即β值越低,距離的影響越小。實(shí)證研究表明,對(duì)于居民在城市尺度的移動(dòng)行為,距離衰減系數(shù)在1~2之間,而對(duì)利用手機(jī)、社交媒體等途徑建立的空間交互,距離衰減效應(yīng)盡管較弱(β<1),但依然存在影響[38]。
利用地理單元之間的空間交互,可以構(gòu)建嵌入空間的網(wǎng)絡(luò)(spatially-embedded network),并引入網(wǎng)絡(luò)分析方法研究其結(jié)構(gòu)特征。在該網(wǎng)絡(luò)中,通常每個(gè)節(jié)點(diǎn)為一個(gè)地理單元,而邊的權(quán)重為地理單元間交互的強(qiáng)度,如圖6a所示,基于空間交互,構(gòu)建嵌入空間的網(wǎng)絡(luò),從而引入網(wǎng)絡(luò)科學(xué)分析方法,分析研究區(qū)的空間結(jié)構(gòu)特征[47]。在復(fù)雜網(wǎng)絡(luò)研究中,常見(jiàn)的分析方法是對(duì)網(wǎng)絡(luò)進(jìn)行社區(qū)發(fā)現(xiàn)(community detection)分析,而網(wǎng)絡(luò)中的社區(qū)由相對(duì)聯(lián)系更為緊密的節(jié)點(diǎn)構(gòu)成。目前,用于社區(qū)發(fā)現(xiàn)的算法有Girvan-Newman[39]、Multilevel[40]、Fastgreedy[41]、Infomap[42]和Walktrap[43]等。對(duì)于嵌入空間的網(wǎng)絡(luò)而言,一個(gè)社區(qū)往往對(duì)應(yīng)地理空間中聯(lián)系相對(duì)緊密的區(qū)域[44~47]。由于距離衰減效應(yīng)以及行政區(qū)劃的影響,如果僅僅考慮交互強(qiáng)度而不考慮相鄰約束,社區(qū)發(fā)現(xiàn)的結(jié)果通常為空間上連續(xù)的區(qū)塊,并且往往與行政區(qū)劃邊界相一致(圖6b)[48]。
結(jié)合傳統(tǒng)空間數(shù)據(jù)的分析和應(yīng)用
城市是空間大數(shù)據(jù)產(chǎn)生最頻繁的區(qū)域。因此,空間大數(shù)據(jù)的應(yīng)用研究目前主要集中在城市區(qū)域。相關(guān)的研究領(lǐng)域有交通管理、城市規(guī)劃、環(huán)境、公共衛(wèi)生等。在此基礎(chǔ)上,鄭宇等提出了城市計(jì)算(urban computing)的概念,利用包括空間大數(shù)據(jù)在內(nèi)的城市多源數(shù)據(jù)進(jìn)行計(jì)算分析,發(fā)現(xiàn)并解決城市運(yùn)行中的問(wèn)題[49]。
在上述應(yīng)用中,除了空間大數(shù)據(jù)外,還要結(jié)合傳統(tǒng)空間數(shù)據(jù)(如城市用地和建筑數(shù)據(jù)、道路網(wǎng)數(shù)據(jù)、檢測(cè)站點(diǎn)數(shù)據(jù)等)進(jìn)行分析。例如,王(Wang,音譯)等人利用舊金山和波士頓地區(qū)的手機(jī)數(shù)據(jù)和路網(wǎng)數(shù)據(jù),發(fā)現(xiàn)了交通擁堵路段的車流來(lái)源,并且給出了緩解擁堵的建議[50];鄭(Zheng,音譯)等人利用監(jiān)測(cè)站數(shù)據(jù)、天氣數(shù)據(jù)以及交通和人的移動(dòng)數(shù)據(jù),推斷城市的實(shí)時(shí)精細(xì)分辨率空氣質(zhì)量數(shù)據(jù),該結(jié)果有助于城市居民規(guī)劃戶外活動(dòng)[51]。由于空間大數(shù)據(jù)的獲取建立在海量群體的空間行為的基礎(chǔ)上,因此使我們能夠更好地感知人的行為模式及其與地理環(huán)境之間的耦合模型。我們認(rèn)為建立在社會(huì)感知基礎(chǔ)上的公共政策制定,更能夠體現(xiàn)“以人為本”的理念,有著廣闊的應(yīng)用前景。
空間大數(shù)據(jù)為我們提供了一條透過(guò)海量人群的空間行為模式去觀察、理解地理環(huán)境特征及影響的研究路徑。社會(huì)感知概念的提出正是概括了空間大數(shù)據(jù)的這種能力??臻g大數(shù)據(jù)的處理,一方面需要有高效的分析方法,一方面需要對(duì)人的行為動(dòng)力學(xué)模型和地理環(huán)境特征有充分的理解。因此,需要信息科學(xué)、復(fù)雜性科學(xué)、地理學(xué)等不同學(xué)科以及不同應(yīng)用領(lǐng)域的學(xué)者進(jìn)行通力合作,才能有效提取空間大數(shù)據(jù)中所蘊(yùn)含的信息,并充分體現(xiàn)其應(yīng)用價(jià)值。