Nature封面：乘著AI的翅膀，數(shù)據(jù)「帶飛」計(jì)算社會(huì)科學(xué)

作者：佚名 2021-07-08 15:30:21

新聞人工智能

今天，Nature就以特刊形式討論了目前計(jì)算社會(huì)科學(xué)面臨的挑戰(zhàn)和機(jī)遇。

早在蘇美爾王國(guó)時(shí)期，這個(gè)智慧王國(guó)的子民就開始記錄數(shù)據(jù)，進(jìn)行人口普查、分配糧食。

[[410166]]

全世界最早產(chǎn)生的文明之一蘇美爾的人口普查記錄

蘇美爾人貢獻(xiàn)了書面數(shù)據(jù)分析的最早記錄。

隨著計(jì)算機(jī)的出現(xiàn)，人們開始用機(jī)器分析大型數(shù)據(jù)集，這一階段最早可以追溯到大型計(jì)算機(jī)時(shí)代。

計(jì)算機(jī)大大加快了數(shù)據(jù)分析的速度，被廣泛應(yīng)用在審計(jì)和人口普查上。

而這種將大量數(shù)據(jù)分析與社會(huì)問題相結(jié)合的工作，即計(jì)算社會(huì)科學(xué)（Computational social science）近年來得到了巨大的發(fā)展。

巨大的發(fā)展伴隨的是沒有限制、不受監(jiān)管的數(shù)據(jù)收集。

Nature封面：乘著AI的翅膀，數(shù)據(jù)「帶飛」計(jì)算社會(huì)科學(xué)

這其中存在很大風(fēng)險(xiǎn)：缺乏監(jiān)控以及從匿名數(shù)據(jù)中重新識(shí)別身份的風(fēng)險(xiǎn)。

還有人擔(dān)心，收集數(shù)據(jù)卻沒有征得當(dāng)事人的同意怎么辦？

大部分?jǐn)?shù)據(jù)都被少數(shù)大型科技公司壟斷怎么辦？

不僅大型科技公司掌握數(shù)據(jù)、數(shù)據(jù)使用權(quán)在向發(fā)達(dá)國(guó)家、富裕人群傾斜，這樣做出的決策難免會(huì)有偏差。

所以，目前需要我們將社會(huì)科學(xué)和不同學(xué)科以及收集分析大型數(shù)據(jù)集所需的技能結(jié)合起來，這就需要跨學(xué)科的合作。

但是，目前跨學(xué)科合作面臨諸多挑戰(zhàn)。

今天，Nature就以特刊形式討論了目前計(jì)算社會(huì)科學(xué)面臨的挑戰(zhàn)和機(jī)遇。

克服跨學(xué)科的語言障礙

計(jì)算社會(huì)科學(xué)集社會(huì)、自然、計(jì)算科學(xué)等學(xué)科于一身。

同一個(gè)詞，在不同學(xué)科之間可能有不同的含義，在這種情況下就很容易「雞同鴨講」。

例如，在社會(huì)科學(xué)領(lǐng)域，「預(yù)測(cè)」（prediction）通常含有「相關(guān)」的意思；而在物理科學(xué)領(lǐng)域，這個(gè)詞更多指的是「預(yù)測(cè)」。

「token」在不同領(lǐng)域里也有不同含義

因此，不同學(xué)科之間需要克服同一術(shù)語表達(dá)不同意思的語言障礙。開展跨學(xué)科研究時(shí)，科學(xué)家們首先需要學(xué)會(huì)彼此的語言，然后得出一種能夠相互理解的術(shù)語。

但比起語言障礙，更難的是如何展示、分析和解釋數(shù)據(jù)，最終解釋某種現(xiàn)象。

比方說，要想了解交通擁堵的原因，研究人員會(huì)收集并預(yù)測(cè)交通流量數(shù)據(jù)，還會(huì)從司機(jī)口中了解到他們選擇特定路線的原因。計(jì)算社會(huì)科學(xué)的學(xué)科互補(bǔ)特性，能更高效地回答研究問題。

處理數(shù)據(jù)的「大忌」

所有研究結(jié)果取決于分析策略，還取決于數(shù)據(jù)的質(zhì)量，在處理社會(huì)數(shù)據(jù)的時(shí)候更是如此。

要想完成計(jì)算社會(huì)科學(xué)的研究，就先得要有大量的數(shù)據(jù)，如手機(jī)的定位信息。但是這些信息通常不是出于研究目的才收集的，因此很容易被人誤解。

僅從數(shù)字中觀察到趨勢(shì)或模式中就得出結(jié)論，這是研究人員處理大數(shù)據(jù)集的「大忌」。研究人員應(yīng)該考慮可能會(huì)影響結(jié)果的因素。

為了提取數(shù)據(jù)的真正意義，研究人員需要確保他們根據(jù)理論，仔細(xì)地定義測(cè)量對(duì)象，并適當(dāng)?shù)剡M(jìn)行驗(yàn)證和解釋。

算法的廣泛影響是另一個(gè)潛在錯(cuò)誤。算法遍及整個(gè)社會(huì)，以不同的方式影響著個(gè)人和群體行為，這意味著，所有的觀察不僅在描述人類行為，還在描述算法對(duì)人們行為方式的影響。

社會(huì)科學(xué)理論需要更新，承認(rèn)算法帶來的影響；要是沒有這些理論，沒有清晰理解算法對(duì)可用數(shù)據(jù)的影響，研究人員就無法得出有意義的結(jié)論。

共享數(shù)據(jù)的難處

大型數(shù)據(jù)集通常是商企的私有財(cái)產(chǎn)，這是計(jì)算社會(huì)科學(xué)的另一個(gè)復(fù)雜問題。搞學(xué)術(shù)的科學(xué)家需要跟企業(yè)聯(lián)系才能獲得訪問權(quán)限，這有可能會(huì)產(chǎn)生更多偏見。

對(duì)于公司而言，數(shù)據(jù)是有價(jià)值的，因此共享數(shù)據(jù)會(huì)冒犯到公司的「底線」。這也是公司傾向于限制共享內(nèi)容的原因之一。

但考慮到這些數(shù)據(jù)能提供社會(huì)效益，公司——連同學(xué)術(shù)研究人員和公共機(jī)構(gòu)——需要共同解決這些問題，并為數(shù)據(jù)的質(zhì)量、數(shù)據(jù)訪問和數(shù)據(jù)所有權(quán)制定標(biāo)準(zhǔn)。

未來獲取數(shù)據(jù)的方式

一篇關(guān)于「人類社會(huì)感知」的文章對(duì)于如何獲得有用、可靠的數(shù)據(jù)列舉了一些方法。這是對(duì)個(gè)人如何在其社交網(wǎng)絡(luò)中收集他人信息的研究。

例如，研究人員可以通過采訪對(duì)象并詢問他們的朋友在談?wù)撌裁?，從而預(yù)測(cè)出政治觀點(diǎn)的變化。

收集他人的數(shù)據(jù)有助于避免自我報(bào)告數(shù)據(jù)中出現(xiàn)的一些偏見，生成匿名數(shù)據(jù)也有額外好處：研究人員永遠(yuǎn)不需要知道他們獲得的數(shù)據(jù)中，任何有關(guān)個(gè)人或敏感細(xì)節(jié)的信息。

獲取數(shù)據(jù)的方式變得更加成熟，這一點(diǎn)體現(xiàn)在傳染病建模和行為科學(xué)的交叉領(lǐng)域。

要建立準(zhǔn)確的傳染和感染模型，研究人員需要了解患病人群的文化和行為。如果不考慮傳播的這些和其他社會(huì)方面的傳播因素，就難以預(yù)測(cè)疾病的傳播路徑?？鐚W(xué)科的結(jié)構(gòu)和廣泛合作十分關(guān)鍵。

而新冠肺炎疫情已經(jīng)表明，大規(guī)模數(shù)據(jù)集應(yīng)用于科學(xué)能夠挽救生命。隨著具有計(jì)算機(jī)科學(xué)或應(yīng)用數(shù)學(xué)背景的研究人員與社會(huì)科學(xué)家的合作，而這種潛力才剛剛開始顯現(xiàn)。

責(zé)任編輯：張燕妮來源：新智元

AI 計(jì)算人工智能

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Nature封面：乘著AI的翅膀，數(shù)據(jù)「帶飛」計(jì)算社會(huì)科學(xué)

克服跨學(xué)科的語言障礙

處理數(shù)據(jù)的「大忌」

共享數(shù)據(jù)的難處

未來獲取數(shù)據(jù)的方式

Nature封面：乘著AI的翅膀，數(shù)據(jù)「帶飛」計(jì)算社會(huì)科學(xué)