“黑天鵝”羽下:AI在信息戰(zhàn)場上的光影雙面
原創(chuàng)【51CTO.com原創(chuàng)稿件】 面對突如其來的疫情,大眾對于信息的即時性、透明度和傳達(dá)效率有了更高的關(guān)注。相比2003年“非典”時期,此次疫情爆發(fā)后,信息洪流也更為洶涌。移動傳播時代,人人皆是自媒體,不僅是信息接收端,也是無數(shù)輿論的中轉(zhuǎn)站,各種資訊的生產(chǎn)端。形形色色的疫情信息不僅降低了輿論場的“信噪比”,也為各種謠言提供了適宜的溫床。
2020年2月上旬,世界衛(wèi)生組織在一次會議中提出了“infodemic”一詞,即information+epidemic,可以直白地理解為“信息疫情”。因為疫情發(fā)生至今,在海量信息的轟炸下,人們往往難辨真?zhèn)?,信息的更新時時牽動著公眾神經(jīng),催生著不安、擔(dān)憂、焦慮、恐懼。群體情緒“過載”之下,對于疫情管控的考驗無疑更加嚴(yán)峻。值得注意的是,人工智能在本次疫情相關(guān)的輿情梳理中開始扮演“沙里淘金”的角色,運用NLP(自然語言處理)技術(shù)“提純”有效信息,關(guān)聯(lián)信息線索,打造公共危機事件里的信息中樞。
進(jìn)擊的LDA:挖掘文本語義的利器
NLP被譽為人工智能皇冠上的明珠 ,因為自然語言是人類智慧的凝練,“讓機器理解自然語言”寄托了人們對于AI最初的幻想——讓機器聽懂人話,和人交談,甚至理解語言背后的文化、意圖與情感。發(fā)展到今天,可以說“凡是文本飛舞的地方,NLP技術(shù)就會燃燒”。
LDA(潛在狄利克雷分配)主題模型是NLP中非常基礎(chǔ)、大眾認(rèn)知度也比較高的模型。當(dāng)我們寫文章時,可能多數(shù)人是先確定文章的幾個關(guān)鍵主題,然后圍繞這幾個主題遣詞造句成文。這一過程的逆向操作就是LDA做的事。通俗來說,就是根據(jù)給定的文檔,讓計算機反推其主題分布,包括推測分析網(wǎng)上各篇文章分別寫了哪些主題,且各篇文章中各個主題出現(xiàn)的概率大小。
在傳統(tǒng)的方法中,判斷兩個文檔的相似性是通過識別兩個文檔中有多少共有詞。這種方法的局限性在于沒有考慮到語義背后的關(guān)聯(lián)。
比如:
“同人小說站A03獲得雨果獎?!?/p>
“藝術(shù)創(chuàng)作不是孤島?!?/p>
這兩句話沒有共有詞,但事實上,前者是獲獎新聞,后者是獲獎致辭。兩者主題是相似的??梢娕袛辔臋n相似性時需要考慮到文檔中的潛在詞或者兩篇文檔間的聯(lián)系。在主題模型中,主題就像一個袋子,里面裝了出現(xiàn)概率較高的單詞,這些單詞與這個主題有很強的相關(guān)性??梢哉f,LDA模型是語義挖掘的利器。
疫情期間,使用LDA在數(shù)據(jù)集中提取主題也有落地應(yīng)用。今年2月14日,“新冠肺炎疫情AI話題分析平臺”正式上線。這個平臺由清華大學(xué)人工智能研究院、RealAI共同研發(fā)推出。在底層算法支持上,平臺采用WarpLDA主題提取算法研發(fā)。相比傳統(tǒng)的Gibbs采樣算法,WarpLDA在訪存效率、并行度方面更有優(yōu)勢,可用于上億級別文本的主題提取。
去偽存真:提取有效信息
51CTO記者在調(diào)查中了解到,這個平臺除了疫情數(shù)字的實時播報以外,更側(cè)重對疫情相關(guān)的熱點話題進(jìn)行分析。
“無論是疫情一線故事、防控措施,還是科普知識、辟謠信息,只要傳播廣熱度高,都可以在平臺上找到。所以我們平臺的定位更像一個‘疫情話題熱榜’?!盧ealAI的工作人員這樣介紹。
???
打開移動端的平臺界面,可以看到:截止目前,上線的具體板塊包括“今日熱點”關(guān)鍵詞、“熱點地區(qū)排行”、“實時熱點”話題排行、“最近三天”熱點排行、“官方發(fā)布消息”,這些模塊合組合在一起,為公眾在海量碎片化內(nèi)容中構(gòu)建了一個信息入口。
從這些模塊的設(shè)置可以看到,針對信息“過載”的困擾,該平臺對海量信息進(jìn)行了自動抓取,識別公眾關(guān)注的熱點新聞、輿論趨勢、地區(qū)關(guān)注度變化,并在這一過程中完成對于消息真實性的甄別,一定程度上保證了輸出信息的可靠性。就如何完成有效信息的過濾,RealAI方面給出了具體說明。
首先在新聞源的抓取上,平臺會優(yōu)先抓取官方渠道信息,比如全國各地區(qū)衛(wèi)健委官方網(wǎng)站、新華網(wǎng)、人民網(wǎng)等權(quán)威媒體,平臺會給予這些渠道的新聞更高的權(quán)重。一般來說,在社交網(wǎng)絡(luò)平臺上,“謠言”更容易產(chǎn)生和傳播,因此諸如微博、自媒體這類渠道,權(quán)重會相對較低。
另外,官方渠道發(fā)布的文章內(nèi)容更為嚴(yán)肅,風(fēng)格更為一致,在新聞抓取時比較容易集中在一個主題下。相較之下,那些無中生有的謠言,無論是文本呈現(xiàn)還是行文用詞通常風(fēng)格迥異,在做新聞聚合的時候更容易分散,不容易被歸納成一個熱點主題。
鑒于當(dāng)前NLP領(lǐng)域中LDA主題模型的發(fā)展還有比較大的外展空間,平臺在運營過程中也會有人工把控,補充機器的不足之處。
針對網(wǎng)絡(luò)謠言和假新聞,AI技術(shù)其實在疫情之前就開始嶄露頭角。2019年,阿里巴巴在愚人節(jié)推出了“AI謠言粉碎機”。據(jù)悉,這個算法模型要判斷信息真?zhèn)?,首先會找到初始信息源,分析用戶畫像,辨別發(fā)布者的可信度。然后尋找網(wǎng)上所有信息源,分析相關(guān)鏈接的域名來辨別傳播載體的可信度,最后將正文里的關(guān)鍵論證進(jìn)行提煉,與知識圖譜里的權(quán)威知識庫做匹配,驗證關(guān)聯(lián)度,如果互為印證,可信度就較高,自相矛盾,可信度就降低。在SemEval全球語義測試中,這項AI技術(shù)的識別準(zhǔn)確率達(dá)到了81%。
見微知著:預(yù)警傳染軌跡
人工智能除了可以過濾海量信息外,還可以從信息海的蛛絲馬跡中預(yù)判危機的爆發(fā)。這對于提升危機事件的迅速響應(yīng)能力,控制事件擴散規(guī)模有著至關(guān)重要的作用。此次新冠肺炎在武漢爆發(fā)之初沒有得到有效遏制,信息梳理的缺位也是原因之一。事實上,今年1月時就有報道指出,一家致力于公共健康風(fēng)險評估的加拿大公司BlueDot在2019年12月底就向其客戶通報了這種新型冠狀病毒。
在外媒采訪中,BlueDot創(chuàng)始人解釋:“公司的早期預(yù)警系統(tǒng)使用AI(包括NLP和ML),通過每天分析65種語言的約10萬篇文章,來跟蹤100多種傳染病爆發(fā)情況。這些數(shù)據(jù)有助于公司知道何時通知客戶潛在的傳染病爆發(fā)和擴散?!?/p>
從目前公開的資料來看,BlueDot沒有披露使用的算法,他們避開信息比較混亂的社交媒體,通過采集多語種的新聞報道、官方公告和動物疾病報告,綜合全球航空動態(tài)和天氣數(shù)據(jù),為客戶提供預(yù)警。
BlueDot聲稱,他們的數(shù)據(jù)源主要來自三方面,一個是全球新聞報道,設(shè)置關(guān)鍵詞基本與流行疾病、動物疾病、公共衛(wèi)生有關(guān);一個是航空公司的票務(wù)數(shù)據(jù),通過全球機票數(shù)據(jù)庫的數(shù)據(jù)來跟蹤疑似感染人口的流動,預(yù)測感染可能波及和擴散的城市,及時告知客戶相關(guān)信息;還有就是監(jiān)測某個地區(qū)一定時期內(nèi)的氣候、溫度及牲畜變化情況。此前,BlueDot準(zhǔn)確預(yù)測了病毒在最初出現(xiàn)的幾天內(nèi)將從武漢傳播到泰國曼谷、韓國首爾、中國臺北和日本東京。
放眼全球,AI雖然已經(jīng)在疾病預(yù)防中有所建樹,未來也可能成為公共健康規(guī)劃中的可信工具,但目前的疾病預(yù)測算法還都需要面對預(yù)測模型的缺陷。谷歌在2008年發(fā)布的流感趨勢預(yù)測工具Flu Trends就是一個典型。
Flu Trends可以監(jiān)測數(shù)百萬用戶的健康數(shù)據(jù),提供幾十個國家的流感趨勢預(yù)測。但在2012年的一次流感爆發(fā)事件中,疾控中心匯總各地數(shù)據(jù)后發(fā)現(xiàn)谷歌的預(yù)測比實際情況夸大了近1倍。后來研究發(fā)現(xiàn),谷歌的工程師們并不了解搜索關(guān)鍵字和流感傳播之間有什么關(guān)聯(lián),對于各種信息背后的關(guān)聯(lián)也沒有深入解析,最終導(dǎo)致了荒謬的結(jié)果。之后工程師們不斷進(jìn)行著算法的微調(diào),但是每當(dāng)修正完一處,總有另一處出現(xiàn)了意想不到的誤差。在瞬息萬變的信息抗疫戰(zhàn)場上,可以說,唯一不變的就是一直在變的“算法”。
光影雙生:AI帶來的輿情風(fēng)險
在信息戰(zhàn)場上,AI可以發(fā)揮輿論的積極導(dǎo)向作用,但不可輕忽的是,如果AI被不正當(dāng)?shù)厥褂?,也可以誘發(fā)輿論恐慌。技術(shù)本身沒有價值觀,但技術(shù)的使用者有價值取向。在不同的利益方手中,AI技術(shù)必然會產(chǎn)生不一樣的后果。
2019年AI換臉app在社交媒體上的火爆一度引發(fā)爭議。只需要一張人臉照片,就可以用AI換臉技術(shù),“嫁接”到選定視頻的某個人物身上,由此生成的視頻畫面流暢,人物表情自然,幾可亂真。合成圖像、合成語音,充斥在網(wǎng)絡(luò)里的合成品使“眼見不一定為實,耳聽也不一定為真”。
這些技術(shù)給眾多使用者帶來了有趣的體驗,但也有人質(zhì)疑AI開啟了潘多拉魔盒,踩著倫理和法律的底線反復(fù)橫跳,帶來了事關(guān)版權(quán)、肖像權(quán)、個人隱私的隱患,甚至可能引發(fā)盜竊、詐騙、情色視頻制作等“技術(shù)作惡”亂象。
???
更為嚴(yán)重的是,如果利用AI技術(shù)惡意虛構(gòu)新聞事件大肆傳播,極有可能導(dǎo)致謠言的“發(fā)酵升級”,甚至影響輿論走向。
一家美國的制片公司“猴爪”在2018年利用AI制作了這樣一段視頻:奧巴馬對美國現(xiàn)任總統(tǒng)特朗普進(jìn)行嚴(yán)厲批評。但實際上奧巴馬的表情和動作合成自“猴爪”創(chuàng)始人皮爾。更極端地考慮,如果官方的新聞發(fā)布平臺或一些權(quán)威機構(gòu)的媒體號被黑客控制,散播AI合成的文本、視頻、音頻,就更容易操作輿論,煽動公眾情緒,造成輿情風(fēng)波。
此外,“機器人水軍”也值得警惕,其存在本身影響著輿論生態(tài),而且在一些平臺上已形成規(guī)模。比如網(wǎng)店利用機器人水軍刷好評,相比雇人灌水這種操作,機器自動生成的信息密度更大,侵蝕性更強,也更容易將真實評價淹沒于無形??梢韵胂螅绻谏鐣录幸霗C器人水軍,那么輿論被裹挾是必然,真相被掩蓋,公眾被蒙蔽,甚至可能將國家安全置于險地。更諷刺的是,大多數(shù)人可能對此一無所覺。長此以往,即使“黑天鵝”不再來,“灰犀?!币矔黄诙?。
參考資料:An AI Epidemiologist Sent the First Warnings of the Wuhan Virus https://www.wired.com/story/ai-epidemiologist-wuhan-public-health-warnings/amp
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】