2020,算法話題進(jìn)入主流視野的一年
從困在系統(tǒng)里的外賣騎手到讓人無(wú)法自拔的社交媒體,2020年,關(guān)于算法的討論終于進(jìn)入了主流話語(yǔ)當(dāng)中。
這僅僅是個(gè)開始。隨著數(shù)據(jù)在生活各個(gè)角落不斷生根發(fā)芽,算法的應(yīng)用也變得越來越廣泛:小到選擇一個(gè)10秒的短視頻,大到審判刑事案件。但算法究竟是怎么成形的、它將如何影響我們行為、社會(huì)生活又會(huì)相應(yīng)地產(chǎn)生什么改變……面對(duì)這些如同黑箱般的問題,很多人可能都還未意識(shí)到,更不要說去理解,甚至是質(zhì)疑。
大體上來講,算法的形成主要包括兩個(gè)部分:訓(xùn)練數(shù)據(jù)的收集和算法的設(shè)計(jì)訓(xùn)練應(yīng)用。澎湃新聞總結(jié)了關(guān)于這兩大部分的2020年大事件,并采訪了三位相關(guān)領(lǐng)域的專家和從業(yè)者,看看他們是如何理解算法對(duì)我們生活產(chǎn)生的影響。
算法離不開數(shù)據(jù),但有數(shù)據(jù)就會(huì)有泄
算法的形成離不開訓(xùn)練數(shù)據(jù)。如上一張圖所示,在實(shí)現(xiàn)算法、搭建模型之前,我們需要收集大量的數(shù)據(jù)。
這些數(shù)據(jù)來自我們生活的方方面面,比如授權(quán)app收集的身份數(shù)據(jù)、使用app所產(chǎn)生的行為數(shù)據(jù),甚至是寄快遞、住酒店等過程中記錄的數(shù)據(jù)。
“我們已經(jīng)進(jìn)入了隱私的透明人時(shí)代”,上海交通大學(xué)數(shù)據(jù)法律研究中心執(zhí)行主任何淵在接受澎湃新聞采訪時(shí)提到?!熬W(wǎng)絡(luò)比你還了解你自己……不管你愿不愿意,這些企業(yè)都已經(jīng)掌握了我們的數(shù)據(jù)?!?/p>
這并不代表用戶就束手無(wú)策了,比如可以避免使用來源不明的app、不輕易授權(quán)app獲取隱私信息等等。
不過在此之前,還有兩個(gè)問題需得弄清楚:
第一,個(gè)人信息和個(gè)人隱私并不是一個(gè)概念。隱私是每個(gè)人不能放棄的私密信息。如果這些信息被允許交易,我們將不再是一個(gè)完整的人。
而個(gè)人信息則更注重身份識(shí)別性,這些信息結(jié)合在一起后,有助于識(shí)別個(gè)人的身份。
第二,權(quán)利和義務(wù)是對(duì)等的。用戶免費(fèi)使用手機(jī)應(yīng)用的同時(shí),就在出讓部分個(gè)人信息,接受精準(zhǔn)廣告的投放,再由廣告商付錢給手機(jī)應(yīng)用,這就是現(xiàn)在的互聯(lián)網(wǎng)免費(fèi)模式。
“法律不是說絕對(duì)地保護(hù)你的個(gè)人信息權(quán)益”,何淵解釋道。
但隨著相關(guān)制度的逐步健全,公民將擁有更多保護(hù)個(gè)人信息安全的途徑,比如集體訴訟、公益訴訟,以及基于《通用數(shù)據(jù)保護(hù)條例》(GDPR)等法規(guī)而開出的高額罰單,雖然“對(duì)于大企業(yè)來說,他們更怕的其實(shí)不是賠償,而是一種品牌的損失?!?/p>
技術(shù)是中立的,嗎?
算法在為我們提供極大生活便利的同時(shí),也引發(fā)了不小的爭(zhēng)議。因此公眾又開始討論這個(gè)經(jīng)典的議題:技術(shù)是中立的嗎?
“我始終認(rèn)為技術(shù)本身是中立的,它產(chǎn)生的時(shí)候就是為了單純地解決一個(gè)技術(shù)難題”,互聯(lián)網(wǎng)資深軟件工程師Justin在接受澎湃新聞采訪時(shí)說道:“至于未來會(huì)變成什么樣,這并不是技術(shù)在發(fā)展的過程中會(huì)去考慮的?!?/p>
但也有不同的觀點(diǎn)。
“任何所謂‘中立’的東西,實(shí)際上都是有一些預(yù)定的功能指向性,尤其是人工制品”,復(fù)旦大學(xué)哲學(xué)學(xué)院徐英瑾教授舉了一個(gè)例子:“比如刺刀用來切菜肯定不合適,因?yàn)樗墓δ苤赶虿⒉皇怯脕砬胁说摹!?/p>
無(wú)論中立與否,和算法有關(guān)的爭(zhēng)議事件確實(shí)越來越多地走進(jìn)了我們的視野,尤其是在新冠疫情的背景下。
比如,英國(guó)政府為了解決疫情無(wú)法舉辦高考的問題,決定采用算法對(duì)學(xué)生成績(jī)進(jìn)行評(píng)定,但經(jīng)過算法評(píng)定的學(xué)生成績(jī)出現(xiàn)了許多爭(zhēng)議。其中,英格蘭地區(qū)約40%的考生成績(jī)至少被調(diào)降了一個(gè)級(jí)別。2020年8月25日,英國(guó)的考試監(jiān)管機(jī)構(gòu)主任薩莉·科利爾宣布引咎辭職。
還有,2020年3月,一些網(wǎng)友指出,自己的健康碼莫名變成紅色。一名網(wǎng)友在知乎上寫道:全部行程軌跡正常、未與確診或疑似病例接觸、未去過疫區(qū),但因?yàn)榻】荡a莫名變紅,當(dāng)天沒地方住,在街邊過了夜。
這些算法與我們的日常生活息息相關(guān),但很少人能了解背后的運(yùn)行邏輯,“造成很強(qiáng)的技術(shù)屏障和知識(shí)屏障,不利于大眾對(duì)這樣的一套系統(tǒng)進(jìn)行監(jiān)督……構(gòu)成某種意義上權(quán)力的不對(duì)等”,徐英瑾解釋道。
但算法不應(yīng)該完全為這些爭(zhēng)議背鍋。正如前文所說,算法的形成離不開大量的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)就是人們的歷史行為。
2020年2月VOX的一篇文章寫道:“當(dāng)電腦接觸到大量的數(shù)據(jù),它會(huì)察覺到數(shù)據(jù)中反復(fù)出現(xiàn)的模式,然后依照這些模式形成自己判斷、評(píng)價(jià)、預(yù)測(cè)的邏輯?!睋Q句話說,算法的運(yùn)用,會(huì)放大社會(huì)中的歧視和偏見。
比如,墨爾本大學(xué)在2020年12月發(fā)表的一份研究表明,人工智能招聘軟件存在的性別歧視,可能源自于招聘者本身潛意識(shí)的歧視。這些研究人員在完全相同的簡(jiǎn)歷上,一些標(biāo)注性別,一些則抹掉性別,分發(fā)給40位招聘者。結(jié)果顯示,盡管男女應(yīng)聘者的能力和經(jīng)歷完全一致,招聘者還是給了男性更高的評(píng)分。甚至在抹掉性別的簡(jiǎn)歷中,招聘者也更偏愛男性。
VOX的那篇文章認(rèn)為,將各種算法背后的黑箱解釋清楚,是擺脫這些偏見爭(zhēng)議的第一步。一些學(xué)者認(rèn)為,算法使用方最起碼應(yīng)該公開他們的訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和測(cè)試數(shù)據(jù)的人口特征。
徐英瑾的建議是,在訓(xùn)練算法時(shí),研究人員不應(yīng)該只重復(fù)演算數(shù)據(jù),而需要不斷汲取新的知識(shí),然后手動(dòng)修正相關(guān)的理解和預(yù)測(cè)?!耙?yàn)闆]有任何哲學(xué)上的理由告訴我們,未來發(fā)生的事情就一定和過去的事情是類似的。”
而且“人”的角色很重要。比如,Justin認(rèn)為,推薦算法的弱點(diǎn)之一是“機(jī)器的目標(biāo)通常是非常明確的,而我們想學(xué)到的東西,常常是不可量化的”,因此現(xiàn)在很多內(nèi)容平臺(tái)會(huì)加入除機(jī)器推薦之外的策略。
不管怎么說,這條修正算法的道路將會(huì)很漫長(zhǎng),畢竟公司的利益往往是驅(qū)使算法發(fā)展的最大動(dòng)力,而且我們身上人性的弱點(diǎn)也并非一朝一夕可以改變的。
但算法問題總算是進(jìn)入了主流議題,這是我們社會(huì)邁出的一大步。