處處是“垃圾”:人工智能太缺高質(zhì)量數(shù)據(jù)了!
本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)。
某種程度上講,人工智能已經(jīng)超越了我們過去最大膽的想象;但再看實際中,Siri甚至無法告訴用戶今天天氣如何。
問題在于什么呢?創(chuàng)建高質(zhì)量的數(shù)據(jù)庫來訓(xùn)練和測量我們的模型仍然是件無比困難的事情。我們本應(yīng)能在一天內(nèi)收集到20000個標(biāo)簽來訓(xùn)練Reddit分類器,但實際相反,我們等待了三個月并得到了一個滿是垃圾郵件的訓(xùn)練集。
四年前,AlphaGo打敗了世界圍棋專家們,大型科技公司們對每一個能接觸到的機器學(xué)習(xí)創(chuàng)業(yè)公司進行了人才收購,《紐約時報》宣稱道“機器學(xué)習(xí)將對計算機技術(shù)進行徹底改造”。
2016年,DeepMind開始建造一個人工智能來玩《星際爭霸2》,到2019年底,名為“AlphaStar”的人工智能程序達到了大師級成就。
好像不用幾年,Alexa就將會占領(lǐng)我們的家園,而Netflix會比我們的朋友更好地提出電影建議。
在那之后發(fā)生了什么?
更快的GPU放棄了訓(xùn)練神經(jīng)網(wǎng)絡(luò)的消耗,并允許越來越大的模型得到訓(xùn)練。新型工具們使基礎(chǔ)建設(shè)工作更加的簡單。
能夠?qū)W習(xí)運行更主觀的任務(wù)的新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也得到了發(fā)展。比如說OpenAi的GPT-3模型,這是一個語言生產(chǎn)器,能夠撰寫博客文章且拿下黑客新聞網(wǎng)站的頭條。
一個關(guān)于生產(chǎn)效率的GPT-3寫的博文拿下了黑客新聞的頭條。
那么改革發(fā)生在何處?
所以為什么人工智能還沒占領(lǐng)世界?為何人們雖然能用GPT-3來生成博文,但是社交媒體公司很難將煽動性的內(nèi)容從訂閱源中剔除?為何有了超人類的星際爭霸算法,但電商們?nèi)栽谕扑]我再買一個吐司機?為何模型們能夠合成現(xiàn)實的圖片(和電影)但卻無法面目識別?
模型正在進步,而數(shù)據(jù)仍止步不前。模型們在數(shù)據(jù)集上受到訓(xùn)練,而這些數(shù)據(jù)集仍存在有錯誤,且和創(chuàng)作者真正想表達的鮮少相符。
現(xiàn)在的數(shù)據(jù)怎么了?來也垃圾,去也垃圾
在某些情況下,數(shù)據(jù)是在基于類如鏈接和用戶協(xié)議的代理商上進行訓(xùn)練。
比如說,社交媒體推文不是為了提供用戶最佳體驗而得到訓(xùn)練;相反,它們只是對鏈接和協(xié)議充分利用,這是最簡單的數(shù)據(jù)獲取途徑。
但是點贊量與數(shù)量無關(guān),駭人聽聞的陰謀論非常捉人眼球,但是你真的想在你的推文中看到他們嗎?這樣的錯誤匹配導(dǎo)致了許多意料之外的副作用,包括有點擊誘餌的激增,政治上的虛假信息廣泛傳播,充滿惡意的、煽動性的內(nèi)容廣泛存在。
在另一些時候,模型在這樣的數(shù)據(jù)集上進行訓(xùn)練:由非母語使用者或由那些知道低質(zhì)量的結(jié)果永遠不會被檢測到的工作者創(chuàng)立的數(shù)據(jù)集。以下面推文為例:
一個典型的標(biāo)記器會識別到“bitches”,“fucking”和“shit”并將此推文標(biāo)記為有害的,不管這些謾罵其實是基于一個正向的,向上的態(tài)度。在訓(xùn)練集中這樣的情況出現(xiàn)過無數(shù)次。數(shù)據(jù)定義模型。如果數(shù)據(jù)是錯誤標(biāo)記的垃圾,沒有一位機器學(xué)習(xí)專家能夠防止模型也同樣無用無效。
我們需要怎樣的進步?
數(shù)據(jù)集問題引起了一大堆問題。
當(dāng)遇到運行不佳的模型時,工程師們花費數(shù)月的時間來修補產(chǎn)品特征和新的算法,未曾意識到問題存在于他們的數(shù)據(jù)當(dāng)中。本應(yīng)用來凝聚親情和友情的算法,相反之下,帶來了熾熱的情緒和憤怒的評論。如何解決這些問題呢?
(1) 熟練且高質(zhì)量的,能夠理解你正嘗試去解決的問題的標(biāo)記器
雖然AI系統(tǒng)越來越復(fù)雜,我們需要先進巧妙的人類標(biāo)記系統(tǒng)來教導(dǎo)和測量它們的性能。想想那些對世界有足夠了解的模型,可以對誤導(dǎo)的信息進行分類,或者那些可以增加時間而不是點擊的算法。
這種復(fù)雜程度不會因為多用低技能工人而提高。為了讓我們的機器了解仇恨言論,并識別算法的偏見,我們需要高質(zhì)量的、它們自己也了解這些問題的標(biāo)簽力量。
(2) 給機器學(xué)習(xí)小組和識別器交流的空間
機器學(xué)習(xí)模型在不斷變化著。今日被識別為垃圾郵件的信息明天可能不會如此,而我們永不可能對標(biāo)記口令的每一個邊邊角角都有所掌握。
正如構(gòu)建產(chǎn)品是用戶和工程師之間反饋驅(qū)動的過程一樣,創(chuàng)建數(shù)據(jù)集也應(yīng)該如此。當(dāng)數(shù)一張圖片中的臉時,卡通人物算嗎?當(dāng)標(biāo)記仇恨言論時,引號在哪里?標(biāo)記器在瀏覽了成千上萬的例子后發(fā)現(xiàn)了歧義和見解,為了最大化數(shù)據(jù)質(zhì)量,我們需要雙方進行溝通。
(3) 目標(biāo)功能與人類價值觀一致
模型常常是在數(shù)據(jù)集上訓(xùn)練的,而這些數(shù)據(jù)集僅僅是它們真實目標(biāo)的近似值,從而導(dǎo)致了意想不到的分歧。
例如,在人工智能安全的辯論中,人們擔(dān)心機器智能發(fā)展到威脅世界的程度。另一些人則反駁說,這是一個在遙遠的未來才會出現(xiàn)的問題——然而,看看今天科技平臺面臨的最大問題,這不是已經(jīng)發(fā)生了嗎?
例如,F(xiàn)acebook的使命不是獲得“贊”,而是將我們與朋友和家人聯(lián)系起來。但是通過訓(xùn)練其模型來增加喜好和互動,他們學(xué)會了傳播那些高度吸引人的內(nèi)容,但也會帶來傷害和誤導(dǎo)。
如果Facebook能將人類價值觀注入到其培訓(xùn)目標(biāo)中會怎樣?這并不是一個幻想:谷歌搜索已經(jīng)在其實驗過程中使用了人類評估,我們正在構(gòu)建的人工智能系統(tǒng)也致力于這樣做。
一個數(shù)據(jù)驅(qū)動的AI未來
從核心而言,機器學(xué)習(xí)是關(guān)于教導(dǎo)計算機按照我們所想的方式工作,而我們通過示以正例的方法來實現(xiàn)目標(biāo)。所以為了構(gòu)建高質(zhì)量的模型,一個機器學(xué)習(xí)工程師需要掌握的最重要技能不應(yīng)該是構(gòu)建高質(zhì)量的數(shù)據(jù)集,并確保他們與手頭的問題相符嗎?
最終,我們關(guān)心的是AI能否解決人類的需求,而不是它是否超過了人工基準(zhǔn)。
如果你在處理內(nèi)容調(diào)節(jié),你的數(shù)據(jù)集是檢測到了惡意言論,還是也捕捉到積極向上、振奮人心的謾罵?
如果你正在建設(shè)下一代的搜索和推薦系統(tǒng),你的數(shù)據(jù)集是在設(shè)置模型的相關(guān)性和質(zhì)量,——還是令人入迷的誤導(dǎo)和引誘點擊?
創(chuàng)建數(shù)據(jù)集不是學(xué)校里教的東西,對于那些花了數(shù)年時間研究算法的工程師來說,專注于arXiv中最花哨的模型是很容易的。但如果希望人工智能能夠解決自己的現(xiàn)實需求,我們需要對定義模型的數(shù)據(jù)集進行深度思考,并賦予它們一定的人文色彩。