區(qū)塊鏈對(duì)人工智能的變革:去中心化將帶來(lái)數(shù)據(jù)新范式
近年,從圍棋到人類水平的語(yǔ)音識(shí)別,人工智能(AI)研究者終于在他們幾十年一直努力探索的領(lǐng)域取得了突破。取得突破進(jìn)展的關(guān)鍵一點(diǎn)是研究者們可以收集巨量的數(shù)據(jù)并「學(xué)習(xí)」這些數(shù)據(jù),從而將錯(cuò)誤率降低到可接受范圍以內(nèi)。
簡(jiǎn)而言之,大數(shù)據(jù)大為改觀了人工智能的發(fā)展,將其推到一個(gè)幾乎難以置信的高度。
區(qū)塊鏈技術(shù)同樣能夠變革人工智能——當(dāng)然以它自己的特定方式進(jìn)行。部分將區(qū)塊鏈用于人工智能方式目前還很單一,比如在人工智能模型上進(jìn)行審計(jì)跟蹤(audit trail)。有些應(yīng)用幾乎是難以置信的,比如擁有自己的人工智能——人工智能去中心化自治組織(AI DAO)。這些都是發(fā)展的機(jī)會(huì)。這篇文章將具體探討這些應(yīng)用。
作為藍(lán)海數(shù)據(jù)庫(kù)的區(qū)塊鏈(blockchain)
在討論這些應(yīng)用之前,我們先來(lái)了解一下區(qū)塊鏈與傳統(tǒng)大數(shù)據(jù)的分布式數(shù)據(jù)庫(kù)(比如 MongoDB)之間的差異。
我們可以將區(qū)塊鏈視為「藍(lán)?!箶?shù)據(jù)庫(kù):它們逃離了現(xiàn)有市場(chǎng)上有鯊魚競(jìng)爭(zhēng)的「紅?!?,而是沒(méi)有市場(chǎng)競(jìng)爭(zhēng)的藍(lán)海。藍(lán)海的著名例子是視頻游戲主機(jī) Wii(妥協(xié)了原始性能,但添加了新的互動(dòng)模式),或 Yellow Tail 葡萄酒(忽略了葡萄酒愛(ài)好者矯揉造作的繁復(fù)規(guī)范,使葡萄酒更容易被啤酒愛(ài)好者接受)。
根據(jù)傳統(tǒng)的數(shù)據(jù)庫(kù)標(biāo)準(zhǔn),傳統(tǒng)的區(qū)塊鏈(如比特幣)是糟糕的:低吞吐量、低容量、高延遲、糟糕的查詢支持等。但在藍(lán)海思維中,這是可以接受的,因?yàn)閰^(qū)塊鏈引入了三個(gè)新特性:去中心化/共享控制、不變性/審計(jì)跟蹤和本地資產(chǎn)/交換。受比特幣啟發(fā)的人們樂(lè)于忽視傳統(tǒng)的以數(shù)據(jù)庫(kù)為主的缺點(diǎn),因?yàn)檫@些新的好處有可能以全新的方式影響整個(gè)行業(yè)和社會(huì)。
這三個(gè)新的「區(qū)塊鏈」數(shù)據(jù)庫(kù)特征對(duì)于人工智能應(yīng)用也有潛在的借鑒意義。但是大多數(shù)實(shí)際的人工智能工作涉及大量的數(shù)據(jù),如大數(shù)據(jù)集訓(xùn)練或高吞吐量流處理(stream processing)。因此,對(duì)于區(qū)塊鏈在人工智能領(lǐng)域的應(yīng)用,需要具有大數(shù)據(jù)可擴(kuò)展性和查詢的區(qū)塊鏈技術(shù)。像 BigchainDB 這樣的新興技術(shù)及其公共網(wǎng)絡(luò) IPDB(Internet Pinball Machine Database)正是如此。這使得獲得區(qū)塊鏈的好處時(shí)不再需要舍棄傳統(tǒng)的大數(shù)據(jù)數(shù)據(jù)庫(kù)的優(yōu)點(diǎn)。
人工智能區(qū)塊鏈的概述
大規(guī)模的區(qū)塊鏈技術(shù)解鎖了其在人工智能應(yīng)用上的潛力。從區(qū)塊鏈的三點(diǎn)好處開(kāi)始,我們來(lái)探討一下這些潛力。
這些區(qū)塊鏈的好處為人工智能實(shí)踐者帶來(lái)了以下機(jī)會(huì):
去中心化/共享控制激勵(lì)了數(shù)據(jù)共享:
(1)帶來(lái)更多的數(shù)據(jù),因此可以訓(xùn)練出更好的模型。
(2)帶來(lái)新的定性數(shù)據(jù),因此新的定性模型。
(3)允許共享控制人工智能的訓(xùn)練數(shù)據(jù)和模型。
不變性/審計(jì)跟蹤:
(4)為訓(xùn)練/測(cè)試數(shù)據(jù)和模型提供了保證,提高數(shù)據(jù)和模型的可信度。數(shù)據(jù)也需要聲譽(yù)。
本地資產(chǎn)/交換:
(5)使訓(xùn)練/測(cè)試數(shù)據(jù)和模型成為知識(shí)產(chǎn)權(quán)(Intellectual Property/IP)資產(chǎn),這可以帶來(lái)去中心化的數(shù)據(jù)和模型交換。能更好地控制數(shù)據(jù)的上游使用。
還有一個(gè)機(jī)會(huì):(6)人工智能與區(qū)塊鏈解鎖人工智能去中心化自治組織(AI DAO/Decentralized Autonomous Organizations)的可能性。這些人工智能可以積累財(cái)富。在很大程度上,它們就是軟件即服務(wù)(Software-as-a-Service)。
區(qū)塊鏈還可以以更多的方式幫助人工智能。反過(guò)來(lái),人工智能可以有許多方法幫助區(qū)塊鏈,如挖掘區(qū)塊鏈數(shù)據(jù)(例如 Silk Road 調(diào)查)。這是另外的討論話題: )
許多這些機(jī)會(huì)是關(guān)于人工智能與數(shù)據(jù)的特殊關(guān)系。讓我們先來(lái)探討一下。在此之后,我們將更詳細(xì)地探討區(qū)塊鏈在人工智能領(lǐng)域的應(yīng)用。
人工智能 & 數(shù)據(jù)
在這里,我將描述現(xiàn)代人工智能為了產(chǎn)生好的結(jié)果是怎樣利用大量數(shù)據(jù)的。(雖然不總是這樣,但它很常見(jiàn)并值得描述。)
「?jìng)鹘y(tǒng)」人工智能 & 數(shù)據(jù)的歷史
當(dāng)我在 90 年代開(kāi)始做人工智能研究時(shí),一個(gè)典型的方法是:
- 找到一個(gè)固定的數(shù)據(jù)集(通常很小)。
- 設(shè)計(jì)一種算法來(lái)提高性能,例如為支持向量機(jī)分類器設(shè)計(jì)一個(gè)新的核函數(shù),以提高 AUC 值。
在會(huì)議或期刊上發(fā)表該算法?!缸钚】砂l(fā)表的改進(jìn)程度」只需要相對(duì)提高 10%,只要你的算法本身足夠花哨。如果你的提高程度在 2 倍-10 倍 之間,你可以發(fā)表到該領(lǐng)域最好的期刊了,特別是如果算法真的很花哨(復(fù)雜)的話。
如果這聽(tīng)起來(lái)很學(xué)術(shù),那是因?yàn)樗旧砭秃軐W(xué)術(shù)。大多數(shù)人工智能工作仍然在學(xué)術(shù)界,雖然有實(shí)際的應(yīng)用場(chǎng)景。在我的經(jīng)驗(yàn)中,許多人工智能子領(lǐng)域中都是這樣的,包括神經(jīng)網(wǎng)絡(luò)、模糊系統(tǒng)(fuzzy system)、進(jìn)化計(jì)算(evolutionary computation),甚至不那么人工智能的技術(shù),如非線性規(guī)劃或凸優(yōu)化。
在我第一篇發(fā)表的論文《Genetic Programming with Least Squares for Fast, Precise Modeling of Polynomial Time Series》(1997)中,我自豪地展示了我新發(fā)明的算法與最先進(jìn)的神經(jīng)網(wǎng)絡(luò)、遺傳編程等相比在最小的固定數(shù)據(jù)集上有最好的結(jié)果。
走向現(xiàn)代人工智能 & 數(shù)據(jù)
但是,世界變化了。2001 年,微軟研究人員 Banko 和 Brill 發(fā)表了一篇有著顯著成果的論文。首先,他們描述了大多數(shù)自然語(yǔ)言處理領(lǐng)域的工作基于小于 100 萬(wàn)字的小數(shù)據(jù)集上的情況。在這種情況下,對(duì)于舊/無(wú)聊/不那么花哨的算法,錯(cuò)誤率為 25%,如樸素貝葉斯(Naive Bayes)和感知器(Perceptron),而花哨的較新的基于記憶的算法(memory-based algorithms)實(shí)現(xiàn)了 19%的錯(cuò)誤率。這是下面最左邊的四個(gè)數(shù)據(jù)點(diǎn)。
到目前為止,還沒(méi)有什么讓人驚訝的。但是,Banko 和 Brill 揭示了一些不同尋常的東西:當(dāng)你添加更多的數(shù)據(jù)——不僅僅是一點(diǎn)數(shù)據(jù),而是多達(dá)數(shù)倍的數(shù)據(jù)——并保持算法相同,那么錯(cuò)誤率會(huì)持續(xù)下降很多。到數(shù)據(jù)集大到三個(gè)數(shù)量級(jí)時(shí),誤差小于 5%。在許多領(lǐng)域,這是 18%到 5%之間的差異,但是只有后者對(duì)于實(shí)際應(yīng)用是足夠好的。
此外,最好的算法是最簡(jiǎn)單的;最糟糕的算法是最花哨的。來(lái)自 20 世紀(jì) 50 年代的無(wú)聊的感知器算法正在擊敗最先進(jìn)的技術(shù)。
現(xiàn)代人工智能 & 數(shù)據(jù)
Banko 和 Brill 并不是唯一發(fā)現(xiàn)這個(gè)規(guī)律的人。例如,在 2007 年,谷歌研究人員 Halevy、Norvig 和 Pereira 發(fā)表了一篇文章,顯示數(shù)據(jù)可以如何「不合理地有效」跨越許多人工智能領(lǐng)域。
這就像原子彈一樣沖擊了人工智能領(lǐng)域。
數(shù)據(jù)才是關(guān)鍵!
于是收集更多的數(shù)據(jù)的競(jìng)賽開(kāi)始了。需要大量的努力才能獲得好數(shù)據(jù)。如果你有資源,就可以得到數(shù)據(jù)。有時(shí)甚至可以鎖定數(shù)據(jù)。在這個(gè)新世界里,數(shù)據(jù)是壕溝,人工智能算法是一種商品。出于這些原因,「更多數(shù)據(jù)」是谷歌、Facebook 等公司的關(guān)鍵。
「越多數(shù)據(jù),越多財(cái)富」——每個(gè)人
一旦你了解這些動(dòng)態(tài),具體行動(dòng)就有了簡(jiǎn)單的解釋。谷歌收購(gòu)衛(wèi)星成像公司不是因?yàn)樗矚g衛(wèi)星圖像;而谷歌又開(kāi)放了 TensorFlow。
深度學(xué)習(xí)直接適用于這種情境:如果給定一個(gè)足夠大的數(shù)據(jù)集,它能弄清楚如何獲取相互影響和潛在變量。有趣的是,如果給予相同的大規(guī)模數(shù)據(jù)集,來(lái)自上世紀(jì) 80 年代的反向傳播神經(jīng)網(wǎng)絡(luò)有時(shí)能與最新的技術(shù)媲美。參考論文《Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition》。所以說(shuō)數(shù)據(jù)才是關(guān)鍵。
作為一個(gè)人工智能研究員我自己成熟的年齡是類似的。當(dāng)我遇到現(xiàn)實(shí)世界的問(wèn)題時(shí),我學(xué)會(huì)了如何吞下我的驕傲,放棄「炫酷」的算法,僅僅滿足能夠解決手頭上問(wèn)題,并學(xué)會(huì)了熱愛(ài)數(shù)據(jù)和規(guī)模。我們將重心從自動(dòng)化的創(chuàng)意設(shè)計(jì)轉(zhuǎn)向了「無(wú)聊」的參數(shù)優(yōu)化;同時(shí)當(dāng)用戶要求我們從 10 個(gè)變量增加到 1000 和變量時(shí),我們?cè)诖颐?yīng)對(duì)中變得不那么無(wú)聊——我的第一家公司 ADA(1998–2004)的情況就是這樣。我們將重心從華麗的建模方法轉(zhuǎn)移到超級(jí)簡(jiǎn)單但可完全擴(kuò)展的機(jī)器學(xué)習(xí)算法(如 FFX);當(dāng)用戶要求從 100 個(gè)變量增加到 100000 個(gè),從 100 億蒙特卡洛樣本增加到 10 億(有效樣本),我們同樣不無(wú)聊——這發(fā)生在我的第二家公司 Solido(2004—至今)。即使是我第三家也是目前的公司的產(chǎn)品 BigchainDB,也體現(xiàn)了對(duì)規(guī)模的需要(2013—至今)。擴(kuò)展功能,擴(kuò)大規(guī)模。
機(jī)會(huì) 1:數(shù)據(jù)共享→更好的模型
總之:去中心化/共享控制能促進(jìn)數(shù)據(jù)共享,這反過(guò)來(lái)又帶來(lái)更好的模型、更高的利潤(rùn)/更低的成本/等。闡述如下:
人工智能熱衷數(shù)據(jù)。數(shù)據(jù)越多,模型越好。然而,數(shù)據(jù)往往是孤立的,尤其是在這個(gè)新世界里,數(shù)據(jù)可能是難以逾越的鴻溝。
但是如果有足夠的正面效益,區(qū)塊鏈鼓勵(lì)傳統(tǒng)的獨(dú)立體間數(shù)據(jù)共享。區(qū)塊鏈的去中心化本質(zhì)鼓勵(lì)數(shù)據(jù)共享:如果沒(méi)有單一的實(shí)體控制存儲(chǔ)數(shù)據(jù)的基礎(chǔ)設(shè)施,共享就會(huì)有更少的沖突。之后我會(huì)舉出更多好處。
數(shù)據(jù)共享可能發(fā)生在一個(gè)企業(yè)中(如在區(qū)域辦公室)、一個(gè)生態(tài)系統(tǒng)內(nèi)(如一個(gè)「財(cái)團(tuán)」數(shù)據(jù)庫(kù))或整個(gè)星球(例如共享行星數(shù)據(jù)庫(kù),即公開(kāi)區(qū)塊鏈)。
下面給出了每個(gè)對(duì)應(yīng)的例子:
企業(yè)內(nèi):使用區(qū)塊鏈技術(shù)來(lái)合并來(lái)自不同區(qū)域辦公室的數(shù)據(jù),因?yàn)樗芙档推髽I(yè)審核自己數(shù)據(jù)的成本,并和審計(jì)員共享數(shù)據(jù)。隨著新的數(shù)據(jù)到位,企業(yè)可以建立人工智能模型,例如,相比以前只建立在區(qū)域辦公室水平的模型,新模型能更好地預(yù)測(cè)客戶流失的模型。每個(gè)區(qū)域辦公室的「數(shù)據(jù)集市」?
生態(tài)系統(tǒng)內(nèi):競(jìng)爭(zhēng)對(duì)手(例如,銀行或唱片公司)過(guò)去永遠(yuǎn)不會(huì)分享他們的數(shù)據(jù)。但現(xiàn)在可能坦率地展示,結(jié)合幾個(gè)銀行的數(shù)據(jù),可以做更好的模型以預(yù)防信用卡欺詐?;蛘吖?yīng)鏈機(jī)構(gòu)通過(guò)區(qū)塊鏈共享數(shù)據(jù),對(duì)供應(yīng)鏈中更早地?cái)?shù)據(jù)使用人工智能,可以更好地確定在供應(yīng)鏈中導(dǎo)致失敗的根本原因。例如,大腸桿菌的菌株究竟出現(xiàn)在哪里?
在整個(gè)星球范圍內(nèi)(公共區(qū)塊鏈數(shù)據(jù)庫(kù)):考慮不同生態(tài)系統(tǒng)之間的數(shù)據(jù)共享(例如能源使用數(shù)據(jù)+汽車零部件供應(yīng)鏈數(shù)據(jù));或個(gè)人參與者在一個(gè)行星尺度的生態(tài)系統(tǒng)(如網(wǎng)絡(luò))。更多的數(shù)據(jù)來(lái)源可以改善模型。例如,在中國(guó)一些工廠能源使用量的峰值可能與非法汽車零部件花了一天在市場(chǎng)運(yùn)輸有關(guān)??偟膩?lái)說(shuō),我們看到公司匯總數(shù)據(jù),進(jìn)行洗白,重新包裝并出售的行徑;從 Bloomberg 終端到幾十(或幾百個(gè))初創(chuàng)企業(yè)通過(guò) http APIs 銷售數(shù)據(jù)。我在稍后闡述這一未來(lái)。
敵人們共享他們的數(shù)據(jù)來(lái)喂養(yǎng)一個(gè)人工智能。2016 多么有趣!
機(jī)會(huì) 2:數(shù)據(jù)共享→新模型
在某些情況下,當(dāng)獨(dú)立的數(shù)據(jù)被合并,你不只是得到一個(gè)更好的數(shù)據(jù)集,還得到一個(gè)新的數(shù)據(jù)集。這能帶來(lái)全新的模型,從中你可以收集新的見(jiàn)解、進(jìn)行新的業(yè)務(wù)應(yīng)用。也就是說(shuō),你可以做一些你以前不能做的事情。
這里有一個(gè)用于識(shí)別鉆石欺詐例子。如果你是一家提供鉆石保險(xiǎn)的銀行,你想開(kāi)發(fā)一個(gè)識(shí)別鉆石是否欺詐的分類器。在地球上有四個(gè)值得信賴的鉆石認(rèn)證實(shí)驗(yàn)室(當(dāng)然取決于你問(wèn)誰(shuí))。如果你只能訪問(wèn)其中一個(gè)實(shí)驗(yàn)室的鉆石數(shù)據(jù),那么你就看不到其他三家的數(shù)據(jù),你的分類器可能很容易把其他家的鉆石標(biāo)記為欺詐(見(jiàn)下圖,左)。你的誤報(bào)率會(huì)使你的系統(tǒng)不可用。
相反如果區(qū)塊鏈促進(jìn)四個(gè)認(rèn)證實(shí)驗(yàn)室共享他們的數(shù)據(jù),你就有所有的合法數(shù)據(jù),從利用它們你將建立一個(gè)分類器(右下)。任何輸入的鉆石,例如在 eBay 上看到,將遍歷系統(tǒng),并與分類器中的每一類進(jìn)行比較。該分類器可以檢測(cè)真實(shí)的欺詐行為,避免誤報(bào),從而降低誤報(bào)率,使保險(xiǎn)供應(yīng)商和認(rèn)證實(shí)驗(yàn)室受益。這可以簡(jiǎn)單地作為一個(gè)查找框,即不需要人工智能。但使用人工智能進(jìn)一步提高了它,例如基于顏色、克拉預(yù)測(cè)價(jià)格,然后用「價(jià)格和價(jià)值的接近程度」作為主要欺詐分類器的輸入。
這里的第二個(gè)例子是,去中心化系統(tǒng)中的一個(gè)適當(dāng)?shù)?token 激勵(lì)機(jī)制(token-incentive scheme)可以激勵(lì)先前未標(biāo)記的數(shù)據(jù)集得到標(biāo)記,或者是以一個(gè)更經(jīng)濟(jì)的方式進(jìn)行標(biāo)記。這基本上就是去中心化的 Mechanical Turk(亞馬遜的眾包服務(wù)平臺(tái))。有了新標(biāo)簽,我們就得到了新數(shù)據(jù)集;我們使用新數(shù)據(jù)集進(jìn)行訓(xùn)練以獲得新模型。第三個(gè)例子是,token 激勵(lì)機(jī)制可能會(huì)導(dǎo)致來(lái)自物聯(lián)網(wǎng)設(shè)備的直接數(shù)據(jù)輸入。這些設(shè)備控制數(shù)據(jù)并可以將其交換為資產(chǎn),比如能源。同樣地,這個(gè)新數(shù)據(jù)可能會(huì)帶來(lái)新模型。
囤積 vs 分享?此處的兩個(gè)相反動(dòng)機(jī)之間有一個(gè)緊張關(guān)系。一個(gè)是囤積數(shù)據(jù)——即「數(shù)據(jù)是新護(hù)城河」的觀點(diǎn);另一個(gè)是共享數(shù)據(jù),為了得到更好的/新的模式。分享行為必須要有一個(gè)超過(guò)「護(hù)城河」效益的足夠驅(qū)動(dòng)力。技術(shù)驅(qū)動(dòng)力是得到更好的模式或新的模式,但這個(gè)驅(qū)動(dòng)力必須要有商業(yè)價(jià)值??赡軒?lái)的利益包括降低原材料或供應(yīng)鏈中的保險(xiǎn)儲(chǔ)蓄詐騙;將 Mechanical Turk 作為賺錢副業(yè);數(shù)據(jù)/模型交換;或是對(duì)抗強(qiáng)大的核心玩家的集體行動(dòng),就像唱片公司合力對(duì)抗蘋果的 iTunes 一樣,等等;它需要?jiǎng)?chuàng)造性的商業(yè)策略。
中心化 vs 去中心化?即使一些組織選擇分享數(shù)據(jù),他們也可以在無(wú)需區(qū)塊鏈技術(shù)的情況下這樣做。例如,他們可以簡(jiǎn)單地將其囤入 S3 實(shí)例中并提供出 API。但在某些情況下,去中心化帶來(lái)了新的好處。首先是基礎(chǔ)設(shè)施的直接共享,這樣共享聯(lián)盟中的任一組織就不會(huì)自己控制所有的「共享數(shù)據(jù)」。(這在幾年前是一個(gè)主要的障礙,那時(shí)唱片公司嘗試過(guò)為一個(gè)公共注冊(cè)系統(tǒng)而合作。)另一個(gè)好處是讓數(shù)據(jù) & 模型轉(zhuǎn)變?yōu)橘Y產(chǎn)變得更加容易,然后這樣可以進(jìn)行外部授權(quán)以獲利。我下文會(huì)詳細(xì)闡述這一點(diǎn)。
如前所述,數(shù)據(jù) & 模型共享會(huì)發(fā)生在三個(gè)層次:在一家企業(yè)內(nèi)部(跨國(guó)公司的情況比你想象的要難);在一個(gè)生態(tài)系統(tǒng)或聯(lián)合體中;或在這個(gè)星球中(相當(dāng)于成為一個(gè)公用事業(yè))。讓我們更深入地探索這個(gè)行星尺度的分享吧。
機(jī)會(huì) 2A:行星層次的新數(shù)據(jù) → 行星層次的新見(jiàn)解
整個(gè)星球?qū)用娴臄?shù)據(jù)共享可能是最有趣的。讓我們進(jìn)一步深入這個(gè)問(wèn)題。
IPDB 是全球范圍的結(jié)構(gòu)化數(shù)據(jù),而不是零碎的。將萬(wàn)維網(wǎng)視為互聯(lián)網(wǎng)上的文件系統(tǒng);IPDB 是其數(shù)據(jù)庫(kù)副本。(我認(rèn)為我們沒(méi)有看到更多相關(guān)工作的原因,在于語(yǔ)義上的 Web 工作試圖以升級(jí)文件系統(tǒng)的角度去實(shí)現(xiàn)它。但通過(guò)「升級(jí)」文件系統(tǒng)來(lái)建立數(shù)據(jù)庫(kù)是相當(dāng)困難的!如果從一開(kāi)始就說(shuō)你正在建立一個(gè)數(shù)據(jù)庫(kù)并設(shè)計(jì)它之類的話,這樣更有效果。)「全局變量(Global variable)」會(huì)得到更加字面上的解釋 : )(注:global 也有「全球」的意思)
那么,當(dāng)我們有一個(gè)行星尺度的、像 IPDB 那樣的數(shù)據(jù)庫(kù)共享服務(wù),或是怎樣一番景象?我們有幾個(gè)參考點(diǎn)。
第一個(gè)參考點(diǎn)是,在企業(yè)界的公共數(shù)據(jù)管理與重新包裝使其更易被消費(fèi)方面,從簡(jiǎn)單的天氣或網(wǎng)絡(luò)時(shí)間的 API,到股票和貨幣之類的金融數(shù)據(jù) API,最近已經(jīng)有一個(gè)十億美元的市場(chǎng)了。想象一下,所有這些數(shù)據(jù)都可通過(guò)一個(gè)單一的數(shù)據(jù)庫(kù)以一種類似的結(jié)構(gòu)化方式(即使只是一個(gè) API 的通行證)進(jìn)行訪問(wèn)。就好像有了 1000 個(gè)彭博社。不用擔(dān)心受制于某個(gè)單一的實(shí)體。
第二個(gè)參考點(diǎn)來(lái)自于區(qū)塊鏈,即通過(guò)一個(gè)區(qū)塊鏈來(lái)「oraclize」外部數(shù)據(jù)使其易于消費(fèi)的概念。但我們可以 oraclize 一切。去中心化的彭博社只是開(kāi)始。
總體而言,我們得到了數(shù)據(jù)集與數(shù)據(jù)源多樣性的一個(gè)全新規(guī)模。因此從性質(zhì)上講,我們有了新數(shù)據(jù)。行星層次的結(jié)構(gòu)化數(shù)據(jù)。由此從性質(zhì)上講,我們可以建立新的模型,使得之前沒(méi)有聯(lián)系的輸入 & 輸出之間產(chǎn)生關(guān)聯(lián)。有了模型,我們將獲得性質(zhì)上的新見(jiàn)解。
我希望此處可以說(shuō)得更具體一些,但是它太新了,我想不出任何例子。不過(guò),它們會(huì)出現(xiàn)的!
還會(huì)有一個(gè) Bot 角度的。我們一直假定區(qū)塊鏈 API 的主要消費(fèi)者會(huì)是人類。但如果是機(jī)器呢?現(xiàn)代 DNS 的創(chuàng)造者 David Holtzman 最近說(shuō),「IPDB 是人工智能的飼料(kibbles)」。分析一下,這是由于 IPDB 實(shí)現(xiàn)并鼓勵(lì)了行星層次的數(shù)據(jù)共享,而人工智能實(shí)在是很喜歡吃數(shù)據(jù)。
機(jī)會(huì) 3:數(shù)據(jù) & 模型中的審計(jì)跟蹤使預(yù)測(cè)結(jié)果更加值得信賴
此應(yīng)用針對(duì)的是這樣一個(gè)事實(shí):如果你使用垃圾數(shù)據(jù)進(jìn)行訓(xùn)練,那么你將得到一個(gè)垃圾模型。數(shù)據(jù)測(cè)試同理:垃圾進(jìn),垃圾出。
垃圾可能來(lái)自于惡意行事者/可能篡改了數(shù)據(jù)的拜占庭式故障。想一下大眾汽車的排放丑聞。垃圾也可能來(lái)自于無(wú)惡意的演員/崩潰式故障,例如有缺陷的物聯(lián)網(wǎng)傳感器、一個(gè)出錯(cuò)的輸入數(shù)據(jù),或是環(huán)境輻射引起的一點(diǎn)波動(dòng)(沒(méi)有良好的糾錯(cuò)行為)。
你怎么知道 X / y 訓(xùn)練數(shù)據(jù)沒(méi)有缺陷?現(xiàn)場(chǎng)使用呢,在現(xiàn)場(chǎng)輸入的數(shù)據(jù)上運(yùn)行模型的情況?那么模型預(yù)測(cè)(yhat)呢?簡(jiǎn)而言之:進(jìn)入模型以及來(lái)自模型的數(shù)據(jù)都經(jīng)歷了什么?數(shù)據(jù)也要名譽(yù)。
區(qū)塊鏈技術(shù)可以給以幫助。下面講具體做法。在過(guò)程的每一步中都建立模型,并在該領(lǐng)域運(yùn)行模型,該數(shù)據(jù)的創(chuàng)造者可以簡(jiǎn)單地為模型加上區(qū)塊鏈數(shù)據(jù)庫(kù)的時(shí)間戳,包括數(shù)字簽字以聲明「我相信這一點(diǎn)上的此數(shù)據(jù)/模型是沒(méi)問(wèn)題的」。再具體一點(diǎn)就是…
建模來(lái)源:
- 傳感器數(shù)據(jù)(包括物聯(lián)網(wǎng))。你相信你的物聯(lián)網(wǎng)傳感器對(duì)你說(shuō)的話嗎?
- 訓(xùn)練輸入/輸出(X / y)數(shù)據(jù)。
- 建模本身,比如你可以使用可信執(zhí)行(Trusted execution)基礎(chǔ)設(shè)施,或是進(jìn)行復(fù)核計(jì)算的 TrueBit 式的市場(chǎng)。至少有建模型收斂曲線的建模證據(jù)(例如 nmse* *vs. epoch)。
- 模型本身。
測(cè)試過(guò)程/該領(lǐng)域中的來(lái)源:
- 測(cè)試輸入(X)數(shù)據(jù)。
- 模型仿真??尚艌?zhí)行、TrueBit 等。
- 測(cè)試輸出(yhat)數(shù)據(jù)。
我們可以在模型的建立與應(yīng)用過(guò)程中得到其來(lái)源。其結(jié)果是更可信的人工智能訓(xùn)練數(shù)據(jù) & 模型。我們還可以擁有這樣的連鎖結(jié)構(gòu)。模型的模型,就像在半導(dǎo)體電路設(shè)計(jì)中那樣一直到底?,F(xiàn)在,一切都有出處了。
好處包括:
- (在最廣泛的意義上)捕捉所有層次上的數(shù)據(jù)供應(yīng)鏈中的漏洞。例如你可以判斷傳感器是否在說(shuō)謊。
- 你知道數(shù)據(jù)和模型的來(lái)歷,并且是以密碼驗(yàn)證的方式。
- 您可以在數(shù)據(jù)供應(yīng)鏈中發(fā)現(xiàn)漏洞。這樣一來(lái),如果發(fā)生錯(cuò)誤,我們能更好地了解其位置以及如何應(yīng)對(duì)。你可以將其當(dāng)做銀行式的和解,不過(guò)針對(duì)的是人工智能模型。
- 數(shù)據(jù)有了名譽(yù),因?yàn)槎嚯p眼睛都可以檢查那個(gè)源,并甚至聲稱自己的數(shù)據(jù)判斷如何有效。相應(yīng)地,模型也有了聲譽(yù)。
機(jī)會(huì) 4:訓(xùn)練數(shù)據(jù) & 模型全球共享注冊(cè)系統(tǒng)
但是如果我們有一個(gè)可以方便管理另一個(gè)數(shù)據(jù)集或數(shù)據(jù)饋送(免費(fèi)或其他)的全球數(shù)據(jù)庫(kù)呢?這包括一系列出自各種機(jī)器學(xué)習(xí)比賽的 Kaggle 數(shù)據(jù)集、斯坦福 ImageNet 數(shù)據(jù)集及其他不計(jì)其數(shù)的數(shù)據(jù)集。
這正是 IPDB 可以做到的。人們可以提交數(shù)據(jù)集并使用其他人的數(shù)據(jù)。數(shù)據(jù)本身會(huì)在一個(gè)去中心化的文件系統(tǒng)中,就像 IPFS ;而元數(shù)據(jù)(及數(shù)據(jù)指針本身)將會(huì)在 IPDB 中。我們會(huì)獲得一個(gè)人工智能數(shù)據(jù)集的全局共享空間。這有助于實(shí)現(xiàn)打造數(shù)據(jù)開(kāi)放社區(qū)的夢(mèng)想。
我們無(wú)需停留在數(shù)據(jù)集層面;我們也可以包括從這些數(shù)據(jù)集中建立起來(lái)的模型。抓取和運(yùn)行他人的模型并提交自己的模型應(yīng)該很容易。一個(gè)全球性的數(shù)據(jù)庫(kù)可以大大方便這一過(guò)程。我們可以得到行星所擁有的模型。
機(jī)會(huì) 5:作為 IP 資產(chǎn)的數(shù)據(jù) & 模型→數(shù)據(jù) & 模型交換
讓我們基于訓(xùn)練數(shù)據(jù)和模型的「全局共享注冊(cè)系統(tǒng)」這一應(yīng)用。數(shù)據(jù) & 模型可以成為公共共享內(nèi)容的一部分。但它們也可以進(jìn)行購(gòu)買與出售!
數(shù)據(jù)和人工智能模型可以被用來(lái)作為知識(shí)產(chǎn)權(quán)(IP)資產(chǎn),因?yàn)樗鼈兪艿桨鏅?quán)法的保護(hù)。這意味著:
- 如果你創(chuàng)建了數(shù)據(jù)或模型就可以要版權(quán)。無(wú)論你是否想進(jìn)行任何商業(yè)行為。
- 如果你擁有數(shù)據(jù)或模型的版權(quán),那么你可以將使用權(quán)限授權(quán)給其他人。例如,你可以將你的數(shù)據(jù)授權(quán)給其他人來(lái)構(gòu)建他們自己的模型。或者你可以將你的模型授權(quán)給其他人并計(jì)入他們的移動(dòng)應(yīng)用程序。次級(jí)授權(quán)、次次級(jí)授權(quán)等也是可能的。當(dāng)然你也可以從他人那里獲得數(shù)據(jù)或模型授權(quán)。
我認(rèn)為能夠擁有一個(gè)人工智能模型的版權(quán)并進(jìn)行授權(quán),這是相當(dāng)棒的。數(shù)據(jù)已被公認(rèn)為是一個(gè)潛在的巨大市場(chǎng);模型會(huì)緊跟其上。在區(qū)塊鏈技術(shù)之前是可以對(duì)數(shù)據(jù) & 模型宣稱版權(quán)與許可的。相關(guān)法律的出臺(tái)已經(jīng)有一段時(shí)間了。但區(qū)塊鏈技術(shù)使它變得更好,因?yàn)椋?/p>
版權(quán)聲明提供了一張防篡改的全球公共注冊(cè)表;你的版權(quán)聲明是數(shù)字化/加密了的簽名。此注冊(cè)表也可以包括數(shù)據(jù) & 模型。
對(duì)于你的授權(quán)交易,它也提供了一張防篡改的全球公共注冊(cè)表。這次不僅僅是數(shù)字簽名;相反除非你有私鑰,否則你甚至不能轉(zhuǎn)讓權(quán)利。權(quán)利轉(zhuǎn)移是作為一個(gè)區(qū)塊鏈?zhǔn)降馁Y產(chǎn)轉(zhuǎn)換進(jìn)行的。
在我 2013 年致力于使用 ascribe 來(lái)幫助數(shù)字藝術(shù)家們獲得報(bào)酬的過(guò)程中,區(qū)塊鏈上的 IP 與我心心相映。最初的方法有規(guī)模和許可靈活度的上的問(wèn)題。現(xiàn)在這些都已經(jīng)被克服,我最近寫的相關(guān)文章有談到這點(diǎn)(https://medium.com/ipdb-blog/a-decentralized-content-registry-for-the-decentralized-web-99cf1335291f#.v3jl6f9om)。這項(xiàng)技術(shù)包括:
- Coala IP 是一個(gè)靈活的、區(qū)塊鏈友好的 IP 協(xié)議。
- IPDB(及 BigchainDB)是一個(gè)公共的區(qū)塊鏈共享數(shù)據(jù)庫(kù),用來(lái)存儲(chǔ)權(quán)利信息及其他網(wǎng)絡(luò)規(guī)模的元數(shù)據(jù)。
- IPFS +物理存儲(chǔ)(比如 Storj 或 Filecoin)是一個(gè)去中心化的文件系統(tǒng),用來(lái)存儲(chǔ)大數(shù)據(jù) & 模型斑點(diǎn)。
有了這個(gè),我們就有了數(shù)據(jù)與模型作為 IP 資產(chǎn)。
例如使用 ascribe 時(shí),我聲明了于幾年前建立的一個(gè)人工智能模型的版權(quán)。該人工智能模型是一個(gè)決定使用哪種模擬電路拓?fù)涞? CART(決策樹(shù))。這是它的密碼防偽證書(Certificate of Authenticity /COA)。如果你想從我這獲得一個(gè)許可版本,給我發(fā)電子郵件即可: )
一旦我們有了數(shù)據(jù)和模型作為資產(chǎn),我們就可以開(kāi)始進(jìn)行資產(chǎn)交換。
一次交換可以是中心化的,像 DatastreamX 處理數(shù)據(jù)那樣。但到目前為止,它們確實(shí)只能使用公共數(shù)據(jù)源,因?yàn)楹芏嗥髽I(yè)覺(jué)得分享的風(fēng)險(xiǎn)比效益要多。
那么去中心化的數(shù)據(jù) & 模型交換呢?對(duì)「交換」過(guò)程中所共享的數(shù)據(jù)進(jìn)行去中心化,這樣做有新的好處。去中心化過(guò)程沒(méi)有一個(gè)單一的實(shí)體去控制數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施,也沒(méi)有誰(shuí)擁有什么的分類賬本,如前所述,這更易于組織合作或數(shù)據(jù)共享。比如用于 Deep Nets 的 OpenBazaar。
有了這樣一個(gè)去中心化的交換,我們會(huì)看到一個(gè)真正的開(kāi)放數(shù)據(jù)市場(chǎng)的出現(xiàn)。這實(shí)現(xiàn)了數(shù)據(jù)與人工智能團(tuán)體間的(包括你的)長(zhǎng)期以來(lái)的一個(gè)夢(mèng)想。
當(dāng)然在這些交換之上也會(huì)產(chǎn)生一些基于人工智能算法的交易:用人工智能算法購(gòu)買人工智能模型。人工智能交易算法甚至?xí)兂蛇@個(gè)樣子:購(gòu)買算法來(lái)交易人工智能模型,然后自己進(jìn)行更新!
機(jī)會(huì) 5A:在上游控制你的數(shù)據(jù) & 模型
這是之前應(yīng)用的重復(fù)。在你登錄 Facebook 時(shí)就授予了它非常具體的權(quán)利,包括對(duì)你輸入進(jìn)其系統(tǒng)中的任何數(shù)據(jù)的處置權(quán)限。它會(huì)對(duì)你的個(gè)人資料施加許可。
當(dāng)一個(gè)音樂(lè)家用一個(gè)標(biāo)簽來(lái)簽名時(shí),他們就是在授予標(biāo)簽非常具體的權(quán)利:編輯音樂(lè)、分發(fā)音樂(lè)等等。(通常該標(biāo)簽會(huì)試圖攫取所有版權(quán),這個(gè)任務(wù)非常繁重,但那是另一回事了!)
人工智能數(shù)據(jù)和人工智能模型也同理。當(dāng)你創(chuàng)建可用于建模的數(shù)據(jù)以及創(chuàng)建模型本身時(shí),你可以預(yù)先指定許可從而在上游限制其他人的使用權(quán)限。
對(duì)于所有用例,從個(gè)人資料到音樂(lè)、從人工智能數(shù)據(jù)到人工智能模型,區(qū)塊鏈技術(shù)使這個(gè)過(guò)程變得更加容易。在區(qū)塊鏈數(shù)據(jù)庫(kù)中,你是將權(quán)限作為資產(chǎn),例如一個(gè)讀取權(quán)限或查看某條數(shù)據(jù)/模型的權(quán)利。你作為權(quán)利持有人可以將這些作為資產(chǎn)的權(quán)限轉(zhuǎn)讓給系統(tǒng)中的其他人,類似于比特幣的轉(zhuǎn)讓:創(chuàng)建轉(zhuǎn)讓交易并用你的私人密鑰簽名。
有了這個(gè),你就有可以更好地從上游控制你的人工智能訓(xùn)練數(shù)據(jù)、你的人工智能模型等等?!咐?,你可以將這些數(shù)據(jù)進(jìn)行混合卻不能進(jìn)行深入學(xué)習(xí)?!?/p>
這和 DeepMind 在其醫(yī)療保健區(qū)塊鏈項(xiàng)目(healthcare blockchain project)中所采用的部分戰(zhàn)略有點(diǎn)像。在數(shù)據(jù)挖掘中,醫(yī)療數(shù)據(jù)會(huì)帶來(lái)監(jiān)管和反壟斷問(wèn)題的風(fēng)險(xiǎn)(尤其是在歐洲)。但如果用戶可以真正擁有自己的醫(yī)療數(shù)據(jù)并控制其上游使用,那么 DeepMind 就可以僅僅告訴消費(fèi)者和監(jiān)管機(jī)構(gòu)說(shuō)「嘿,實(shí)際上客戶擁有自己的數(shù)據(jù),我們只是拿來(lái)用而已」。我的朋友 Lawrence Lundy 提供了這個(gè)好例子,然后他進(jìn)一步推斷:
完全可能的是,政府會(huì)允許數(shù)據(jù)私有(人類或 AGI)的唯一方式是一個(gè)數(shù)據(jù)共享基礎(chǔ)設(shè)施,「網(wǎng)絡(luò)中立」規(guī)則,就像 AT&T 公司和原始的那種電話線。在這個(gè)意義上,越來(lái)越多的自主人工智能會(huì)要求政府接受區(qū)塊鏈及其他數(shù)據(jù)共享基礎(chǔ)設(shè)施,從而實(shí)現(xiàn)長(zhǎng)遠(yuǎn)的可持續(xù)性。- Lawrence Lundy
機(jī)會(huì) 6:人工智能去中心化自治組織(Decentralized Autonomous Organization/DAO)——可以積累財(cái)富且無(wú)法關(guān)閉的人工智能
這是一個(gè)謊言。一個(gè) AI DAO 屬于人工智能自身,你無(wú)法關(guān)閉它。我下文會(huì)總結(jié)「如何做」。感興趣的讀者可以繼續(xù)閱讀深入該話題。
到目前為止,我們談?wù)摿藚^(qū)塊鏈作為去中心化數(shù)據(jù)庫(kù)的內(nèi)容。但我們也可以去中心化處理過(guò)程:基本上就是一個(gè)狀態(tài)機(jī)的存儲(chǔ)狀態(tài)。周圍有一些基礎(chǔ)設(shè)施的話做起來(lái)更容易,而那就是「智能合同(smart contracts)」技術(shù)(比如 Ethereum)的本質(zhì)。
我們之前已經(jīng)以計(jì)算機(jī)病毒的形式進(jìn)行了過(guò)程去中心化。沒(méi)有單個(gè)實(shí)體擁有或控制它們,而且你不能將其關(guān)閉。但它們有限制——它們主要是會(huì)試圖攻破你的計(jì)算機(jī),就是這些。
但是,如果你可以與過(guò)程進(jìn)行更豐富的互動(dòng),且過(guò)程本身可以積累財(cái)富呢?目前,通過(guò)在過(guò)程中使用更好的 API(如智能合同語(yǔ)言)和去中心化價(jià)值儲(chǔ)存(如公共區(qū)塊鏈)就可以實(shí)現(xiàn)它。
一個(gè) DAO 是一個(gè)體現(xiàn)這些特征的過(guò)程。其代碼可以擁有自己的東西。
是什么把我們帶向了人工智能。最有可能的是被稱為「人工通用智能」(Artificial General Intelligence/AGI)的人工智能子領(lǐng)域。AGI 和環(huán)境中的交互的自主代理有關(guān)。AGI 可以被模型化為一個(gè)反饋控制系統(tǒng)。這是個(gè)好消息,因?yàn)榭刂葡到y(tǒng)有很多優(yōu)點(diǎn)。首先它們有深厚的數(shù)學(xué)基礎(chǔ),這可以追溯到 20 世紀(jì) 50 年代(Wiener 的「控制論(Cybernetics)」)。它們捕捉與世界之間的互動(dòng)(驅(qū)動(dòng)和傳感),并(基于內(nèi)部模型和外部傳感器來(lái)更新?tīng)顟B(tài))適應(yīng)它。控制系統(tǒng)得到了廣泛的應(yīng)用。它們決定了一個(gè)簡(jiǎn)單的恒溫器如何去適應(yīng)目標(biāo)溫度。它們消除了高價(jià)耳機(jī)中的噪音。它們處于成千上萬(wàn)的設(shè)備的中心,從烤箱到車?yán)锏膭x車裝置。
人工智能社區(qū)最近對(duì)控制系統(tǒng)的接受程度更加熱烈了。比如,它們是 AlphaGo 的關(guān)鍵所在。而且 AGI 本身就是控制系統(tǒng)。
一個(gè) AI DAO 就是一個(gè)運(yùn)行在去中心化處理 & 存儲(chǔ)載體之上的 AGI 式控制系統(tǒng)。其反饋回路會(huì)自行進(jìn)行繼續(xù),輸入、更新?tīng)顟B(tài)、執(zhí)行輸出,循環(huán)往復(fù)地使用這些資源。
我們可以從一個(gè)人工智能入手來(lái)得到一個(gè) AI DAO(一個(gè) AGI 代理),并使其去中心化?;蛘呶覀兛梢詮囊粋€(gè) DAO 入手并賦予其人工智能的決策能力。
人工智能獲取其丟失的鏈接:資源。DAO 得到其丟失的鏈接:自主決策。正因?yàn)槿绱?,AI DAO 的使用范圍比 AI 或 DAO 本身更大。其潛在影響也是成倍的。
這里有一些應(yīng)用:
- 一個(gè) ArtDAO,創(chuàng)建自己的數(shù)字藝術(shù)并進(jìn)行銷售。概括地說(shuō),它可以做 3D 設(shè)計(jì)、音樂(lè)、視頻甚至是整部電影。
- 有自我身份的自動(dòng)駕駛汽車。概括地說(shuō)就是之前的任何人工智能應(yīng)用現(xiàn)在是「屬于自己」的了。未來(lái)的情況或許是人類一無(wú)所有而只是向 AI DAO 租用服務(wù)。
- 任何注入人工智能的 DAO 應(yīng)用程序。
- 有更多自主性的任何去中心化 SaaS 應(yīng)用程序。
- 詳情見(jiàn) AI DAOs Part II . 有一些非??膳碌?hellip; https://medium.com/@trentmc0/wild-wooly-ai-daos-d1719e040956#.r6akj4ne0
總結(jié)
本文基于我個(gè)人在人工智能和區(qū)塊鏈研究方面的經(jīng)驗(yàn),描述了區(qū)塊鏈技術(shù)可以如何輔助人工智能。二者結(jié)合一處即發(fā)!區(qū)塊鏈技術(shù)——尤其是行星尺度的——可以幫助實(shí)現(xiàn)人工智能和數(shù)據(jù)團(tuán)體長(zhǎng)期以來(lái)的一些夢(mèng)想,并打開(kāi)一些機(jī)會(huì)。
總結(jié)如下: