10種生成式人工智能顛覆傳統(tǒng)數(shù)據(jù)庫(kù)的方式
譯文盡管生成式人工智能在今年極其引人注目,但新時(shí)代的最大變革可能深藏在軟件堆棧中。AI算法在視野之外改變著世界,生成式人工智能正在顛覆傳統(tǒng)數(shù)據(jù)庫(kù)中的固定結(jié)構(gòu)表格,用更復(fù)雜、適應(yīng)性強(qiáng)且更直觀的新AI能力來(lái)追蹤和處理這個(gè)世界的數(shù)據(jù)。
數(shù)據(jù)庫(kù)的更新涉及到數(shù)據(jù)存儲(chǔ)堆棧的每個(gè)層級(jí),基本數(shù)據(jù)結(jié)構(gòu)正在被審查。數(shù)據(jù)庫(kù)廠商正在改變我們存儲(chǔ)信息的方式,以更好地與AI模型配合工作。數(shù)據(jù)庫(kù)管理員的角色,曾經(jīng)沉悶而枯燥,但現(xiàn)在正演變?yōu)楦訌V泛的角色。
以下是數(shù)據(jù)庫(kù)隨著AI的發(fā)展而發(fā)生變化、適應(yīng)或改進(jìn)的10種方式。
向量和嵌入
AI開(kāi)發(fā)人員喜歡將信息存儲(chǔ)為一長(zhǎng)串?dāng)?shù)字的向量。過(guò)去,數(shù)據(jù)庫(kù)將這些值存儲(chǔ)為行,每個(gè)數(shù)字位于單獨(dú)的列中。現(xiàn)在,一些數(shù)據(jù)庫(kù)支持純向量,因此無(wú)需將信息拆分為行和列,用于存儲(chǔ)的某些向量可能由數(shù)百甚至數(shù)千個(gè)數(shù)字組成。
這樣的向量通常與嵌入配對(duì)使用,嵌入是一種將復(fù)雜數(shù)據(jù)轉(zhuǎn)換為單個(gè)數(shù)字列表的模式。設(shè)計(jì)嵌入仍然是一門(mén)藝術(shù),并且常常依賴(lài)于對(duì)底層領(lǐng)域的知識(shí)。當(dāng)嵌入設(shè)計(jì)良好時(shí),數(shù)據(jù)庫(kù)可以提供快速訪問(wèn)和復(fù)雜查詢(xún)。
像Pinecone、Vespa、Milvus、Margo和Weaviate等公司正在構(gòu)建專(zhuān)門(mén)用于存儲(chǔ)向量的新型數(shù)據(jù)庫(kù)。其他公司如PostgreSQL正在將向量添加到其現(xiàn)有工具中。
查詢(xún)模型
將向量添加到數(shù)據(jù)庫(kù)帶來(lái)的不僅僅是方便。新的查詢(xún)函數(shù)不僅可以搜索精確匹配,還可以定位“最接近”的值,這有助于實(shí)現(xiàn)推薦引擎或異常檢測(cè)等系統(tǒng)。將數(shù)據(jù)嵌入向量空間簡(jiǎn)化了涉及匹配和關(guān)聯(lián)的棘手問(wèn)題,使其變?yōu)榧兇獾膸缀尉嚯x。
Pinecone、Vespa、Milvus、Margo和Weaviate等向量數(shù)據(jù)庫(kù)提供向量查詢(xún)。一些意想不到的工具,如Lucene或Solr,也提供相似度匹配功能,可以通過(guò)大塊非結(jié)構(gòu)化文本提供類(lèi)似的結(jié)果。
推薦
新的基于向量的查詢(xún)系統(tǒng)比過(guò)去的查詢(xún)方式更神奇且富有神秘感。舊的查詢(xún)只會(huì)尋找匹配項(xiàng);而這些由人工智能驅(qū)動(dòng)的數(shù)據(jù)庫(kù)有時(shí)更像是在讀取用戶(hù)的思維。它們使用相似度搜索來(lái)找到“接近”的數(shù)據(jù)項(xiàng),這些數(shù)據(jù)項(xiàng)通常與用戶(hù)所需相符。底層的數(shù)學(xué)原理可能僅僅是在n維空間中計(jì)算距離,但不知何故,這已經(jīng)足以提供意想不到的結(jié)果。這些算法長(zhǎng)期以來(lái)一直作為完整應(yīng)用程序獨(dú)立運(yùn)行,但它們正在逐漸被融入數(shù)據(jù)庫(kù)本身,從而可以支持更好、更復(fù)雜的查詢(xún)。
Oracle只是一個(gè)針對(duì)這個(gè)市場(chǎng)的數(shù)據(jù)庫(kù)示例。Oracle長(zhǎng)期以來(lái)一直提供各種模糊匹配和相似度搜索功能。現(xiàn)在它直接提供了針對(duì)在線(xiàn)零售等行業(yè)定制的工具。
索引范例
過(guò)去,數(shù)據(jù)庫(kù)構(gòu)建了簡(jiǎn)單的索引,支持按特定列進(jìn)行更快的搜索。數(shù)據(jù)庫(kù)管理員擅長(zhǎng)使用連接和過(guò)濾子句來(lái)創(chuàng)建復(fù)雜查詢(xún),通過(guò)適當(dāng)?shù)乃饕梢蕴岣卟樵?xún)速度。現(xiàn)在,向量數(shù)據(jù)庫(kù)被設(shè)計(jì)為創(chuàng)建跨向量所有值的有效索引。我們剛剛開(kāi)始探索各種應(yīng)用程序來(lái)找到彼此“相鄰”的向量。
但這只是個(gè)開(kāi)始。當(dāng)AI在數(shù)據(jù)庫(kù)上進(jìn)行訓(xùn)練時(shí),它會(huì)吸收其中所有信息。現(xiàn)在,我們可以用普通語(yǔ)言向AI發(fā)送查詢(xún),而AI將以復(fù)雜但自適應(yīng)的方式進(jìn)行搜索。
數(shù)據(jù)分類(lèi)
人工智能不僅僅是在數(shù)據(jù)庫(kù)中添加一些新的結(jié)構(gòu),有時(shí),它會(huì)在數(shù)據(jù)的內(nèi)部添加新的結(jié)構(gòu)。有些數(shù)據(jù)以一堆凌亂的位表示。可能存在沒(méi)有注釋的圖像或很久以前某人寫(xiě)的大塊文本。人工智能算法會(huì)清理混亂,并對(duì)混亂的數(shù)據(jù)集進(jìn)行排序。它們可以自動(dòng)填寫(xiě)表格,對(duì)一塊文本進(jìn)行情感分類(lèi),猜測(cè)照片中面部的態(tài)度,從圖像中提取細(xì)節(jié),并且算法還可以學(xué)會(huì)檢測(cè)模式。它們對(duì)數(shù)據(jù)進(jìn)行分類(lèi)、提取重要細(xì)節(jié),并創(chuàng)建一個(gè)規(guī)則清晰的信息表格視圖。
亞馬遜網(wǎng)絡(luò)服務(wù)(Amazon Web Services)將SageMaker等人工智能工具與Aurora等數(shù)據(jù)庫(kù)連接起來(lái),提供各種數(shù)據(jù)分類(lèi)服務(wù),。
更好的性能
好的數(shù)據(jù)庫(kù)可以處理許多數(shù)據(jù)存儲(chǔ)的細(xì)節(jié)。在過(guò)去,程序員仍然需要花時(shí)間糾結(jié)于數(shù)據(jù)庫(kù)使用的各種參數(shù)和模式,以使其高效運(yùn)行。數(shù)據(jù)庫(kù)管理員的角色是為了處理這些任務(wù)而設(shè)立的。
現(xiàn)在許多這些高級(jí)元任務(wù)都正在自動(dòng)化進(jìn)行,通常通過(guò)使用機(jī)器學(xué)習(xí)算法來(lái)理解查詢(xún)模式和數(shù)據(jù)結(jié)構(gòu)。它們能夠監(jiān)控服務(wù)器上的流量,制定調(diào)整策略以滿(mǎn)足需求,并且可以實(shí)時(shí)適應(yīng)并學(xué)會(huì)預(yù)測(cè)用戶(hù)所需。
Oracle提供了最好的例子之一。過(guò)去,公司為數(shù)據(jù)庫(kù)管理員支付高薪。現(xiàn)在,Oracle將其數(shù)據(jù)庫(kù)稱(chēng)為自主數(shù)據(jù)庫(kù),因?yàn)樗鼈兣鋫淞讼冗M(jìn)的人工智能算法,可以實(shí)時(shí)調(diào)整性能。
數(shù)據(jù)清潔度
運(yùn)行一個(gè)良好的數(shù)據(jù)庫(kù)不僅需要保持軟件的正常運(yùn)行,還需要確保數(shù)據(jù)盡可能干凈且沒(méi)有故障。人工智能通過(guò)搜索異常、標(biāo)記異常并可能提出修正建議簡(jiǎn)化了這項(xiàng)工作量。它們可以找到客戶(hù)姓名拼寫(xiě)錯(cuò)誤的地方,然后通過(guò)搜索其他數(shù)據(jù)找到正確的拼寫(xiě)。它們還可以學(xué)習(xí)傳入數(shù)據(jù)格式,并將數(shù)據(jù)攝取到一個(gè)單一統(tǒng)一的語(yǔ)料庫(kù)中,使所有名稱(chēng)、日期和其他細(xì)節(jié)以盡可能一致的方式呈現(xiàn)。
微軟的SQL Server是一個(gè)與數(shù)據(jù)質(zhì)量服務(wù)緊密集成的數(shù)據(jù)庫(kù)示例,可以清理具有問(wèn)題(如缺失字段或重復(fù)日期)的數(shù)據(jù)。
欺詐檢測(cè)
創(chuàng)建更安全的數(shù)據(jù)存儲(chǔ)是機(jī)器學(xué)習(xí)的一個(gè)特殊應(yīng)用。一些人正在使用機(jī)器學(xué)習(xí)算法來(lái)查找其數(shù)據(jù)流中的異常情況,因?yàn)檫@些異常情況往往是欺詐行為的很好指標(biāo)。某人是否在深夜首次去自動(dòng)取款機(jī)?此人是否曾在該大陸使用過(guò)信用卡?AI算法可以嗅探出危險(xiǎn)信號(hào),并將數(shù)據(jù)庫(kù)轉(zhuǎn)變?yōu)槠墼p檢測(cè)系統(tǒng)。
例如,Google的Web服務(wù)提供了幾種選項(xiàng),可以將欺詐檢測(cè)集成到您的數(shù)據(jù)存儲(chǔ)堆棧中。
更嚴(yán)密的安全性
一些組織正在內(nèi)部應(yīng)用這些算法。人工智能不僅僅是為了優(yōu)化數(shù)據(jù)庫(kù)的使用模式,它們還在尋找可能表明有人正在入侵的異常情況。遠(yuǎn)程用戶(hù)不會(huì)每天都請(qǐng)求完整復(fù)制整個(gè)表格。一個(gè)好的AI可以嗅出可疑之處。
IBM的Guardium Security就是一個(gè)與數(shù)據(jù)存儲(chǔ)層集成以控制訪問(wèn)并監(jiān)測(cè)異常情況的工具示例。
將數(shù)據(jù)庫(kù)和生成式AI融合
過(guò)去,人工智能與數(shù)據(jù)庫(kù)相分離。在訓(xùn)練模型時(shí),數(shù)據(jù)會(huì)從數(shù)據(jù)庫(kù)中提取出來(lái),重新格式化,然后輸入到人工智能中?,F(xiàn)在的新系統(tǒng)直接從現(xiàn)有的數(shù)據(jù)中訓(xùn)練模型。對(duì)于最大的任務(wù)來(lái)說(shuō),這樣做可以節(jié)省時(shí)間和能源,因?yàn)閮H僅將數(shù)據(jù)遷移可能需要幾天甚至幾周的時(shí)間。這也簡(jiǎn)化了開(kāi)發(fā)運(yùn)維團(tuán)隊(duì)的生活,使得訓(xùn)練一個(gè)人工智能模型就像發(fā)出一個(gè)命令一樣簡(jiǎn)單。
甚至有人提議完全替換數(shù)據(jù)庫(kù)。不再將查詢(xún)發(fā)送到關(guān)系型數(shù)據(jù)庫(kù),而是直接發(fā)送給一個(gè)人工智能,它會(huì)以任何格式回答查詢(xún)。谷歌提供了Bard,微軟則推出了ChatGPT。它們都是取代搜索引擎的嚴(yán)肅競(jìng)爭(zhēng)對(duì)手。它們同樣完全可以取代傳統(tǒng)的數(shù)據(jù)庫(kù)。
這種方法也有一些缺點(diǎn)。在某些情況下,人工智能會(huì)產(chǎn)生幻覺(jué),并給出完全錯(cuò)誤的答案。在其他情況下,它們可能會(huì)心血來(lái)潮從而改變輸出的格式。
但是,當(dāng)領(lǐng)域足夠垂直、訓(xùn)練集深度且完整時(shí),人工智能可以提供令人滿(mǎn)意的結(jié)果。而且,它能夠避免定義表格結(jié)構(gòu)和強(qiáng)迫用戶(hù)編寫(xiě)查詢(xún)來(lái)查找數(shù)據(jù)的麻煩。使用生成式人工智能來(lái)存儲(chǔ)和搜索數(shù)據(jù)可以更加靈活,適用于用戶(hù)和創(chuàng)建者雙方。
作者 | Peter Wayner
原文鏈接 | 10 ways generative AI upends the traditional database | InfoWorld