麻省理工研究人員引入新的人工智能驅(qū)動的SQL數(shù)據(jù)庫分析
在當(dāng)今數(shù)據(jù)驅(qū)動的世界中,對表格數(shù)據(jù)進行復(fù)雜統(tǒng)計分析的能力對于從原始數(shù)據(jù)中獲得有意義的見解至關(guān)重要。然而,數(shù)據(jù)的復(fù)雜性和龐大量使得個人和組織越來越難以有效地處理和解釋信息。
現(xiàn)在出現(xiàn)了一個突破,徹底改變了我們與數(shù)據(jù)交互的方式。麻省理工學(xué)院的研究人員推出了GenSQL,這是一種概率編程系統(tǒng),旨在為數(shù)據(jù)庫用戶簡化復(fù)雜表格數(shù)據(jù)的分析。
使用GenSQL,用戶可以預(yù)測和檢測異常,修復(fù)錯誤,猜測缺失值,并以最小的努力生成合成數(shù)據(jù)。開發(fā)GenSQL的一個關(guān)鍵目標(biāo)是為用戶提供一種可訪問的方式來處理數(shù)據(jù),而不需要對底層流程有深入的技術(shù)知識。
由于GenSQL可用于創(chuàng)建和分析模擬數(shù)據(jù)庫中真實數(shù)據(jù)的合成數(shù)據(jù),因此該工具對于無法共享敏感數(shù)據(jù)的應(yīng)用程序(例如患者數(shù)據(jù)或金融交易)非常有用。
傳統(tǒng)的SQL允許用戶直接從數(shù)據(jù)庫中查詢數(shù)據(jù),但很難結(jié)合復(fù)雜的概率模型,而這些模型可以更深入地了解數(shù)據(jù)依賴關(guān)系和相關(guān)性。GenSQL通過集成傳統(tǒng)SQL查詢和獨立概率建模方法來解決它們的局限性。
“我們認(rèn)為,當(dāng)我們從僅僅查詢數(shù)據(jù)轉(zhuǎn)向詢問模型和數(shù)據(jù)問題時,將需要一種類似的語言來教授人們可以向具有數(shù)據(jù)概率模型的計算機提出的連貫問題,”Vikash Mansinghka說,他是一篇介紹GenSQL的論文的高級作者,也是麻省理工學(xué)院腦與認(rèn)知科學(xué)系概率計算項目的首席研究科學(xué)家和負(fù)責(zé)人。
根據(jù)麻省理工學(xué)院研究人員進行的內(nèi)部測試,GenSQL不僅提供更快的結(jié)果,而且更準(zhǔn)確。此外,GenSQL的輸出是可解釋的,因此用戶可以理解人工智能模型是如何得出結(jié)論的。這有助于用戶理解推理過程,并據(jù)此做出明智的決策。
研究人員通過將GenSQL的性能與使用神經(jīng)網(wǎng)絡(luò)的流行基線方法進行比較來測試GenSQL。結(jié)果顯示,GenSQL的速度要快1.7到6.8倍,并且提供更準(zhǔn)確的結(jié)果。
為了測試GenSQL在大規(guī)模建模中的性能,研究人員應(yīng)用該工具從包含人口數(shù)據(jù)的大型數(shù)據(jù)集中生成見解。GenSQL能夠得出關(guān)于數(shù)據(jù)集中個人的健康和工資的有用推斷。
GenSQL在研究人員進行的案例研究中也表現(xiàn)出色。該工具成功地識別了錯誤標(biāo)記的臨床試驗數(shù)據(jù),并且還能夠捕獲基因組學(xué)案例研究中的復(fù)雜關(guān)系。
麻省理工學(xué)院的研究人員計劃增加新的優(yōu)化和自動化,使GenSQL更強大,更容易使用。他們還希望用戶能夠在GenSQL中使用自然語言查詢,使更廣泛的受眾更容易接近復(fù)雜的數(shù)據(jù)。