自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<dfn id="hr5wy"></dfn>

<cite id="hr5wy"><rp id="hr5wy"></rp></cite>

<abbr id="hr5wy"><form id="hr5wy"></form></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了

AIGC前沿技術(shù)追蹤

發(fā)布于 2025-1-8 13:24

瀏覽

0收藏

一、引言

在當(dāng)今數(shù)字化時(shí)代，數(shù)據(jù)庫的應(yīng)用極為廣泛，但傳統(tǒng)的數(shù)據(jù)庫查詢語言（如 SQL）對(duì)于非技術(shù)人員來說學(xué)習(xí)成本較高。自然語言接口到數(shù)據(jù)庫（NLIDB）技術(shù)的出現(xiàn)，旨在讓普通用戶也能輕松訪問數(shù)據(jù)庫。過去幾十年間，研究人員探索了多種方法，其中利用神經(jīng)序列到序列（Seq2seq）模型或大規(guī)模語言模型（LLMs）的方法較為常見，它們通常采用自回歸解碼方式逐一生成 SQL 查詢。

盡管這些方法在翻譯準(zhǔn)確性上取得了一定進(jìn)展，如在 NLIDB 基準(zhǔn)測試中準(zhǔn)確率超過 70%，但仍存在明顯缺陷。以常用的 SPIDER 基準(zhǔn)測試為例，當(dāng)前最先進(jìn)的模型在語法等價(jià)翻譯的測試集上準(zhǔn)確率僅為 74.0%。問題主要體現(xiàn)在兩個(gè)方面：一是輸出多樣性不足，自回歸解碼在生成候選序列時(shí)往往缺乏變化，容易產(chǎn)生重復(fù)結(jié)果。例如，LGESQL 模型使用束搜索時(shí)，其生成的 top - K 候選結(jié)果相似度較高，可能導(dǎo)致最終的錯(cuò)誤翻譯。二是缺乏全局上下文感知能力，由于是逐個(gè)生成輸出標(biāo)記，僅考慮部分上下文，容易陷入局部最優(yōu)，無法找到正確的翻譯。

為了改進(jìn)現(xiàn)有方法，一些研究進(jìn)行了嘗試。如多任務(wù)生成框架雖在對(duì)話翻譯場景取得一定成果，但仍依賴標(biāo)準(zhǔn)自回歸解碼獲取最終結(jié)果，并非最優(yōu)。還有研究提出新的生成方法，但需要基于一組代表性樣本查詢假設(shè)。在此背景下，METASQL 框架應(yīng)運(yùn)而生，它旨在增強(qiáng) NL2SQL 翻譯中的自回歸解碼過程，通過引入控制信號(hào)來提升 SQL 生成的質(zhì)量。

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

二、METASQL 框架概述

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

1. 預(yù)備知識(shí)

1.1 自回歸解碼

這是一種模型逐個(gè)生成輸出序列元素的解碼策略，每個(gè)元素的生成依賴于之前生成的元素。在自回歸模型中，解碼涉及學(xué)習(xí)一個(gè)評(píng)分模型，其基于從左到右的分解方式，目標(biāo)是在給定輸入序列 A 時(shí)找到高分輸出序列 P。但傳統(tǒng)的單向解碼算法（如貪婪搜索和束搜索）在生成高分輸出序列方面效果不佳，因?yàn)榻獯a歷史中的錯(cuò)誤可能會(huì)對(duì)后續(xù)結(jié)果產(chǎn)生負(fù)面影響。

1.2 NL2SQL 模型

主要分為兩類，Seq2seq 模型和基于 LLM 的模型。Seq2seq 模型遵循特定學(xué)習(xí)框架，先將自然語言查詢和數(shù)據(jù)庫模式聯(lián)合編碼，再通過自回歸解碼器生成 SQL 程序的分布。其解碼器的學(xué)習(xí)目標(biāo)可以是原始 SQL 標(biāo)記、SQL 語言的中間表示或 SQL 抽象語法樹等。LLM 作為 NL2SQL 模型時(shí)，在給定自然語言查詢和提示的情況下，可以自動(dòng)回歸生成相應(yīng) SQL 查詢，提示技術(shù)包括零樣本、少樣本提示或上下文學(xué)習(xí)等，提示內(nèi)容可以是文本指令、翻譯示例或推理鏈等。

2. METASQL 主要流程

2.1 語義分解

如圖 2 的第一步，將自然語言查詢的語義解析重新定義為分類問題，利用多標(biāo)簽分類器將自然語言語義映射到一組相關(guān)的查詢?cè)獢?shù)據(jù)。這些元數(shù)據(jù)是與底層數(shù)據(jù)庫相關(guān)的類別標(biāo)簽，能夠捕捉自然語言查詢的上下文信息。例如，對(duì)于“查詢不說英語的國家代碼”這樣的查詢，可能會(huì)選擇“project”和“except”等操作符標(biāo)簽以及表示查詢難度的“400”作為元數(shù)據(jù)。

2.2 元數(shù)據(jù)條件生成（可選）

如圖 2 的第二部分，對(duì)于 Seq2seq 模型，通過在訓(xùn)練數(shù)據(jù)中添加元數(shù)據(jù)作為前綴語言提示來增強(qiáng)模型。訓(xùn)練數(shù)據(jù)由自然語言查詢、對(duì)應(yīng)的 SQL 查詢和相關(guān)元數(shù)據(jù)組成，收集方式基于弱監(jiān)督原則。例如，對(duì)于操作符標(biāo)簽類型的元數(shù)據(jù)，直接從 SQL 查詢中獲?。挥捕戎殿愋偷脑獢?shù)據(jù)根據(jù) SPIDER 基準(zhǔn)的定義計(jì)算；正確性指示符類型的元數(shù)據(jù)根據(jù)數(shù)據(jù)來源確定。在推理階段，利用多標(biāo)簽分類器獲取查詢?cè)獢?shù)據(jù)，然后基于這些元數(shù)據(jù)組合操縱翻譯模型生成一組候選 SQL 查詢。例如，對(duì)于上述查詢示例，可能會(huì)基于“where”標(biāo)簽和“200”的評(píng)級(jí)值生成類似下面的候選查詢。

SELECT countrycode 
FROM CountryLanguage 
WHERE language!='English'

2.3 兩階段排序管道

如圖 2 的第三部分，采用兩階段排序流程確定最佳翻譯結(jié)果。第一階段使用雙塔架構(gòu)構(gòu)建粗粒度排序模型，通過兩個(gè) BERT 類似的雙向文本編碼器和余弦相似度函數(shù)，快速從大量候選 SQL 查詢中篩選出較小的潛在候選集。其訓(xùn)練數(shù)據(jù)由自然語言查詢、SQL 查詢和語義相似度分?jǐn)?shù)組成，通過比較 SQL 查詢與“黃金”SQL 查詢的條款來計(jì)算分?jǐn)?shù)。第二階段使用多粒度監(jiān)督信號(hào)構(gòu)建細(xì)粒度排序模型，對(duì)第一階段的結(jié)果進(jìn)一步排序，以找到最匹配的 SQL 查詢。該模型包括上下兩個(gè)編碼器用于捕獲多粒度語義，通過多種損失函數(shù)（全局、局部和短語損失）計(jì)算匹配分?jǐn)?shù)，并在推理時(shí)綜合考慮各分?jǐn)?shù)對(duì)候選 SQL 查詢進(jìn)行排序。

SELECT countrycode FROM CountryLanguage
EXCEPT SELECT countrycode FROM
CountryLanguage WHERE language='English'

三、METASQL 方法詳述

1. 查詢?cè)獢?shù)據(jù)

1.1 元數(shù)據(jù)設(shè)計(jì)

METASQL 設(shè)計(jì)了三種類型的元數(shù)據(jù)，包括操作符標(biāo)簽、硬度值和正確性指示符。操作符標(biāo)簽對(duì)應(yīng)于單個(gè)邏輯運(yùn)算符，指示 SQL 組件用于翻譯。例如，對(duì)于特定查詢，“project”標(biāo)簽表示選擇操作，“except”標(biāo)簽表示排除操作。硬度值根據(jù) SQL 組件的數(shù)量和類型量化查詢的潛在復(fù)雜性，通過為每個(gè) SQL 組件分配難度分?jǐn)?shù)并求和得到。正確性指示符用于區(qū)分正確和錯(cuò)誤的查詢，在推理時(shí)通常為真，但在訓(xùn)練時(shí)可變化以幫助模型學(xué)習(xí)。

1.2 基于元數(shù)據(jù)的語義分解

將自然語言到元數(shù)據(jù)的映射視為分類問題，利用多標(biāo)簽分類模型實(shí)現(xiàn)。該模型與底層 NL2SQL 翻譯模型共享編碼器，通過將解碼器替換為分類層來輸出標(biāo)量值。在推理階段，設(shè)置分類閾值選擇概率較高的元數(shù)據(jù)標(biāo)簽，從而將自然語言查詢的語義分解為對(duì)應(yīng)的元數(shù)據(jù)，有助于發(fā)現(xiàn)更多語義等價(jià)的 SQL 查詢。

2. 元數(shù)據(jù)條件生成

2.1 訓(xùn)練

在模型訓(xùn)練中，將查詢?cè)獢?shù)據(jù)作為前綴添加到自然語言查詢中，遵循傳統(tǒng)的 seq2seq 范式。收集訓(xùn)練數(shù)據(jù)時(shí)，確保每個(gè)樣本包含自然語言查詢、對(duì)應(yīng)的 SQL 查詢和相關(guān)元數(shù)據(jù)。同時(shí)，為了讓模型更好地區(qū)分正確和錯(cuò)誤的目標(biāo)序列，還收集了 SPIDER 基準(zhǔn)訓(xùn)練集中現(xiàn)有翻譯模型的錯(cuò)誤翻譯作為負(fù)樣本，并為其分配“incorrect”的正確性指示符作為元數(shù)據(jù)。模型輸入時(shí)，將元數(shù)據(jù)扁平化為序列并與自然語言查詢連接，例如“correct | rating : 400 | tags : project, except”這樣的形式。

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

2.2 條件生成

在推理階段，由于查詢?cè)獢?shù)據(jù)未知，首先使用多標(biāo)簽分類模型獲取初始元數(shù)據(jù)標(biāo)簽。然后，考慮訓(xùn)練數(shù)據(jù)中的組合情況，選擇性地組合這些標(biāo)簽，以基于元數(shù)據(jù)條件生成一組候選 SQL 查詢。這類似于 LLM 中的提示方法，通過不同的元數(shù)據(jù)條件引導(dǎo)模型生成多樣化的翻譯結(jié)果。

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

3. 兩階段排序管道

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

3.1 第一階段排序模型

采用雙塔架構(gòu)，包括 NL 查詢編碼器和 SQL 編碼器以及余弦相似度函數(shù)。通過在大量自然語言查詢和 SQL 查詢對(duì)上進(jìn)行訓(xùn)練，學(xué)習(xí)如何快速篩選出與給定自然語言查詢語義相關(guān)的候選 SQL 查詢。訓(xùn)練數(shù)據(jù)中的語義相似度分?jǐn)?shù)根據(jù) SQL 查詢與“黃金”SQL 查詢的匹配程度計(jì)算，若完全匹配則為 1，否則根據(jù)條款差異進(jìn)行扣分。

3.2 第二階段排序模型

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

鑒于第一階段模型在精確排序上的局限性，該階段旨在利用多粒度監(jiān)督信號(hào)更準(zhǔn)確地找到最佳 SQL 查詢。模型架構(gòu)包括粗粒度和細(xì)粒度編碼器，通過引入額外的短語級(jí)語義信息，并采用列表式方法進(jìn)行訓(xùn)練。在訓(xùn)練過程中，使用多種損失函數(shù)（全局、局部和短語損失）來綜合衡量 NL-SQL 對(duì)的匹配程度，以提高排序的準(zhǔn)確性。例如，全局損失衡量句子級(jí)別的跨模態(tài)匹配相似性，局部損失增強(qiáng)細(xì)粒度的跨模態(tài)匹配，短語三元組損失則用于最大化正對(duì)內(nèi)的細(xì)粒度相似性并最小化負(fù)對(duì)內(nèi)的相似性。在推理時(shí)，綜合考慮各部分得分對(duì)候選 SQL 查詢進(jìn)行最終排序。

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

四、實(shí)驗(yàn)評(píng)估

1. 實(shí)驗(yàn)設(shè)置

1.1 基準(zhǔn)測試

在具有挑戰(zhàn)性的 NLIDB 基準(zhǔn)測試 SPIDER 和 SCIENCEBENCHMARK 上進(jìn)行實(shí)驗(yàn)。SPIDER 是大規(guī)?？缬蚧鶞?zhǔn)，包含大量自然語言查詢和 SQL 查詢以及多個(gè)數(shù)據(jù)庫，其數(shù)據(jù)根據(jù) SQL 難度分為不同類型。由于 SPIDER 測試集難以獲取，實(shí)驗(yàn)主要關(guān)注驗(yàn)證集，并通過提交給作者獲取測試集結(jié)果。SCIENCEBENCHMARK 則是針對(duì)三個(gè)真實(shí)世界科學(xué)數(shù)據(jù)庫的復(fù)雜基準(zhǔn)，包含領(lǐng)域?qū)＜抑谱鞯母哔|(zhì)量 NL-SQL 對(duì)以及合成數(shù)據(jù)。

1.2 訓(xùn)練設(shè)置

多標(biāo)簽分類模型基于 LGESQL 模型替換頂層為分類層實(shí)現(xiàn)。第一階段排序模型的嵌入層使用預(yù)訓(xùn)練的 STSB-MPNET- BASE-v2 模型初始化，采用 Adam 優(yōu)化器進(jìn)行訓(xùn)練。第二階段排序模型基于 ROBERTA-LARGE，同樣使用 Adam 優(yōu)化器，并根據(jù)學(xué)習(xí)停滯情況調(diào)整學(xué)習(xí)率，同時(shí)配置相關(guān)參數(shù)以生成合適數(shù)量的 SQL 查詢用于訓(xùn)練。

1.3 推理設(shè)置

多標(biāo)簽分類模型的分類閾值設(shè)置為 0，以選擇所有可能的元數(shù)據(jù)標(biāo)簽。第一階段排序模型選擇排名前十的候選 SQL 查詢子集傳遞給第二階段排序模型進(jìn)行最終推理。

1.4 評(píng)估指標(biāo)

采用翻譯準(zhǔn)確率（EM）、執(zhí)行匹配（EX）、翻譯精度（Precision@K）和平均倒數(shù)排名（MRR）等指標(biāo)評(píng)估模型性能。翻譯準(zhǔn)確率判斷生成的 top-1 SQL 查詢是否與“黃金”SQL 匹配；執(zhí)行準(zhǔn)確率通過在數(shù)據(jù)庫上執(zhí)行 SQL 查詢并與真實(shí)結(jié)果比較；翻譯精度評(píng)估前 K 個(gè)翻譯結(jié)果中包含“黃金”SQL 查詢的自然語言查詢數(shù)量占比；MRR 則衡量模型將“黃金”SQL 查詢排在前列的能力。

2. 實(shí)驗(yàn)結(jié)果

2.1 整體性能

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

在兩個(gè)基準(zhǔn)測試上，METASQL 均能有效提升所有模型的性能。對(duì)于 Seq2seq 模型，在 SCIENCEBENCHMARK 上的提升更為顯著。特別是 LGESQL 模型，在應(yīng)用 METASQL 后，在 SCIENCEBENCHMARK 的 SDSS 數(shù)據(jù)庫上提升了 8.0%，在 SPIDER 驗(yàn)證集和測試集上分別達(dá)到 77.4%和 72.3%的翻譯準(zhǔn)確率，且執(zhí)行準(zhǔn)確率也有大幅提高。對(duì)于基于 LLM 的模型（如 CHATGPT 和 GPT-4），METASQL 同樣顯著提升了其性能，這得益于 LLM 強(qiáng)大的生成能力以及 METASQL 對(duì)其生成的引導(dǎo)作用。

2.2 不同難度和語句類型的性能分析

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

按 SQL 難度級(jí)別分析，隨著難度增加，所有模型性能下降，但 METASQL 能在“Medium”和“Hard”查詢上顯著提升模型性能，不過在“Easy”和“Extra Hard”查詢上可能出現(xiàn)不穩(wěn)定情況。對(duì)于“Easy”查詢，可能是由于 METASQL 對(duì)語義等價(jià)查詢的排序?qū)е略u(píng)估失敗；對(duì)于“Extra Hard”查詢，可能是復(fù)雜查詢中多粒度信號(hào)不準(zhǔn)確導(dǎo)致排名錯(cuò)誤。按 SQL 語句類型分析，METASQL 對(duì)涉及 ORDER BY 和 GROUP BY 子句的查詢翻譯提升明顯，這得益于排序過程；但對(duì)于嵌套類型的復(fù)雜查詢，Seq2seq 模型結(jié)合 METASQL 可能會(huì)出現(xiàn)性能下降。

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

2.3 排序管道性能

METASQL 在排序方面表現(xiàn)出色，例如 RESDSQLLARGE + METASQL 達(dá)到 78.8%的翻譯 MRR，LGESQL + METASQL 等在 top-5 檢索結(jié)果中也有較高的翻譯精度。這表明 METASQL 能夠在多數(shù)情況下正確選擇目標(biāo) SQL 查詢，優(yōu)于傳統(tǒng)的自回歸解碼技術(shù)。

2.4 階段性能分析

對(duì) METASQL 各階段性能分析發(fā)現(xiàn)，三個(gè)階段（元數(shù)據(jù)選擇、元數(shù)據(jù)條件生成、排序）整體性能較為穩(wěn)定。其中，元數(shù)據(jù)條件生成階段相對(duì)波動(dòng)較大，這與底層翻譯模型的局限性有關(guān)。但總體而言，METASQL 有效優(yōu)化了各階段性能，促進(jìn)了整體性能的提升。

3. 元數(shù)據(jù)敏感性分析

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

3.1 元數(shù)據(jù)選擇率

通過降低多標(biāo)簽分類器的分類閾值引入更多“噪聲”元數(shù)據(jù)，發(fā)現(xiàn) METASQL 的性能對(duì)元數(shù)據(jù)質(zhì)量有很強(qiáng)的依賴性。當(dāng) 低于 - 10 時(shí)，性能顯著下降，因?yàn)檫^多的“噪聲”元數(shù)據(jù)干擾了模型的判斷。

3.2 正確性指示符

實(shí)驗(yàn)表明 METASQL 對(duì)正確性指示符的變化較為敏感，提供錯(cuò)誤的指示符會(huì)導(dǎo)致性能下降，且比不提供指示符的情況更差，說明正確的元數(shù)據(jù)對(duì)于模型性能至關(guān)重要。

3.3 硬度值

METASQL 的性能對(duì)硬度值變化相對(duì)穩(wěn)定，這是因?yàn)槎鄻?biāo)簽分類器獲取的硬度值通常與真實(shí)值接近，且模型會(huì)綜合考慮多種元數(shù)據(jù)。同時(shí)，設(shè)置較容易的硬度值往往比困難的硬度值能帶來更好的結(jié)果。

3.4 操作符標(biāo)簽

METASQL 對(duì)操作符標(biāo)簽類型的元數(shù)據(jù)較為敏感，使用正確的操作符標(biāo)簽?zāi)茱@著提高性能，因?yàn)樗鼮槟Ｐ吞峁┝擞行У纳杉s束，減少了搜索空間。

4. 消融研究

復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了-AI.x社區(qū)

通過在 SPIDER 驗(yàn)證集上對(duì) LGESQL 進(jìn)行消融實(shí)驗(yàn)，發(fā)現(xiàn)去除多標(biāo)簽分類器或第二階段排序模型會(huì)導(dǎo)致性能大幅下降。這表明多標(biāo)簽分類器在獲取相關(guān)元數(shù)據(jù)方面以及第二階段排序模型在精確排序方面都起著關(guān)鍵作用，再次強(qiáng)調(diào)了 METASQL 各組件的重要性。

5. 分析 METASQL

對(duì) METASQL 翻譯錯(cuò)誤進(jìn)行分析，主要存在以下三類問題：一是自回歸解碼問題，即使有準(zhǔn)確的元數(shù)據(jù)，底層翻譯模型在處理復(fù)雜查詢時(shí)仍可能產(chǎn)生錯(cuò)誤翻譯，如在嵌套查詢中生成錯(cuò)誤的連接路徑。二是元數(shù)據(jù)不匹配問題，多標(biāo)簽分類器提取的不準(zhǔn)確元數(shù)據(jù)會(huì)導(dǎo)致翻譯錯(cuò)誤，因此需要更可靠的元數(shù)據(jù)選擇方法。三是排序問題，在第二階段排序中，即使“黃金”查詢?cè)诤蜻x集中，也可能無法排在首位，尤其是涉及連接操作的查詢，這需要在排序模型訓(xùn)練中更好地捕獲數(shù)據(jù)庫的特定語義。

1.1 自回歸解碼問題

# 自然語言查詢：每個(gè)沒有把貓作為寵物的學(xué)生是什么專業(yè)？
# 以及他們的年齡是多少？


# 黃金 SQL 查詢:
SELECT major, age FROM student
WHERE stuid NOT IN (
SELECT T1.stuid FROM student AS T1
JOIN has pet AS T2 JOIN pets AS T3
WHERE T3.pettype = 'cat')


# 不正確的生成 SQL 查詢:  
SELECT major, age FROM student
WHERE stuid NOT IN (
SELECT has pet.stuid FROM has pet JOIN pets
WHERE pets.pettype = 'cat')

1.2 元數(shù)據(jù)不匹配問題

# 自然語言查詢：有多少個(gè)國家有超過兩個(gè)制造商？
# Oracle 相關(guān)的元數(shù)據(jù) 200, group, join
# 預(yù)測元數(shù)據(jù) 350, group, subquery


# 黃金 SQL 查詢:
SELECT count(*) FROM
countries AS T1 JOIN car makers AS T2
GROUP BY T1.countryid HAVING count(*)>2


# 不正確的生成 SQL 查詢:  
SELECT count(*) FROM (
SELECT country FROM car makers
GROUP BY country HAVING count(*)>2)

1.3 排名問題

# 自然語言查詢：哪些汽車型號(hào)是在 1980 年之后生產(chǎn)的？


# 黃金 SQL 查詢:
SELECT T1.model FROM model list AS T1
JOIN car names AS T JOIN car data AS T3
WHERE T3.year > 1980


# 排名最高的 SQL 查詢語句
Top-ranked SQL Query:
SELECT T2.model FROM cars data AS T1
JOIN car names AS T2 WHERE T1.year > 1980

五、相關(guān)工作

在 NLIDB 領(lǐng)域，早期研究主要采用基于規(guī)則的方法，通過手工制作語法將自然語言查詢映射到 SQL 查詢，但這種方法效率較低且靈活性差。隨著深度學(xué)習(xí)的發(fā)展，Seq2seq 模型成為主流方法，但自回歸解碼的本質(zhì)使其在處理復(fù)雜查詢時(shí)面臨挑戰(zhàn)。近年來，LLMs 在 NL2SQL 任務(wù)中得到應(yīng)用，但仍需要進(jìn)一步優(yōu)化。與這些現(xiàn)有方法不同，METASQL 引入了統(tǒng)一框架，結(jié)合了現(xiàn)有方法的優(yōu)勢(shì)并進(jìn)一步提升了翻譯性能。

六、結(jié)論

本文提出的 METASQL 框架為 NL2SQL 問題提供了一種有效的解決方案，通過引入查詢?cè)獢?shù)據(jù)和學(xué)習(xí)排序算法，顯著提升了現(xiàn)有翻譯模型的性能。實(shí)驗(yàn)結(jié)果充分證明了其有效性。然而，仍有一些方面需要進(jìn)一步研究。例如，探索如何突破現(xiàn)有自回歸解碼范式的限制，開發(fā)更精確的多粒度語義標(biāo)注方法，以及整合更多類型的元數(shù)據(jù)等。這些研究方向有望進(jìn)一步提升 METASQL 的性能，推動(dòng) NL2SQL 技術(shù)的發(fā)展，使其在數(shù)據(jù)庫自然語言接口領(lǐng)域發(fā)揮更大的作用，為實(shí)現(xiàn)更智能、便捷的數(shù)據(jù)庫交互提供有力支持。

本文轉(zhuǎn)載自 ??AIGC前沿技術(shù)追蹤??，作者：愛讀論文的吳彥祖????

標(biāo)簽

數(shù)據(jù)庫

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

有大學(xué)老師正用ChatGPT批改論文，讓同學(xué)也這么做！

Aceryt ? 2436瀏覽 ? 0回復(fù)
NL2Plan: 基于最小文本描述的魯棒性大模型驅(qū)動(dòng)任務(wù)規(guī)劃

PaperAgent ? 4013瀏覽 ? 0回復(fù)
比Transformer更快更省，Mamba終于卷到網(wǎng)絡(luò)領(lǐng)域了

arnoldzhw ? 6085瀏覽 ? 0回復(fù)
一篇大模型NL2SQL全棧技術(shù)最新綜述

PaperAgent ? 5787瀏覽 ? 0回復(fù)
開發(fā)者終于可以定制自己的GPT-4o了！

51CTO技術(shù)棧 ? 2236瀏覽 ? 0回復(fù)
NL2SQL：基于LLM的解決方案是最好的嗎？

大語言模型論文跟蹤 ? 5183瀏覽 ? 0回復(fù)
大模型技術(shù)進(jìn)階路線，有了基礎(chǔ)應(yīng)該怎么進(jìn)階？

AI探索時(shí)代 ? 2019瀏覽 ? 0回復(fù)
Entropix，終于找到了真正解決幻覺的方法了

NLP前沿1 ? 2211瀏覽 ? 0回復(fù)
Kimi 我的神，它終于更新了！這個(gè)探索版，有點(diǎn)牛！

wsp_ping ? 2637瀏覽 ? 0回復(fù)
Text2SQL 新一代解決方案Tool-SQL，基于LLM和Agent智能體實(shí)現(xiàn)，效果提升顯著

AI博物院 ? 4562瀏覽 ? 0回復(fù)
DB-GPT-Hub:text2sql的微調(diào)框架及基準(zhǔn)測試套件

大模型自然語言處理 ? 2305瀏覽 ? 0回復(fù)
低資源場景下Text2SQL方法

大模型自然語言處理 ? 1863瀏覽 ? 0回復(fù)
淺看大模型用于Text2SQL的綜述

大模型自然語言處理 ? 2849瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)—終于把梯度下降搞明白了！

人工智能訓(xùn)練營 ? 1886瀏覽 ? 0回復(fù)
為什么有了大模型還需要用Embedding模型？

石映飛云 ? 1819瀏覽 ? 0回復(fù)
什么是神經(jīng)網(wǎng)絡(luò)-終于把神經(jīng)網(wǎng)絡(luò)參數(shù)更新搞明白了！

人工智能訓(xùn)練營 ? 1649瀏覽 ? 0回復(fù)
Text2SQL 已過時(shí)？TAG 如何一統(tǒng) AI 與數(shù)據(jù)庫江湖！

AIGC前沿技術(shù)追蹤 ? 2906瀏覽 ? 0回復(fù)
小模型借 FEATHER-SQL，在 NL2SQL 領(lǐng)域掀翻天

AIGC前沿技術(shù)追蹤 ? 1127瀏覽 ? 0回復(fù)
NL2SQL新突破：SQL-R1用強(qiáng)化學(xué)習(xí)打破傳統(tǒng)局限

Halo咯咯 ? 676瀏覽 ? 0回復(fù)

AIGC前沿技術(shù)追蹤

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

綜述：基于LLM的數(shù)據(jù)查詢與可視化 5天前發(fā)布
大語言模型增強(qiáng)的文本到 SQL 生成：綜述 2025-04-14 01:14:57發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： MIT：LLM的思考方式竟然和大腦相似

下一篇：李飛飛：通過「空間智能」重構(gòu)世界

社區(qū)精華內(nèi)容

目錄

<pre id="vp4i1"><tt id="vp4i1"><pre id="vp4i1"></pre></tt></pre>