自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="anmjh"><li id="anmjh"></li></cite>

<s id="anmjh"><abbr id="anmjh"><dfn id="anmjh"></dfn></abbr></s>

<s id="anmjh"><li id="anmjh"></li></s>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

整合海量公共數(shù)據(jù)，谷歌開源AI統(tǒng)計學(xué)專家DataGemma

作者：新智元 2024-10-05 16:00:00

人工智能新聞

近日，谷歌推出了自己籌劃已久的大型開源公共統(tǒng)計數(shù)據(jù)庫，以及在此基礎(chǔ)上誕生的大模型?！窤I統(tǒng)計學(xué)專家」能解決幻覺嗎？

準(zhǔn)確的統(tǒng)計數(shù)據(jù)、時效性強(qiáng)的信息，一直是大語言模型產(chǎn)生幻覺的重災(zāi)區(qū)。

知識是現(xiàn)成的，但學(xué)是不可能學(xué)的。

并非此身惰怠，只因現(xiàn)實太多阻礙。

對于這個問題，谷歌在近日推出了自己籌劃已久的大型數(shù)據(jù)庫Data Commons，以及在此基礎(chǔ)上誕生的大模型DataGemma。

論文地址：https://docs.datacommons.org/papers/DataGemma-FullPaper.pdf

Data Commons是一個龐大的開源公共統(tǒng)計數(shù)據(jù)存儲庫，包含來自聯(lián)合國 (UN)、疾病控制與預(yù)防中心 (CDC) 、人口普查局、衛(wèi)生部、環(huán)境機(jī)構(gòu)、經(jīng)濟(jì)部門、非政府組織和學(xué)術(shù)機(jī)構(gòu)等可信來源的大量統(tǒng)計數(shù)據(jù)。

目前，整個語料庫包含超過2500億個數(shù)據(jù)點(diǎn)和超過2.5萬億個三元組。

數(shù)據(jù)有了，模型要怎么處理？

本文提出了一種將LLM橋接到數(shù)據(jù)的通用架構(gòu)，并探討了需要解決的三個問題。

首先，LLM必須學(xué)會在適當(dāng)?shù)臅r機(jī)選擇，是使用存儲在模型參數(shù)中的知識，還是從外部獲取信息。

當(dāng)然了，關(guān)于何時查詢外部源這件事，需要LLM學(xué)到自己的參數(shù)里，這可以采用多種機(jī)制來實現(xiàn)。

其次，需要決定應(yīng)該從哪個外部源查詢所需的信息，因為可用的信息源可能很多而且是動態(tài)的。在本文中，作者直接使用單一外部信息源來包含大量數(shù)據(jù)源。

最后，一旦明確了需要哪些外部數(shù)據(jù)，LLM就需要生成一個或多個查詢來獲取這些數(shù)據(jù)。

一般來說，不同的來源會產(chǎn)生不同類型的數(shù)據(jù)，如果LLM還要專門去學(xué)習(xí)各種API就有點(diǎn)麻煩了。因此，作者開發(fā)了用于外部數(shù)據(jù)和服務(wù)的單一通用API。

API的靈感來自于Robert McCool在1993年設(shè)計的URL參數(shù)編碼接口，雖然簡單，卻經(jīng)受住了時間的考驗，是目前在網(wǎng)絡(luò)上最接近通用API的接口。

作者使用自然語言來表達(dá)查詢，返回的答案可以用mime-type來增強(qiáng)，以允許非文本答案。

搞定了這些，一個能夠充分利用最新最全外部數(shù)據(jù)的「AI統(tǒng)計學(xué)家」（或者叫統(tǒng)計學(xué)魔術(shù)師）就誕生了。

DataGemma

對于Data Commons這么龐大的數(shù)據(jù)源，想要被LLM正常使用，需要面對一些現(xiàn)實的挑戰(zhàn)：

1. 與統(tǒng)計事實相關(guān)的用戶查詢可能涉及一系列邏輯、算術(shù)或比較運(yùn)算。

比如「世界上排名前5的二氧化碳排放國是哪些國家？」；更復(fù)雜一點(diǎn)的比如「加利福尼亞州是世界上最大的經(jīng)濟(jì)體嗎？」（這里面暗含了所比較的實體——加利福尼亞州與其他國家/地區(qū)相比，而不是美國各州）；或者「煤發(fā)電量高的美國各州，慢性阻塞性肺病發(fā)病率也很高嗎？」（這涉及到實體和指標(biāo)之間的比較）。

2. 公共統(tǒng)計數(shù)據(jù)包含多種模式和格式，通常需要相當(dāng)多的背景上下文才能正確解釋。

之前的工作利用了兩種方法來緩解這些問題：使用工具和檢索增強(qiáng)生成（RAG）。

前一種方法會調(diào)整LLM來生成一種標(biāo)記語言，能夠?qū)⒆匀晃谋九c對外部工具的函數(shù)調(diào)用穿插在一起。為了對抗幻覺，工具可能會查詢數(shù)據(jù)庫或搜索引擎。

而在RAG中，輔助檢索系統(tǒng)從大型語料庫中識別與用戶查詢相關(guān)的背景知識，然后用這些知識來增強(qiáng)用戶的查詢。

本文作者以谷歌開源的Gemma和Gemma-2模型為基礎(chǔ)，分別利用檢索交錯生成（RIG）和RAG微調(diào)出兩個新的版本。

開源模型：https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643

數(shù)據(jù)共享

Data Commons的數(shù)據(jù)共享涉及兩項創(chuàng)新。

首先，研究人員花了數(shù)年時間訪問大量公開可用的數(shù)據(jù)集，追蹤數(shù)據(jù)背后的假設(shè)，并使用Schema.org（一種用于編碼結(jié)構(gòu)化數(shù)據(jù)的開放詞匯表）對它們進(jìn)行規(guī)范化，最終形成了一個包含所有數(shù)據(jù)的通用知識圖譜。

其次，研究人員使用LLM創(chuàng)建一個自然語言界面，允許用戶用通用語言提出問題，并通過圖表等方式來探索龐大的數(shù)據(jù)庫。

需要明確的是，LLM只是將查詢轉(zhuǎn)換為Data Commons中的詞匯表，不會與底層數(shù)據(jù)交互，也不會生成輸出，因此不必?fù)?dān)心出現(xiàn)幻覺之類的問題。

當(dāng)前的方法是利用這個自然語言接口，教導(dǎo)LLM何時以及如何與Data Commons的接口進(jìn)行通信。

對齊方面，作者采用LIMA（一種指令調(diào)整和強(qiáng)化學(xué)習(xí)方法），遵循少即是多的原則，利用數(shù)量少但質(zhì)量很高的一組示例，使最終任務(wù)與用戶偏好保持一致。

RIG 與 RAG

接下來介紹將LLM與Data Commons連接的兩種不同方法：

RIG

檢索交錯生成 (RIG)，是一種受使用工具啟發(fā)的方法，將LLM進(jìn)行微調(diào)以生成自然語言數(shù)據(jù)共享查詢，然后，多模型管道將此查詢轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)查詢，用于從Data Commons數(shù)據(jù)庫檢索答案。

如上圖所示，這里擴(kuò)展了RIG管道的步驟。首先是經(jīng)過微調(diào)以生成自然語言查詢的模型；接著是后處理器，將自然語言查詢轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)查詢；最后一個組件是查詢機(jī)制，從Data Commons檢索統(tǒng)計答案并使用LLM生成。

當(dāng)向LLM提出統(tǒng)計查詢時，通常會生成包含數(shù)字答案的文本（如下圖所示）。這時可以根據(jù)數(shù)字（LLM-SV）相關(guān)的上下文，在Data Commons數(shù)據(jù)庫中匹配最相關(guān)的值（DC-SV），作為事實檢查機(jī)制一起返回給用戶。

研究人員選擇了大約700個用戶查詢（對應(yīng)不同的統(tǒng)計問題）。

對于每個問題，都會從基本模型中選擇帶有統(tǒng)計數(shù)據(jù)的答案（約400個），然后將這些響應(yīng)提供給功能更強(qiáng)大的LLM（Gemini 1.5 Pro），指示它圍繞統(tǒng)計數(shù)據(jù)點(diǎn)引入自然語言數(shù)據(jù)共享調(diào)用。

所使用的提示包含三個示例作為指導(dǎo)，要求注釋出統(tǒng)計值和單位，還要指示數(shù)據(jù)共享調(diào)用包括地名、指標(biāo)和日期等。最后會進(jìn)行人工審查，并手動重寫不符合要求的數(shù)據(jù)共享調(diào)用。

為了評估單個測試查詢響應(yīng)，這里需要子字符串級別的詳細(xì)反饋。研究人員采用了上圖所示的可視化工具。

人工評估人員能夠瀏覽所有查詢，并檢查每個查詢響應(yīng)中的所有Data Commons調(diào)用，首先快速檢查是否存在任何明顯的事實不準(zhǔn)確之處，然后對響應(yīng)中存在的每項統(tǒng)計數(shù)據(jù)進(jìn)行評估。

上表顯示了RIG方法的事實準(zhǔn)確性指標(biāo)（Data Commons中的統(tǒng)計數(shù)據(jù)與101個查詢中的LLM響應(yīng)進(jìn)行比較的情況）?？傮w而言，RIG方法提高了真實性，從5-17%提高到約58%。

RAG

RAG管道同樣包含多個組件。首先，用戶查詢被傳遞到一個小型的、經(jīng)過微調(diào)的LLM，它會生成與用戶查詢相關(guān)的自然語言查詢；然后，通過Data Commons的自然語言接口來獲取相關(guān)的表；最后，將原始用戶查詢和檢索到的表交給長上下文LLM（Gemini 1.5 Pro）。

原始用戶查詢以及結(jié)果表可能會相當(dāng)長。例如，比較查詢可能包括來自美國所有50個州或全球194個國家的多個表的多年數(shù)據(jù)。

在綜合查詢集中，平均輸入長度為38,000個token，最大輸入長度為348,000個token。由于輸入量很大，因此必須使用長上下文LLM，用戶響應(yīng)如上圖所示。

對于RAG方法，人類評估者評估LLM生成的細(xì)粒度問題及其相應(yīng)的數(shù)據(jù)共享響應(yīng)的質(zhì)量。首先驗證是否生成了足夠且相關(guān)的問題來解決用戶查詢（上圖）；然后評估每個單獨(dú)問題的質(zhì)量及其相應(yīng)的數(shù)據(jù)共享響應(yīng)（下圖）。

下表的結(jié)果表明，LLM在引用數(shù)字時通常是準(zhǔn)確的 (99%)，當(dāng)根據(jù)這些說法進(jìn)行推論時，準(zhǔn)確性會下降，在6-20%的時間內(nèi)得出錯誤的推論。

責(zé)任編輯：張燕妮來源：新智元

谷歌開源模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="1un3a"></p>

<blockquote id="1un3a"><i id="1un3a"><video id="1un3a"></video></i></blockquote>