自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

AWS自動推理負責人：與其解決AI幻覺，不如證明是否正確；Rust借用檢查器實際上就是一個推理引擎原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2025-1-8 14:38

瀏覽

0收藏

編輯 | 言征

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

AI 的一個顯著缺陷是它會不自知地“產(chǎn)生幻覺”，編造沒有真實數(shù)據(jù)依據(jù)的合理答案。

AWS 正試圖通過解決這個問題，一個不錯的路徑是：引入 Amazon Bedrock 自動推理檢查。

Amazon Bedrock 是一項面向生成式 AI 應(yīng)用程序的托管服務(wù)。

上個月，AWS 首席執(zhí)行官 Matt Garman 在拉斯維加斯的 re:Invent 大會上發(fā)表講話時表示，這些檢查“可以防止由于模型幻覺而導致的事實錯誤......Bedrock 可以檢查模型所做的事實陳述是否準確。

他說，這一切都基于“合理的數(shù)學驗證”。如何理解這句話？他們背后隱藏著什么？

AWS自動推理負責人：與其解決AI幻覺，不如證明是否正確；Rust借用檢查器實際上就是一個推理引擎-AI.x社區(qū) AWS 首席執(zhí)行官 Matt Garman 介紹了 Bedrock 的自動推理

AWS 自動推理小組的負責人 Byron Cook 近日在采訪中透露更多詳細的思考。

1.與其解決AI幻覺，不如證明是否正確

“我一直在正式推理和工具領(lǐng)域工作。大約從 10 年前開始，我就將這種功能引入 Amazon，然后 AI 也有一些應(yīng)用?，F(xiàn)在突然之間，我所在的區(qū)域，以前非?；逎y懂，突然變得不朦朧了。

如何減輕 AI 幻覺帶來的風險，問題是可以解決的嗎？

“從某種意義上說，幻覺是一件好事，因為它是創(chuàng)造力。但在語言模型生成過程中，其中一些結(jié)果將是不正確的，“他說。

“但是，根據(jù)誰的定義是錯誤的呢？事實證明，定義真理是什么，出奇地困難。即使在您認為每個人都應(yīng)該同意的領(lǐng)域?！?/p>

“我曾在航空航天、鐵路調(diào)車、操作系統(tǒng)、硬件、生物學等領(lǐng)域工作過，在所有這些領(lǐng)域中，我所看到的是，在構(gòu)建這類工具時，大部分時間都花在了領(lǐng)域?qū)＜业臓幷撝?，爭論正確的答案應(yīng)該是什么，這些例子是由出現(xiàn)和打擊極端情況的具體例子驅(qū)動的?！?/p>

庫克補充道：“另一件事是，有些問題是無法決定的。例如，圖靈已經(jīng)證明了這一點。沒有程序可以始終、權(quán)威地、在有限的時間內(nèi)以 100% 的準確率回答問題。”

如果你嘗試將所有陳述的領(lǐng)域分塊，有些是相對正式的，而另一些則不是。什么是好的音樂將很難正式化，人們可能對此有一些理論，但他們之間可能不同意。

其他領(lǐng)域就像生物學一樣，有生物系統(tǒng)如何運作的模型，但他們所做的部分工作是獲取這些模型，然后檢查真實的系統(tǒng)。他們正在努力改進模型，所以模型可能是錯誤的。在這些警告下，你可以做很多事情。

AWS自動推理負責人：與其解決AI幻覺，不如證明是否正確；Rust借用檢查器實際上就是一個推理引擎-AI.x社區(qū) AWS 自動推理小組負責人 Byron Cook

Cook 介紹了 Automated Reasoning 工具，并引用了示例案例，例如根據(jù)個人的損益表確定正確的稅碼。

他說，該工具“采用自然語言中的陳述并將其轉(zhuǎn)化為邏輯，然后證明或反駁該領(lǐng)域下的有效性。”

通過工具研究模型“怎么會出錯”，比如：從自然語言到邏輯的翻譯有可能出錯，此外，人們決定什么是稅法并將其正式化也可能會出錯。因此，我們?nèi)匀挥锌赡艿玫藉e誤的答案，但在假設(shè)我們翻譯正確的情況下，在我們幫助客戶正式定義 [規(guī)則] 的假設(shè)下，我們可以在數(shù)學邏輯中構(gòu)建一個被證明是正確的論點，即他們得到的答案是正確的。

庫克說，幻覺“是我們必須長期忍受的問題。畢竟人類也會產(chǎn)生幻覺......作為一個社會，我們總是在逐漸研究什么是真理，我們?nèi)绾味x它，以及誰來決定它是什么。

庫克還對一個著名的 AI 幻覺案例發(fā)表評論，這位律師引用了 OpenAI 的 ChatGPT 發(fā)明的案例。庫克說，這并不完全是自動推理工具所能解決的那種幻覺。“我們可以建立一個包含所有已知 [法律案件] 結(jié)果的數(shù)據(jù)庫，并將其正式化，”他說。“我不確定這是否是最好的應(yīng)用程序?！?/p>

AWS自動推理負責人：與其解決AI幻覺，不如證明是否正確；Rust借用檢查器實際上就是一個推理引擎-AI.x社區(qū) 圖片

2.不適用于編程，但有利于開發(fā)者防御性編程

開發(fā)者們的問題是：這個自動推理工具能否為幫他們檢查生成的算法代碼是否正確？

“這個產(chǎn)品不是為程序員設(shè)計的，”Cook 說。“但它并沒有逃過我們的注意。實際上我們一直在做對代碼進行推理......25 年來，我一直在證明程序是正確的。這是擁有重資產(chǎn)的巨頭企業(yè)的領(lǐng)域，因為這樣做非常具有挑戰(zhàn)性。但生成式 AI 似乎已經(jīng)準備好能夠顯著降低這一進入門檻，幫助開發(fā)者正式確定想要證明的程序是什么。這非常令人興奮，但這不包括“自動推理”產(chǎn)品。

Cook 的團隊還在 Amazon 解決了其他問題，例如證明訪問控制策略按預(yù)期工作，以及類似的加密、聯(lián)網(wǎng)、存儲和虛擬化。事實證明，“證明代碼在數(shù)學上是正確的”有一個好的副作用，其中之一就是代碼效率更高。

“當你有一個自動推理工具來檢查你的家庭作業(yè)時，你可以更積極地進行優(yōu)化。當開發(fā)人員沒有這種能力時，他們所做的是相當保守的，如果你愿意，可以稱之為防御性編碼。使用這些工具，他們可以執(zhí)行對他們來說非?？膳碌膬?yōu)化。我們給他們很多安全。

3.Rust的借用檢查器本質(zhì)上就是一個推理引擎

他補充說，Rust 是可證明編程的天作之合?！爱斈阌?Rust 編程時，你實際上是在用定理證明器。很多人并不清楚程序員實際上已經(jīng)開始了‘做內(nèi)存安全的證明’，而 Rust 中的借用檢查器本質(zhì)上是一個演繹定理證明器。它是一個推理引擎。開發(fā)人員正在指導該工具完成這一過程。

Rust 可以比 C 更快，原因是它能夠用內(nèi)存做一些他們在 C 中做不到的聰明事情，當然在 Java 或其他語言中也做不到，因為他們已經(jīng)讓程序員去做正確性地證明。

“所以 Rust 是自動推理技術(shù)、類型系統(tǒng)、編譯器的非常聰明的集成，然后它們有非常好的錯誤消息，使該工具非常有用。因此，我們已經(jīng)看到某些類型的程序遷移到 Rust 后取得了很好的結(jié)果。

本文轉(zhuǎn)載自??51CTO技術(shù)棧??，作者：言征

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

商湯科技Copilot技術(shù)應(yīng)用負責人張濤：大模型不能解決一切，AI產(chǎn)品需要領(lǐng)域知識

51CTO技術(shù)棧 ? 3036瀏覽 ? 0回復
Agents需要一個代碼解釋器

51CTO技術(shù)棧 ? 2279瀏覽 ? 0回復
TASK-ME-ANYTHING：一個多模態(tài)benchmark生成引擎

sbf_2000 ? 2782瀏覽 ? 0回復
“蘿卜快跑”事件辟謠：武漢僅投放400多輛無人車；“蘿卜”相關(guān)負責人揭秘AI新職業(yè)：“云代駕”！

51CTO技術(shù)棧 ? 4879瀏覽 ? 0回復
OpenAI奧特曼自曝自家模型：推理比人弱。研究證明：多模態(tài)能力還差得遠，楊立昆上大

51CTO技術(shù)棧 ? 2012瀏覽 ? 1回復
特定領(lǐng)域的模型微調(diào)是否有意義？BioRAG，一個大型 RAG 實際應(yīng)用案例告訴您

大語言模型論文跟蹤 ? 2375瀏覽 ? 0回復
三個臭皮匠與一個諸葛亮：覆蓋率與正確率的博弈

魯班模錘1 ? 1813瀏覽 ? 0回復
你是否還在認為大模型沒什么實際作用？事實上大模型應(yīng)用已經(jīng)遍地開花

AI探索時代 ? 1900瀏覽 ? 0回復
大模型上層應(yīng)用本質(zhì)上是一個能力整合的過程

AI探索時代 ? 1734瀏覽 ? 0回復
RARE：通過檢索增強推理增強打造一個媲美GPT4的RAG系統(tǒng)

大語言模型論文跟蹤 ? 2155瀏覽 ? 0回復
怎么學習設(shè)計和訓練一個大模型——也就是神經(jīng)網(wǎng)絡(luò)？

AI探索時代 ? 1634瀏覽 ? 0回復
我構(gòu)建了一個自動生成提案的LLM，并拿到GitHub上開源了它

51CTO內(nèi)容精選 ? 1399瀏覽 ? 0回復
如何正確看待 AI 的推理能力？走出人類中心主義

Baihai_IDP ? 2483瀏覽 ? 0回復
下一個AI前沿與革命：KAN 上

魯班模錘1 ? 1587瀏覽 ? 0回復
推理模型+Multi-Agent，可能就是Deep Research的全貌！

探索AGI ? 1836瀏覽 ? 0回復
一個擁有320億參數(shù)的全新推理模型

Halo咯咯 ? 2132瀏覽 ? 0回復
大型語言模型是否解決了搜索問題？

51CTO內(nèi)容精選 ? 1948瀏覽 ? 0回復
推理大模型并非一定要推理

NLP前沿1 ? 514瀏覽 ? 0回復
清華大學 | 強化學習是否激勵LLM中超越基本模型的推理能力？

柏企閱文 ? 433瀏覽 ? 0回復

51CTO技術(shù)棧

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

中國開源大模型新成員：小米推理大模型首秀！ 7h前發(fā)布
剛剛！一場直播讓宇樹成功正名！直播G1長跑操場40圈，6萬人點贊！真實跑步水平曝光：2m/s接近天工！ 12h前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

微軟突然封鎖Cursor，全面禁用C、C++、C#擴展，網(wǎng)友：理解微軟，Cursor白嫖VSCode 0回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

上一篇：微軟CEO開年演講：預(yù)訓練Scaling Law依然偉大！首個英偉達GB200集群已上線！

下一篇：有把握收入從1億做到數(shù)億！李開復最新回應(yīng)25年調(diào)整：大廠才燒得起超大模型；第一年的打法已不再適用

社區(qū)精華內(nèi)容

目錄

<samp id="g90jg"><b id="g90jg"></b></samp>