自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI Agent應(yīng)用出路到底在哪？

作者：JavaEdge 2024-11-05 09:32:47

打造agent技術(shù)中，大模型并非處于最頂層，它上面還需要有針對agent的業(yè)務(wù)邏輯，稱為SOP。只有SOP才能保證涉及多個步驟的agent的可靠性。SOP會生成指導(dǎo)大模型工作的計(jì)劃planner。

1 Agent/Function Call 的定義

Overview of a LLM-powered autonomous agent system：

圖片

Agent學(xué)會調(diào)用外部應(yīng)用程序接口，以獲取模型權(quán)重中缺失的額外信息（預(yù)訓(xùn)練后通常難以更改），包括當(dāng)前信息、代碼執(zhí)行能力、專有信息源訪問權(quán)限等。

2 從去年到現(xiàn)在有什么進(jìn)展?

Not a research seminar but good to know...

一些Datasets:

基礎(chǔ) Knowledge-intensive/Decision-making tasks: HotpotQA, AlfWorld Enve
行生 In-the-wild: Glaive-Function-Calling, InternLM/Agent-FLAN, THUDM/AgentTuning

一些Eval(NoTool/Retrieval-based/Action-based)

Berkeley Gorilla Function Call Leaderboard, THUDM/AgentBench, CMU/WebArena

一些框架/產(chǎn)品/Demo：

GPTs, Camel-Al, Modelscope-agent, Agent Hospital

優(yōu)秀的工作很多，只是不完整的列舉一部分

Agent 需要和現(xiàn)實(shí)世界的信息進(jìn)行收集和交互。其核心本質(zhì)嚴(yán)重依賴于LLM自身的Instruction Following, Complex Reasoning, Long Term Planning能力。

3 普惠智能體

從技術(shù)角度看，agent 是幫助人類做事的裝置，提供便利、提高效率、節(jié)約成本、增加樂趣等
從經(jīng)濟(jì)角度看，agent 需要給人類提供明顯的經(jīng)濟(jì)價值，需要可靠地執(zhí)行繁瑣的任務(wù)，結(jié)果精確可靠、充實(shí)、無害，并簡單易用

滿足普惠的 Agent 應(yīng)當(dāng)滿足的要求：1.能執(zhí)行繁瑣、繁重的任務(wù)(太輕松的任務(wù)不需要agent)。2.能給出可靠、充實(shí)、無害的結(jié)果(錯誤率容忍度較低)。3.易學(xué)易用，不需要使用說明(zero shot，不依賴于用戶的prompt水平) 4.鏈路完整，使用場景不需要經(jīng)常跳出(不能破碎)。5.可以與外部工具和功能的交互，在沒有人為干預(yù)的情況下完成多步驟的工作流程。6.會學(xué)習(xí)與自我糾正，越用越聰明。

但現(xiàn)狀是

智能體名詞被濫用 Over promise,Under deliver：

簡單的工具調(diào)用，本質(zhì)上只是一個Instruction Following的問題
復(fù)雜推理 GPT4 還是爸爸(但 WebArena 依然只有不到3成的準(zhǔn)確率)
給出指令并觀察其執(zhí)行。依然是 RPA 路線
簡單的 demo nb，沒有穩(wěn)定的使用。嚴(yán)重依賴人工經(jīng)驗(yàn)判斷簡單的
缺乏多模態(tài)理解，still LLM grounding (OSU Mind2Web)
面對缺少context和語言歧義的情況，依然會'硬答’
一些設(shè)計(jì)繁瑣的agent產(chǎn)品，節(jié)約了做事的時間成本，卻增加了學(xué)習(xí)成本，違背了初衷
甚至部分產(chǎn)品'圖一樂’，嚴(yán)格意義上只能算 prompt engineering

簡單易用，符合普惠對AI的想象即使名字里不帶Agent，也可以是一個好產(chǎn)品。

4 收窄：RAG是一種信息Agent

初步認(rèn)知：大模型作為信息容器

通過預(yù)訓(xùn)練注入：中高頻、持久化信息(事實(shí))
通過 Post Train注入：能力/套路,而不是事實(shí)
通過 context 注入：長尾、易變、符號化、數(shù)字化、和業(yè)務(wù)相關(guān)的數(shù)據(jù)

早期的初步認(rèn)知：大模型之上

打造agent技術(shù)中，大模型并非處于最頂層，它上面還需要有針對agent的業(yè)務(wù)邏輯，稱為SOP。只有SOP才能保證涉及多個步驟的agent的可靠性。SOP會生成指導(dǎo)大模型工作的計(jì)劃planner。

RAG能增強(qiáng)模型context，在推理過程中增加輔助生成答案的材料(RAG)，使答案更加準(zhǔn)確、充實(shí)、貼合場景。這種素材通常通過檢索實(shí)現(xiàn)(廣義講是一些信息agent)，應(yīng)滿足：

提供LLM缺失的，和用戶意圖相關(guān)的素材
滿足時間、空間等限定性要求
高精度的數(shù)據(jù)，精度需要高于搜索引擎提供的還需要用戶篩選的內(nèi)容
結(jié)構(gòu)化的，能提供可靠的關(guān)系推演能力
專業(yè)的，滿足產(chǎn)品創(chuàng)新需求

綜上，為能打造agent，需要以大模型為中心，以數(shù)據(jù)結(jié)構(gòu)化RAG為支撐(尤其是精確的結(jié)構(gòu)化數(shù)據(jù))，SOP為頂層抽象一個平臺。

基于這個認(rèn)知的架構(gòu)

圖片

初步的技術(shù)實(shí)現(xiàn)

服務(wù)側(cè)實(shí)現(xiàn)

分析用戶的 prompt 和 context ,獲取用戶意圖，表達(dá)為實(shí)體、關(guān)鍵詞、向量
利用用戶意圖從搜索引擎/關(guān)系數(shù)據(jù)庫召回相關(guān)素材
對素材進(jìn)行相關(guān)性排序
對排序后的素材進(jìn)行摘要(摳詞)
將摘要作為 context 送入大模型，并生成結(jié)果

設(shè)計(jì)的算法和模型

用戶意圖分析模型
實(shí)體提取模型
句子分析和關(guān)鍵詞提取模型
素材-意圖相關(guān)性模型
高速摘要模型

數(shù)據(jù)側(cè)實(shí)現(xiàn)

篩選優(yōu)質(zhì)語料，能提供事實(shí)、情節(jié)、數(shù)據(jù)等信息，精度較高
對語料進(jìn)行預(yù)處理，切成片段
對片段進(jìn)行結(jié)構(gòu)化，提取實(shí)體、關(guān)鍵詞、向量
對結(jié)構(gòu)化內(nèi)容進(jìn)行改寫，面向用戶需求提取標(biāo)簽

需要抓取的數(shù)據(jù)

一般知識性數(shù)據(jù)，如百科 wiki 類
社區(qū)重要數(shù)據(jù)，如 twitter、知乎上的大V數(shù)據(jù)、機(jī)構(gòu)數(shù)據(jù)
新聞源:質(zhì)量和權(quán)威性很重要
學(xué)術(shù)文獻(xiàn)，學(xué)術(shù)文獻(xiàn)索引
產(chǎn)品和業(yè)務(wù)需要的數(shù)據(jù)，如ppt、ppt素材、故事情節(jié)、橋段
網(wǎng)絡(luò)眾投數(shù)據(jù)，如針對重點(diǎn) query 的谷歌排序結(jié)果

5 好用的生產(chǎn)力工具

遠(yuǎn)不只一個 LLM + 搜索 API。平時搜集信息時，每人都有自己的習(xí)慣和一些相似點(diǎn)：

找政務(wù)/官宣/時效性 ->微信公眾號
找生活攻略 ->小紅書
看LLM相關(guān)研究->知乎/小紅書/twitter

他能不能做到速度快？

他的知識深度與準(zhǔn)確性，是否能夠代替搜索引擎？

海量的優(yōu)質(zhì)知識文本(新聞，論文...)

分鐘級索引更新，sub秒級查詢相應(yīng)

有效的把context控制在16k內(nèi)

盡量接近大眾對于AGI的想象，而不是嘗試向用戶解釋幻覺/不擅長數(shù)學(xué)等。這聽起來似乎是個搜索推薦問題的Pro Max版本！

于是，架構(gòu)又變成：

圖片

常見的用戶問題類型

圖片

6 生產(chǎn)力場景，6種意圖識別

Default：直接用 Yi 模型回答，不帶RAG 知識RAG：通用知識/專業(yè)知識，百科/學(xué)術(shù)研究類數(shù)據(jù)，新聞時事RAG：國內(nèi)，國際，時政，財(cái)經(jīng)，娛樂，體育，民生。并提供reference。搜索引擎RAG：從搜索引擎獲取摘要內(nèi)容和網(wǎng)頁內(nèi)容，并提供reference。Code/Math：CoT/PoT + Code Interpreter. PPT模式：創(chuàng)作PPT大綱,….

得到大致架構(gòu)(簡易示意)：

圖片

7 一些誤解

Q：大模型擁有很強(qiáng)的能力理解用戶的意圖。這點(diǎn)對GPT-4成立；對其他大模型，較困難！

Q：檢索內(nèi)容不相關(guān)時，大模型生成的內(nèi)容質(zhì)量也不應(yīng)該變差。

大模型能分辨出內(nèi)容是否相關(guān)的能力也是一個需要重點(diǎn)訓(xùn)練的能力。沒有針對增強(qiáng)的LLM遇到不相關(guān)的檢索內(nèi)容，RAG結(jié)果會顯著變差。

Q：高質(zhì)量內(nèi)容多，就能做好RAG。

內(nèi)容質(zhì)量不僅要高，要多，還得是用戶需求的新鮮、準(zhǔn)確、完整的內(nèi)容。

Q：有了RAG就能消滅生成幻覺。

RAG確實(shí)能消除一部分幻覺，更重要的是讓模型了解到它沒有學(xué)過的內(nèi)容，從而把無法回答的問題變得能夠回答，而不是能夠回答的問題回答變得更好。

8 一些彎路

通過小模型實(shí)現(xiàn)一個復(fù)雜的意圖路由，結(jié)果將非常不準(zhǔn)確。拆解出的用戶意圖通過不同技術(shù)路線實(shí)現(xiàn)，最后匯總成統(tǒng)一的聊天體驗(yàn)，也存在巨大挑戰(zhàn)。

通過prompt調(diào)整通用大模型，讓它能適應(yīng)RAG的任務(wù)。無論生成內(nèi)容的格式、內(nèi)容相關(guān)性、篇幅都存在著巨大的不確定性，效果相當(dāng)不穩(wěn)定。

試圖通過post-train對模型已有的能力進(jìn)行增強(qiáng)，很不容易。

試圖從0到1造一個搜索，直接滿足RAG的需求，門檻非常高，光是索引有價值的內(nèi)容一點(diǎn)就很難做。

結(jié)果要準(zhǔn)，響應(yīng)要快，成本要低 ->需要一個新鮮、完整的索引。但Google>Bing>自建庫。

單個的信息點(diǎn)檢索已經(jīng)有不錯的效果。但是回答綜合性問題(比如胖貓事件始末),需要整理多方面的信息，并形成回答草稿，以供RAG回答好綜合性問題。

9 多模態(tài)理解/檢索/生成(以PPT為例)

利用多模態(tài)理解，對于目標(biāo)文檔生成完整的文字描述，理解PPT中的概念和關(guān)系。如果僅對PPT進(jìn)行OCR來提取文本信息，可能丟失大量的上下文和視覺信息，導(dǎo)致檢索結(jié)果不夠準(zhǔn)確或者缺乏深度。能夠?qū)⑽谋竞鸵曈X信息結(jié)合起來，構(gòu)建更加完整的內(nèi)容表示。識別PPT之間的邏輯關(guān)系和內(nèi)容流程，有助于構(gòu)建知識圖譜或上下文模型。

利用多模態(tài)生成，能夠有效的規(guī)避版權(quán)侵權(quán)，召回圖片不準(zhǔn)，風(fēng)格不統(tǒng)一。生成的內(nèi)容與PPT的設(shè)計(jì)和布局相匹配，保持視覺一致性。

10 有了1M長文本能力，還要RAG嗎？

有了大的context，就不用在檢索相關(guān)性、摘要的精簡準(zhǔn)確方面做工作了。?

1M 的context length技術(shù)上并不難達(dá)到，但需要：

更多的卡和推理成本
更慢的推理速度
更難從一大塊文本內(nèi)容中找到所需要的有效內(nèi)容

所以長文本能力的提升，和RAG技術(shù)并不沖突，甚至可以互相促進(jìn)。重要的是RAG提供什么內(nèi)容能提升 LLM 的結(jié)果，而不是因?yàn)樯舷挛拈L度不足，才不得已用RAG來截?cái)嗪Y選長文本信息。實(shí)驗(yàn)證明，不是提供的上下文越多，回答越好。更多的上下文中一定會有被遺漏的信息。所以怎樣從中找到更重要的信息，壓縮提供給LLM的prompt的長度，永遠(yuǎn)是值得被研究的技術(shù)，無論上下文窗口有多大。

11 FAQ

有Google搜索引擎，咋還自己搭建RAG搜索服務(wù)？

專用搜索引擎和通用搜索引擎的差異

通用搜索引擎為了保證能搜到一切，不得不容忍很多長尾的低效信息，同時在用戶的特定場景中，Google并不知道場景信息。如若LLM主要針對學(xué)生或科研人員的場景中，搜索Transformer時，專用搜索引擎給出的都是學(xué)術(shù)科研相關(guān)的transformer算法或Huggingface的transformer庫。但google給出的更可能是普通人更加熟悉的變形金剛相關(guān)/變壓器的信息(這個例子只是示意通用搜索和專用搜索的差別，不是在討論哪個結(jié)果是更加正確的)。

網(wǎng)頁搜索和知識搜索的差異

真實(shí)的搜索引擎：搜索->打開鏈接->發(fā)現(xiàn)不是想要的內(nèi)容->返回到搜索頁面->打開新的鏈接->..->修改query重新搜索->.

理想的知識搜索：“我詢問一個問題終于可以直接告訴我答案了?！奔忍峁瑢?google搜索+查看對應(yīng)的網(wǎng)頁內(nèi)容+判斷內(nèi)容與問題的相關(guān)程度+自動修正query檢索詞”的工作打包合并后的信息。

難點(diǎn)：諸如幻覺、不準(zhǔn)確、信息沒有實(shí)時性等等問題，交互體驗(yàn)提升了，但真實(shí)使用體驗(yàn)依然沒有辦法跟有長期積累的傳統(tǒng)搜索引擎想媲美。

更加先進(jìn)的檢索技術(shù)

知識搜索相比傳統(tǒng)搜索的技術(shù)提升：

用戶的Query改寫
對引擎索引的內(nèi)容，利用LLM生成補(bǔ)足更多的相關(guān)信息，包括不限于:實(shí)體提取、摘要生成生成用戶可能的問題等等。這些信息都可以非常有效的提升用戶搜索的精確度
對搜索召回的結(jié)果進(jìn)行判別和加工，正常召回的是引擎中保存的原文信息，但是往往跟用戶query相關(guān)的只是其中一部分的信息，甚至可能是意外召回的無關(guān)信息。有了LLM可以根據(jù)用戶的query定向的對召回結(jié)果進(jìn)行簡單處理，提升召回結(jié)果的相關(guān)程度

和大模型Post train沒關(guān)系了吧？

RAG需要SFT配合。傳統(tǒng)LLM的SFT都是沒有RAG信息的情況下，與人類進(jìn)行校準(zhǔn)。當(dāng)模型可以獲得RAG提供的信息后，如何更好的利用RAG的信息回答用戶的問題，是需要進(jìn)一步SFT的。包括RAG的流程中也還有很多需要利用LLM能力的地方，這些地方都是需要通過SFT將模型能力調(diào)整到更專業(yè)的程度，才能獲得更好的效果。

但針對RAG和意圖識別等進(jìn)行針對性的調(diào)優(yōu)，會損傷型的原有能力。

避免 cherry-pick，而是退一步優(yōu)化整個大類別，否則容易按下葫蘆起了瓢。

沒提到向量檢索 Vector-Search 啊?

Vector-Search只是在簡單的本地化的RAG應(yīng)用中(如針對特定文檔的問答)，能更便捷提供RAG能力，從而成為當(dāng)下較火熱的技術(shù)。Vector-Search只是一種先進(jìn)的文本相似度算法，但相比一套完整搜索引擎，計(jì)算相關(guān)性僅是其中的一個子問題，甚至很多時候都不是最關(guān)鍵問題。

搜索引擎的完整架構(gòu)至少包括：索引(索引結(jié)構(gòu)、全量更新、增量更新)、QP(query理解、意圖判別/類目判別、query改寫)、召回、粗排、精排(rank model,靜態(tài)質(zhì)量分)、打散(相似的內(nèi)容不需要重復(fù)出)等等。而Vector-Search只為搜索引擎的架構(gòu)中提供了精排中的文本相關(guān)性信息，是不足以撐起整個引擎架構(gòu)的。早期的Google搜索，對結(jié)果影響更為重要的是PageRank,這個其實(shí)就是個靜態(tài)質(zhì)量分。一個引擎哪怕只利用關(guān)鍵詞召回+PageRank,其結(jié)果也往往遠(yuǎn)好于Vector-Search。

12 成功的Al-native產(chǎn)品需三者兼顧

模型能力

Yi-Large 模型能力優(yōu)秀。100B+的稠密模型，成本較低。Yi-Large 在國際公認(rèn)的榜單上取得第一梯隊(duì)的良好成績。

? 模型 + Infra(?；步?

模型的訓(xùn)練/服務(wù)/推理設(shè)計(jì)，與底層 Infra 架構(gòu)和模型結(jié)構(gòu)必須高度適配

多方面優(yōu)化后，實(shí)現(xiàn)先進(jìn)的 FP8 訓(xùn)練框架，模型訓(xùn)練成本同比降幅達(dá)一倍之多

自研性能/召回率最佳的向量數(shù)據(jù)庫笛卡爾Descartes*，成本只需第三方18%

零一萬物與 Google、Inflection Al一起入選24年3月 NVIDIA GTC 大會 FP8 最新成功案例；自研全導(dǎo)航圖向量數(shù)據(jù)庫，權(quán)威榜單評測 6項(xiàng)第一。

3 模型 + 應(yīng)用(模應(yīng)一體)

去年在海外驗(yàn)證 TC-PMF，以真實(shí)用戶體驗(yàn)，和模型迭代形成正循環(huán)

多模態(tài)理解與生成，結(jié)合真實(shí)場景，解鎖2C應(yīng)用的創(chuàng)新

單一產(chǎn)品上線9月，用戶近干萬，收入1億，ROI接近1

使用量較大的2C類AI應(yīng)用聚集在歐美Saas profitability 多模態(tài) Vision 模型：結(jié)合LLM的讀文檔“截圖提問”創(chuàng)新

大模型賽道從狂奔到長跑，取決于有效實(shí)現(xiàn) TC-PMF

當(dāng)前任何產(chǎn)品要實(shí)現(xiàn)大規(guī)模應(yīng)用，需兼顧技術(shù)路徑和推理成本

基于 Scaling Law，大模型能力快速增長，超過任何技術(shù)

大模型訓(xùn)練和推理的成本持續(xù)大幅下降(GPT價格年內(nèi)多次下調(diào))

需要頂級模型推理能力，才能實(shí)踐最佳 Al-First 應(yīng)用

但有些應(yīng)用會先爆發(fā)，同時要考慮推理成本和商業(yè)模式的平衡

尋找 TC-PMF 難度遠(yuǎn)遠(yuǎn)大于 PMF,是大模型行業(yè)集體的挑戰(zhàn)與機(jī)運(yùn)

持續(xù)演進(jìn)的技術(shù)所創(chuàng)造的商用價值和推理成本均是“移動目標(biāo)”

與其坐等風(fēng)來，不如成為造風(fēng)者。需建立基建到應(yīng)用的良性 ROI

圖片

雙軌模型策略

閉源探索商業(yè)化及 AI-First + 開源賦能生態(tài)

圖片

搭建 AI 應(yīng)用場景：

國內(nèi) platform.lingyiwanwu.com / 阿里云百煉
國際:platform.01.ai / Nvidia NlM / Fireworks.ai

參考：

編程嚴(yán)選網(wǎng)

責(zé)任編輯：武曉燕來源： JavaEdge

AI SOP 大模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="bidy6"></sub>