1秒鎖定7500萬債務(wù)黑洞,OpenAI o系列模型7大實(shí)際應(yīng)用案例
今早5點(diǎn),OpenAI分享了o系列模型的7大實(shí)際應(yīng)用場景,包括處理模糊任務(wù)、從海量信息中提取關(guān)鍵信息、復(fù)雜文檔推理與決策、多流程AIAgent、視覺推理、代碼審查以及性能評估。
在這些實(shí)際案例中,一家金融分析平臺通過o系列模型成功找出了影響收購的關(guān)鍵變更條款,幫助公司節(jié)省了7500萬美元。
此外,還解讀了o系列推理模型與效率型GPT系列模型的區(qū)別,幫助你在實(shí)際應(yīng)用中該如何高效選擇這兩種模型。
7大實(shí)際應(yīng)用場景
處理模糊任務(wù)
推理模型在處理模糊任務(wù)方面表現(xiàn)卓越。能夠憑借有限或零散的信息,通過簡單的提示,理解用戶的意圖,并處理指令中的信息缺口。Hebbia,一家專注于法律和金融領(lǐng)域的AI知識平臺公司,使用o1模型處理復(fù)雜文檔。
在處理信用協(xié)議時,o1模型僅通過一個基本提示,就能輕松識別出在受限支付能力下可用的籃子。與其他模型相比,o1在處理復(fù)雜提示時,在密集的信用協(xié)議上有52%的情況能夠產(chǎn)生更優(yōu)的結(jié)果。
從海量信息中提取關(guān)鍵信息
在面對大量非結(jié)構(gòu)化信息時,推理模型能夠準(zhǔn)確理解并提取出最相關(guān)的信息來回答問題。Endex,一家AI金融情報(bào)平臺,在分析一家公司的收購案時,使用o1模型審查了數(shù)十份公司文件,如合同和租約。
o1模型成功地找出了可能影響交易的關(guān)鍵條款,在文件腳注中發(fā)現(xiàn)了一個至關(guān)重要的“控制權(quán)變更”條款。如果公司被出售,必須立即償還7500萬美元的貸款。這一發(fā)現(xiàn)充分體現(xiàn)了o1模型在海量信息中精準(zhǔn)篩選關(guān)鍵信息的能力,為金融專業(yè)人士提供了有力的支持。
挖掘復(fù)雜數(shù)據(jù)關(guān)系
推理模型擅長對包含大量密集、非結(jié)構(gòu)化信息的復(fù)雜文檔進(jìn)行推理,如法律合同、財(cái)務(wù)報(bào)表和保險索賠等。BlueJ,一家AI稅務(wù)研究平臺,在稅務(wù)研究中需要綜合多個文檔得出最終合理的答案。
在將GPT-4o更換為o1模型后,發(fā)現(xiàn)o1在推理文檔之間的相互作用以得出邏輯結(jié)論方面表現(xiàn)更為出色,這些結(jié)論在單個文檔中并不明顯。通過使用o1模型,BlueJ的端到端性能提升了4倍,這一顯著的效果證明了o1模型在挖掘復(fù)雜數(shù)據(jù)關(guān)系方面的優(yōu)勢。
推理模型在處理復(fù)雜的金融場景時也表現(xiàn)出色。BlueFlameAI,一家投資管理AI平臺,在測試不同模型處理有關(guān)股東權(quán)益的復(fù)雜問題時發(fā)現(xiàn),o1和o3-mini能夠完美地處理諸如融資對現(xiàn)有股東的影響,特別是在股東行使反稀釋特權(quán)時的復(fù)雜計(jì)算。
這些問題即使是頂級金融分析師也需要花費(fèi)20-30分鐘才能解決,而o1和o3-mini不僅能夠準(zhǔn)確計(jì)算,還能生成清晰的計(jì)算表展示對10萬美元股東的影響。這一成果展示了推理模型在金融分析領(lǐng)域的巨大潛力,為投資決策提供了更準(zhǔn)確、高效的支持。
多步驟智能規(guī)劃
推理模型在多步驟智能規(guī)劃中起著關(guān)鍵作用。ArgonAI,一家為制藥行業(yè)服務(wù)的AI知識平臺,使用o1作為其代理基礎(chǔ)設(shè)施中的規(guī)劃器。
o1能夠精心安排工作流程中的其他模型,將大問題分解為較小的子問題,并選擇合適的數(shù)據(jù)類型,讓其他模型專注于執(zhí)行。在藥物研發(fā)的復(fù)雜過程中,o1模型可以根據(jù)研究目標(biāo)和現(xiàn)有數(shù)據(jù),制定詳細(xì)的研究計(jì)劃,包括選擇合適的實(shí)驗(yàn)方法、安排實(shí)驗(yàn)步驟以及確定數(shù)據(jù)分析方法等,從而提高研發(fā)效率。
Lindy.AI,一款工作AI助手,也使用o1模型為其許多代理工作流程提供動力。o1模型通過函數(shù)調(diào)用從用戶的日歷或電子郵件中提取信息,然后自動幫助用戶安排會議、發(fā)送電子郵件和管理日常任務(wù)。
在將出現(xiàn)問題的代理步驟切換到o1后,Lindy.AI的代理表現(xiàn)得到了顯著提升,幾乎達(dá)到了完美的程度。這一應(yīng)用展示了推理模型在智能辦公領(lǐng)域的實(shí)際價值,為用戶提供了更加便捷、高效的工作體驗(yàn)。
視覺推理新突破
目前,o1是唯一支持視覺能力的推理模型。與GPT-4o相比,o1在處理具有挑戰(zhàn)性的視覺內(nèi)容方面表現(xiàn)出色,如結(jié)構(gòu)模糊的圖表、表格以及質(zhì)量較差的照片。Safetykit,一家AI商家監(jiān)測平臺,在自動化風(fēng)險和合規(guī)審查數(shù)百萬在線產(chǎn)品時發(fā)現(xiàn),GPT-4o在最難的圖像分類任務(wù)上準(zhǔn)確率僅為50%,而o1在無需對其流程進(jìn)行任何修改的情況下,準(zhǔn)確率達(dá)到了令人矚目的88%。
這一巨大的差距凸顯了o1模型在視覺推理方面的優(yōu)勢,為電商平臺的商品監(jiān)測提供了更可靠的解決方案。
OpenAI內(nèi)部測試顯示,o1能夠從高度詳細(xì)的建筑圖紙中識別固定裝置和材料,生成全面的材料清單。o1還能在不同圖像之間進(jìn)行關(guān)聯(lián),通過建筑圖紙某一頁的圖例,正確地應(yīng)用到另一頁,即使沒有明確的指令。這一能力在建筑設(shè)計(jì)和施工領(lǐng)域具有重要的應(yīng)用價值,能夠提高設(shè)計(jì)和施工的準(zhǔn)確性和效率。
代碼審查與優(yōu)化
推理模型在代碼審查和提高代碼質(zhì)量方面非常有效。CodeRabbit,一家AI代碼審查初創(chuàng)公司,在GitHub和GitLab等平臺上提供自動化AI代碼審查服務(wù)。代碼審查過程對延遲不太敏感,但需要理解多個文件中的代碼差異。o1模型在這方面表現(xiàn)出色,能夠可靠地檢測到人類審查員可能忽略的代碼庫中的微小變化。在切換到o系列模型后,CodeRabbit的產(chǎn)品轉(zhuǎn)化率提高了3倍,這一數(shù)據(jù)充分證明了推理模型在代碼審查領(lǐng)域的價值。
Codeium,一家AI代碼擴(kuò)展初創(chuàng)公司發(fā)現(xiàn),o3-mini在代碼生成方面表現(xiàn)出色,對于定義明確的問題,即使是非常具有挑戰(zhàn)性的編碼任務(wù),o3-mini也能經(jīng)常生成高質(zhì)量、確定性的代碼,并找到正確的解決方案。相比之下,其他模型可能只適用于小規(guī)模、快速的代碼迭代,而o3-mini在規(guī)劃和執(zhí)行復(fù)雜軟件設(shè)計(jì)系統(tǒng)方面具有明顯優(yōu)勢。這表明o3-mini在軟件開發(fā)的全流程中都能發(fā)揮重要作用,為開發(fā)者提供更強(qiáng)大的支持。
模型響應(yīng)評估與基準(zhǔn)測試
推理模型在評估和基準(zhǔn)測試其他模型的響應(yīng)方面也表現(xiàn)出色。Braintrust,一家AI評估平臺,許多客戶在評估過程中使用“大語言模型作為評判者”的方法。例如,一家醫(yī)療保健公司可能使用像gpt-4o這樣的模型來總結(jié)患者問題,然后使用o1來評估總結(jié)的質(zhì)量。
在一個實(shí)際案例中,使用o1作為評判者后,F(xiàn)1分?jǐn)?shù)從使用4o時的0.12提高到了0.74。這一顯著的提升表明,o1在發(fā)現(xiàn)完成結(jié)果中的細(xì)微差異方面具有獨(dú)特的優(yōu)勢,為模型評估提供了更準(zhǔn)確、更智能的方法,尤其適用于最困難和最復(fù)雜的評分任務(wù)。
o與GPT系列模型的功能差異
o系列模型可稱為“規(guī)劃者”。它們經(jīng)過專門訓(xùn)練,在面對復(fù)雜任務(wù)時,能夠進(jìn)行長時間、深入的思考。這種特性使得o系列模型在制定策略、規(guī)劃復(fù)雜問題解決方案以及基于大量模糊信息做出決策等方面表現(xiàn)出色。
以數(shù)學(xué)領(lǐng)域?yàn)槔诮鉀Q復(fù)雜的微積分證明題時,o系列模型可以從多個定理和公式中篩選出合適的內(nèi)容,逐步構(gòu)建出嚴(yán)謹(jǐn)?shù)淖C明過程。在工程領(lǐng)域,當(dāng)設(shè)計(jì)一個大型建筑結(jié)構(gòu)時,o系列模型能綜合考慮各種因素,如地理環(huán)境、建筑用途、材料性能等,制定出最優(yōu)的設(shè)計(jì)方案。此外,o系列模型執(zhí)行任務(wù)的準(zhǔn)確性和精度極高,在金融服務(wù)和法律服務(wù)等對專業(yè)性要求極高的領(lǐng)域,它們能夠勝任原本需要人類專家才能完成的工作。
GPT模型則像是“工作馬”,具有較低的延遲和較高的成本效益,更適合用于執(zhí)行簡單直接的任務(wù)。在一些對速度要求較高的場景中,如實(shí)時聊天機(jī)器人的回復(fù)生成,GPT模型能夠快速給出回應(yīng),滿足用戶即時交互的需求。在文本內(nèi)容的簡單格式轉(zhuǎn)換任務(wù)中,GPT模型也能高效完成,以較低的成本實(shí)現(xiàn)任務(wù)目標(biāo)。
該如何選擇合適的模型
在實(shí)際應(yīng)用中,選擇合適的模型至關(guān)重要。如果項(xiàng)目對速度和成本最為看重,且任務(wù)簡單明確,那么GPT模型無疑是最佳選擇。例如在一個新聞資訊類APP中,需要快速對用戶的簡單查詢(如查詢某明星的基本信息)做出回應(yīng),GPT模型憑借其快速的處理速度和較低的成本,能夠很好地滿足需求。若任務(wù)側(cè)重于執(zhí)行明確界定的任務(wù),例如按照特定格式對數(shù)據(jù)進(jìn)行整理,GPT模型也能輕松應(yīng)對。
但當(dāng)準(zhǔn)確性和可靠性是關(guān)鍵因素,且需要解決復(fù)雜的多步驟問題時,o系列模型則更為合適。在醫(yī)療診斷輔助系統(tǒng)中,醫(yī)生上傳患者的各種檢查報(bào)告,o系列模型可以對這些信息進(jìn)行深入分析,準(zhǔn)確判斷患者的病情,并給出合理的診斷建議。在科學(xué)研究領(lǐng)域,面對復(fù)雜的實(shí)驗(yàn)數(shù)據(jù)和理論問題,o系列模型也能發(fā)揮其優(yōu)勢,幫助科研人員得出準(zhǔn)確可靠的結(jié)論。
在大多數(shù)AI工作流程中,往往會結(jié)合使用這兩種模型。o系列模型負(fù)責(zé)智能規(guī)劃和決策,GPT模型則專注于具體任務(wù)的執(zhí)行。
以一個電商智能客服系統(tǒng)為例,o系列模型根據(jù)用戶的問題,制定解決問題的策略和步驟,然后選擇合適的GPT模型去執(zhí)行具體的任務(wù),如查找商品信息、處理訂單等,從而實(shí)現(xiàn)高效的客戶服務(wù)。
推理模型提示技巧
推理模型擅長理解和回應(yīng)簡潔明了的指令。在編寫提示時,應(yīng)避免冗長復(fù)雜的表述,盡量用簡短、清晰的語言表達(dá)需求。
例如,在讓模型分析一段文本的情感傾向時,直接輸入 “分析這段文本的情感傾向”,比使用復(fù)雜的表述 “請你仔細(xì)閱讀以下這段文本,從語義、語境、詞匯使用等多個方面綜合分析,判斷其傳達(dá)的是積極、消極還是中性的情感傾向” 更能讓模型快速準(zhǔn)確地理解任務(wù)。
由于推理模型內(nèi)部已經(jīng)具備強(qiáng)大的推理能力,因此無需使用 “一步一步思考” 或 “解釋你的推理過程” 等思維鏈提示。這些提示不僅可能無法提升模型性能,有時還會起到反作用。在實(shí)際應(yīng)用中,應(yīng)相信模型的內(nèi)部推理機(jī)制,直接提出明確的任務(wù)要求即可。
使用分隔符如 Markdown、XML 標(biāo)簽和章節(jié)標(biāo)題等,可以清晰地指示輸入的不同部分,幫助模型正確解釋各個部分的內(nèi)容。
在輸入包含文本描述和示例的提示時,可以使用 Markdown 的分隔符將描述和示例分開,如 “任務(wù)描述:分析文本主題。示例:[文本 1],主題:科技發(fā)展;[文本 2],主題:文化傳承”,這樣模型能夠更清晰地理解任務(wù)和示例之間的關(guān)系,提高回答的準(zhǔn)確性。
在指令中,應(yīng)盡量為成功的響應(yīng)設(shè)定非常具體的參數(shù),鼓勵模型不斷推理和迭代,直到滿足成功標(biāo)準(zhǔn)。例如,在讓模型創(chuàng)作一篇文章時,可以明確規(guī)定文章的主題、字?jǐn)?shù)、風(fēng)格要求等參數(shù),讓模型清楚知道需要達(dá)到的目標(biāo),從而創(chuàng)作出更符合期望的文章。