自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="h8ytw"></style>

^{<blockquote id="h8ytw"></blockquote>}

<p id="h8ytw"></p>

<style id="h8ytw"></style><sub id="h8ytw"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

如何高效地為「推理模型」編寫最佳提示詞？萬字長文介紹原創(chuàng) 精華

發(fā)布于 2025-3-14 09:56

瀏覽

0收藏

編者按： 如何有效地為推理模型編寫最佳提示詞？對于 OpenAI 推出 O1 和 O3-mini 等這些專為深度推理而設(shè)計的模型，傳統(tǒng)的提示詞工程技巧是否仍然適用？
我們今天為大家?guī)淼倪@篇文章，作者的觀點是：推理模型與傳統(tǒng)大語言模型在提示詞處理方式上有本質(zhì)不同，需要采用更簡潔直接的提示詞策略來充分發(fā)揮其優(yōu)勢。文章首先深入剖析了 OpenAI 的 O1/O3-mini 與 GPT-4o 三大模型的核心差異：

O1/O3-mini 內(nèi)置深度推理鏈，無需顯式引導(dǎo)即可自主分析，而 GPT-4o 依賴提示詞驅(qū)動分步思考；

O1 系列在專業(yè)領(lǐng)域（如數(shù)學(xué)、法律）展現(xiàn)更強的多步驟推理與自檢能力，而 GPT-4o 更擅長快速響應(yīng)通用任務(wù)；

O1/O3-mini 需避免冗余指令，強調(diào)簡潔提問與結(jié)構(gòu)化輸出，而 GPT-4o 需主動引導(dǎo)推理過程。

然后進(jìn)一步提出優(yōu)化推理模型性能的實踐方法，例如精簡提示詞、設(shè)定角色與格式指令，并以法律案例分析為例，演示如何通過精準(zhǔn)設(shè)計提示詞生成嚴(yán)謹(jǐn)?shù)姆烧撟C。

作者 | Agustinmantaras

編譯 |?岳揚

OpenAI 的 O1 和 O3-mini 是兩款先進(jìn)的推理模型，與基礎(chǔ)版 GPT-4（通常稱為 GPT-4o）在提示詞處理和答案生成方式上存在明顯差異。這些模型通過模擬人類的分析方法，在處理復(fù)雜問題時會投入更多時間進(jìn)行“深度思考”。

01 重要提示

禁止嘗試提取模型的內(nèi)部推理過程，此類行為違反使用準(zhǔn)則。

本文將探討 O1 與 O3-mini 在輸入處理、推理能力和響應(yīng)行為等方面與 GPT-4o 的區(qū)別，并闡述優(yōu)化推理模型性能的提示詞工程最佳實踐。最后，我們將這些方法論應(yīng)用于法律案例分析場景進(jìn)行實操演示。

02 O1/O3-mini 與 GPT-4o 的差異分析

2.1 輸入結(jié)構(gòu)與上下文處理

內(nèi)置推理 vs 提示詞驅(qū)動推理：O1 系列模型內(nèi)置思維鏈推理機制，能夠自主進(jìn)行多步驟分析，無需通過提示詞引導(dǎo)其"逐步思考"。相比之下，GPT-4o 需要類似"Let’s think step by step"的指令來解決復(fù)雜問題，因其默認(rèn)不會主動進(jìn)行深度多步驟推理。使用 O1/O3 時，可直接提出問題，模型會自行展開深度分析。
外部信息依賴：GPT-4o 憑借多種多樣的知識庫和工具集成（如網(wǎng)頁瀏覽、插件、視覺分析）能處理多領(lǐng)域的任務(wù)。而 O1 系列模型在目標(biāo)訓(xùn)練領(lǐng)域外的知識較有限，例如 O1-preview 雖擅長推理任務(wù)，卻無法回答關(guān)于自身的問題。因此，在使用 O1/O3-mini 時，當(dāng)任務(wù)涉及非常識性內(nèi)容時，需在提示詞中提供必要的背景信息。GPT-4o 可能已掌握相關(guān)法律先例或冷門知識，而 O1 需要用戶直接提供相關(guān)文本或數(shù)據(jù)。
上下文長度：推理模型的上下文窗口非常大。O1 支持 128k 輸入 tokens，O3-mini 可達(dá) 200k 輸入 tokens（輸出上限為 100k），均超過 GPT-4o。這使得處理大量案例文件或數(shù)據(jù)集更高效。為便于工程設(shè)計，建議通過分段、設(shè)置列表或標(biāo)題來清晰地組織長輸入內(nèi)容，幫助模型定位信息。盡管兩者都能處理長提示詞，但 O1/O3 的容量更大，允許單次輸入更詳盡的上下文，這對進(jìn)行復(fù)雜分析至關(guān)重要。

2.2 推理能力與邏輯演繹

推理深度：O1 和 O3-mini 專為系統(tǒng)性多步驟推理任務(wù)進(jìn)行了優(yōu)化，通過"延長思考時間"提升復(fù)雜任務(wù)的處理準(zhǔn)確率。例如在 AIME 數(shù)學(xué)考試中，O1-preview 以 83% 的正確率遠(yuǎn)超 GPT-4o 的 13%，展現(xiàn)其在專業(yè)領(lǐng)域的邏輯優(yōu)勢。這些模型會自動執(zhí)行推理鏈，還會自檢推理過程，而 GPT-4o 若無明確指令，其推理可能不夠徹底，導(dǎo)致在 O1 能處理的極端復(fù)雜場景中出現(xiàn)疏漏。
復(fù)雜任務(wù)與簡單任務(wù)的處理差異：O1 系列模型默認(rèn)為深度推理模式，在需要多步驟分析的場景（如綜合論證/數(shù)學(xué)證明）中表現(xiàn)卓越。當(dāng)任務(wù)涉及 5 步以上的推理時，O1-mini/O3 相較 GPT-4 的準(zhǔn)確率提升超 16%。但這一特性也帶來了副作用：面對簡單查詢（如 3 步以內(nèi)的推理問題），O1 的"過度思考"可能適得其反。研究表明，GPT-4o 處理簡單問答更直接高效，而 O1 可能生成不必要的分析 —— 其優(yōu)勢在于復(fù)雜場景的精準(zhǔn)解構(gòu)，而非基礎(chǔ)問答的響應(yīng)速度。
邏輯演繹風(fēng)格：針對謎題/演繹推理類任務(wù)，GPT-4o 需通過提示詞引導(dǎo)分步推導(dǎo)（否則易直接跳轉(zhuǎn)到結(jié)論部分）。而 O1/O3 采用獨特的內(nèi)部模擬機制：在響應(yīng)過程中自動構(gòu)建"思維草稿本"，通過自我對話反復(fù)驗證邏輯一致性。這意味著用戶無需額外要求模型解釋推理過程 —— 在 O1/O3 給出答案之前會自動這樣做。使用 GPT-4o 時，可能需要添加"先列出假設(shè)再推導(dǎo)結(jié)論（first list the assumptions, then conclude）"等指令來確保邏輯嚴(yán)謹(jǐn)；但對 O1 而言，這類提示詞反而可能干擾其內(nèi)置的推理優(yōu)化流程。

2.3 響應(yīng)特征與輸出優(yōu)化

細(xì)節(jié)豐富度與翔實度：O1 與 O3-mini 因其具備深度推理機制，常為復(fù)雜問題生成結(jié)構(gòu)化的、詳細(xì)的答案。例如，O1 可能會將一個數(shù)學(xué)問題的解決方案拆解為多步推導(dǎo)方案，或會為戰(zhàn)略規(guī)劃的每一部分闡明邏輯依據(jù)。相比之下，GPT-4o 則會默認(rèn)輸出更簡潔的答案（如精煉的結(jié)論），需被直接要求才會展開詳細(xì)說明。從提示詞工程角度看，若需 O1 精簡回答，必須明確給出指令“請簡練回答”（如同對 GPT-4 的要求）；反之，若希望 GPT-4o 在輸出中提供逐步解釋，則需主動添加說明。值得注意的是，即使未要求分步解釋，O1 在生成答案時可能已在內(nèi)部完成多步推理。
準(zhǔn)確性與自檢機制：推理模型具備動態(tài)自檢能力 —— OpenAI 指出，O1 在響應(yīng)生成過程中能主動捕捉邏輯漏洞，顯著提升復(fù)雜場景的事實準(zhǔn)確性。GPT-4o 雖整體可靠，但如果不加以引導(dǎo)，偶爾也會存在"自信錯誤"風(fēng)險或產(chǎn)生幻覺。O1 通過內(nèi)置驗證流程可減少錯誤輸出，而 GPT-4o 可能需要額外指令（如要求它批判或驗證其答案）才能達(dá)到同等置信度。這表明在使用 O1/O3 時，我們通常可以放心地通過簡單直接的提示詞來獲得復(fù)雜問題的正確答案。 而 GPT-4 則可能需要額外提供一些指令，比如“請確保你的回答與上述事實一致”。但需注意：兩者均非絕對可靠，關(guān)鍵的事實性輸出仍需人工核驗。
速度與成本的權(quán)衡：O1 系列模型以響應(yīng)速度與更高成本換取深度推理能力 —— O1 Pro 處理長任務(wù)時甚至?xí)@示一個進(jìn)度條。GPT-4o 在常規(guī)查詢中響應(yīng)更快，而 O3-mini 作為輕量級推理模型，在降低延遲與 token 成本的同時，仍保持 STEM 領(lǐng)域的推理優(yōu)勢（但在通用知識的覆蓋面或極其復(fù)雜的推理問題的處理可能無法與完整的 O1 或 GPT-4 相提并論。）。在進(jìn)行提示詞工程以實現(xiàn)最佳響應(yīng)表現(xiàn)時，我們需要權(quán)衡回答的深度與速度：O1 可能需要更多時間才能詳盡作答。如果對響應(yīng)時間有要求，且任務(wù)復(fù)雜度不屬于最高的那類，那么選擇 O3-mini（或者 GPT-4o）可能會更合適。OpenAI建議：GPT-4o 仍可是多數(shù)任務(wù)場景的默認(rèn)選擇，O1 主要用于策略制定/數(shù)學(xué)/編程等超高復(fù)雜度任務(wù)。 使用 O1 時需預(yù)判其響應(yīng)延遲，必要時調(diào)整系統(tǒng)超時設(shè)置或向終端用戶說明等待時間。簡言之，根據(jù)任務(wù)復(fù)雜度選擇工具：簡單任務(wù)用 GPT-4o 提效，硬核問題用 O1 攻堅。

03 最大限度提升性能的提示詞工程技術(shù)

要充分發(fā)揮 O1 和 O3-mini 的性能，需要采用與 GPT-4o 略有不同的提示詞編寫方法。以下這些提示詞工程技巧和最佳實踐，可幫助您從這些推理模型中獲得最佳效果：

3.1 保持提示詞簡潔清晰

提問應(yīng)簡明扼要。 由于 O1 和 O3 會進(jìn)行密集的內(nèi)部推理，因此它們對不含冗余文本的重點問題或指令反應(yīng)最佳。OpenAI 和近期的相關(guān)研究都建議避免對這些模型使用過于復(fù)雜或引導(dǎo)性過強的提示詞。在實際操作中，應(yīng)直述問題或任務(wù)，僅提供必要細(xì)節(jié)。無需添加"修飾性內(nèi)容"或?qū)栴}進(jìn)行多次改寫。例如，與其寫：“在這道具有挑戰(zhàn)性的謎題中，我希望你能仔細(xì)推理每個步驟，從而得出正確答案。讓我們一步一步來…”，不如直接問：“請解開下面這道謎題[包含謎題細(xì)節(jié)]。解釋你的推理過程?！?模型自然會在內(nèi)部進(jìn)行逐步思考并給出解釋。過多的指令反而會適得其反 —— 有研究發(fā)現(xiàn)添加過多提示詞上下文或示例會降低 O1 性能，會干擾其推理過程。

技巧：對于復(fù)雜任務(wù)，先嘗試零樣本提示（僅提供任務(wù)描述），僅在模型輸出不符合需求時才添加更多指令。通常對這些推理模型來說，最簡的提示詞反而效果最佳。

3.2 避免不必要的小樣本（Few-Shot）示例

針對 GPT-3/4 的傳統(tǒng)提示詞工程常使用小樣本示例或演示來引導(dǎo)模型。但對 O1/O3 而言，少即是多。 O1 系列模型經(jīng)過專門訓(xùn)練，不需要包含大量示例的提示詞。事實上，使用多個示例可能還會降低性能。對 O1-preview 和 O1-mini 的研究顯示，few-shot prompting（包含少量示例的提示詞）會持續(xù)降低其性能 —— 即便精心挑選的示例也常使其表現(xiàn)不如簡單提示詞。提供的示例似乎會分散或限制模型的內(nèi)部推理。OpenAI 的官方指南與此一致：建議限制對推理模型的額外上下文或示例，以避免混淆其內(nèi)部邏輯。

最佳實踐：使用零樣本提示詞，必要時最多添加一個示例。若包含示例，請確保高度相關(guān)且簡單明了。例如在法律分析的提示詞中，通常不應(yīng)預(yù)設(shè)完整的案例分析示例，而是直接詢問新案例。唯一需要使用示范案例的情況是當(dāng)任務(wù)格式非常具體且模型未遵循指令時 —— 此時可以展示一個簡短的目標(biāo)格式示例。除此之外，請相信模型能通過直接的詢問解決問題。

3.3 利用系統(tǒng)/開發(fā)者指令設(shè)定角色和輸出格式

設(shè)置清晰的指令上下文有助于引導(dǎo)模型生成響應(yīng)。通過 API（或在對話界面的系統(tǒng)消息（system message）中）簡潔定義模型角色或風(fēng)格。例如系統(tǒng)消息（system message）可以是：“你是會逐步解釋具體解決方案的專家級科研人員”。O1 和 O3-mini 對此類角色指令反應(yīng)良好，并會將其融入推理過程。但需記住，這些推理模型本身已擅長理解復(fù)雜任務(wù)，因此指令應(yīng)聚焦于您期望的輸出形式而非思考方式。有效利用系統(tǒng)/開發(fā)者指令（system/developer instructions）的場景包括：

確定任務(wù)范圍或角色：例如"扮演法律分析師"或"以擅長向?qū)W生進(jìn)行講解的數(shù)學(xué)老師身份解決問題"。這會影響語氣和回答的詳細(xì)程度。
指定輸出格式：若需要結(jié)構(gòu)化形式（列表、表格、JSON等）的答案，請明確說明。O1（尤其是 O3-mini）支持結(jié)構(gòu)化輸出模式并會遵循格式要求。例如：“將你的發(fā)現(xiàn)以要點列表的形式呈現(xiàn)”。由于其邏輯性較強，它們往往能準(zhǔn)確遵循格式指令，這有助于保持響應(yīng)的一致性。
設(shè)置界限：若需控制篇幅或聚焦方向，可加入"在詳細(xì)分析后提供簡要結(jié)論"或"僅使用給定信息不作外部假設(shè)"等指令。推理模型會遵守這些設(shè)置的界限，防止偏離主題或虛構(gòu)事實。這一點很重要，因為 O1 可能會生成非常詳盡的分析內(nèi)容 —— 雖然通常情況下這樣也很好，但若您明確只需要簡要內(nèi)容時則需進(jìn)行限制。

請確保每次編寫提示詞都包含關(guān)于語氣、角色、格式的指令。

3.4 通過指令控制內(nèi)容詳細(xì)程度與分析深度

雖然 O1 和 O3-mini 會自然而然地進(jìn)行深度推理，但您可控制其在輸出中展現(xiàn)多少推理過程。若需要詳細(xì)解釋，可在提示詞中要求（例如"在答案中展示你的逐步推理過程"）。它們不需要被提醒進(jìn)行推理，但需要被告知是否展示推理過程。反之，若發(fā)現(xiàn)模型回答過于冗長或過于專業(yè)，可指示它們回答更加簡潔或只聚焦某些方面。例如：“用 2-3 段話進(jìn)行總結(jié)分析，僅包含最關(guān)鍵要點”。模型通常能遵守此類有關(guān)篇幅或聚焦方向的指令。需注意 O1 的默認(rèn)行為是輸出全面詳盡的內(nèi)容——優(yōu)先保證正確性而非簡潔性，因此可能傾向于給出更多細(xì)節(jié)。直接要求輸出簡潔在多數(shù)情況下能覆蓋這種行為傾向。

對于 O3-mini，OpenAI 提供了額外的工具來管理分析深度："推理強度（reasoning effort）"參數(shù)（低、中、高）。該設(shè)置可讓模型知道需要"思考"的強度。在使用 API 或支持該功能的系統(tǒng)中，可為復(fù)雜任務(wù)調(diào)高該參數(shù)（確保最大推理強度，但會增加回答長度和延遲），或為簡單任務(wù)調(diào)低（更快、更精簡的回答）。這實質(zhì)上是控制輸出詳細(xì)程度和完整性的另一種方式。若無法直接使用該參數(shù)，可通過明確表示模仿低強度模式：例如在速度優(yōu)先于絕對準(zhǔn)確性的場景下要求"無需深入分析，快速給出答案 “。反之要模仿高強度模式，可以說"采取所有必要的步驟得出正確答案，即使解釋會較長”。這些提示詞與模型內(nèi)部設(shè)置的運作方式一致。

3.5 確保復(fù)雜任務(wù)的準(zhǔn)確性

要在困難問題上獲得最準(zhǔn)確的回答，需在提示詞中利用推理模型的優(yōu)勢。 由于 O1 可以進(jìn)行自我檢查，甚至發(fā)現(xiàn)、捕捉矛盾，因此我們可要求其使用該能力：例如"分析所有事實并雙重驗證結(jié)論的一致性"。通常情況下，推理模型會自動進(jìn)行這些操作，但強化該指令可以提示模型要格外謹(jǐn)慎。有趣的是，由于 O1 已具備自檢能力，因此很少需要類似"驗證每個步驟"之類的指令（這對 GPT-4o 更有用）。應(yīng)把重點放在提供完整且無歧義的信息上。若問題或任務(wù)存在潛在的模糊之處，應(yīng)在提示詞中加以澄清或指示模型列出所有假設(shè)，防止模型錯誤猜測。

處理數(shù)據(jù)源時：若任務(wù)涉及分析給定的數(shù)據(jù)（如總結(jié)文檔或根據(jù)提供的數(shù)字計算答案），需確保數(shù)據(jù)呈現(xiàn)清晰。O1/O3 會嚴(yán)謹(jǐn)使用數(shù)據(jù)，為了清晰可見，我們可將數(shù)據(jù)分解為要點或表格。若需避免模型產(chǎn)生幻覺（如法律場景中不應(yīng)編造法律條文），應(yīng)明確聲明"回答僅基于提供的信息和常識；不可捏造任何細(xì)節(jié)"。推理模型通常善于遵循已知事實，此類指令能進(jìn)一步減少幻覺風(fēng)險。

驗證迭代：如果任務(wù)非常關(guān)鍵（如復(fù)雜的法律推理或高風(fēng)險的工程計算），可采用集成模型響應(yīng)的提示詞工程技術(shù)。這不是一個單一的提示詞而是一種策略：多次運行查詢（或要求模型考慮其他解決方案）后比較答案。O1 的隨機性使其可能每次探索不同推理路徑。通過比較輸出或在后續(xù)提示詞中要求模型"反思是否存在其他解讀方式"，可提高結(jié)果可信度。雖然 GPT-4o 也適用于此方法，但當(dāng)處理絕對準(zhǔn)確性至關(guān)重要的任務(wù)時，這種方法對 O1 尤其有用 —— 本質(zhì)上是利用模型自身的分析深度進(jìn)行交叉驗證。

最后請記住，模型的選擇本身就是提示詞工程的一部分：若解決一個問題無需 O1 級別的推理能力，使用 GPT-4o 可能更高效且同樣準(zhǔn)確。OpenAI 建議將 O1 留給困難任務(wù)，其余情況使用 GPT-4o。因此終極技巧是：先評估任務(wù)復(fù)雜度。若簡單任務(wù)，要么以最直接方式要求 O1 避免過度思考，要么切換至 GPT-4o。若復(fù)雜任務(wù)，則通過上述技術(shù)充分發(fā)揮 O1 的能力。

04 O1/O3 與 GPT-4o 處理邏輯推理的差異

這些推理模型處理邏輯問題的方式與 GPT-4o 存在本質(zhì)區(qū)別，提示詞策略需相應(yīng)調(diào)整：

處理歧義性：在邏輯推理任務(wù)中，若信息缺失或存在歧義，GPT-4o 可能會傾向于臨時做出假設(shè)（例如：“假設(shè)今天是晴天”），而 O1 更可能明確指出存在歧義之處或考慮多種可能性（因其在推理過程中會進(jìn)行反思的特性）。要利用這一點，可直接在提示詞中要求 O1：“若存在不確定因素，請先說明你的假設(shè)再解答”。相比之下，GPT-4o 需要更多引導(dǎo)以防止進(jìn)行臆測?？傮w而言，O1 的推理更謹(jǐn)慎徹底，GPT-4o 的推理更快速全面。因此，對 GPT-4o 需強調(diào)嚴(yán)謹(jǐn)性，而對 O1 只需提供信息并信任其自主推理能力。
分步輸出控制：若需要輸出邏輯步驟（例如用于教學(xué)或需要透明化展示模型思考流程的場景），必須顯式要求 GPT-4o “請展示推導(dǎo)過程”。O1 在復(fù)雜問題上默認(rèn)會輸出結(jié)構(gòu)化的推理過程，但簡單問題可能直接給出結(jié)論。若需 O1 展示邏輯鏈，直接給出指令即可（其子模型 O1-mini 也已被證明具備分步解析能力）；若只需最終答案，可明確說明“直接給出最終答案”以跳過冗長的解釋。
邏輯嚴(yán)謹(jǐn)性與創(chuàng)造性的平衡：GPT-4（包括 4o）具有創(chuàng)造性優(yōu)勢，可能在邏輯問題中進(jìn)行類比或虛構(gòu)場景（雖不總是符合需求）。O1 則專注嚴(yán)格的邏輯分析，優(yōu)先保證正確性。如果您的提示詞涉及一個既需要推理又需要一點創(chuàng)造力的情景（例如解謎時需要串聯(lián)線索和敘述故事），可用 GPT-4 處理敘事部分，用 O1 進(jìn)行推理。若僅用 O1/O3，需明確要求“提供創(chuàng)造性的觀點或更具想象力的回答”才能突破純邏輯框架。

總之：

對 O1/O3：將清晰定義的復(fù)雜推理任務(wù)交給它們，信任其內(nèi)置邏輯處理機制，無需干預(yù)思考過程；
對 GPT-4o：沿用經(jīng)典提示詞工程（問題拆解、要求逐步推理等）以激發(fā)同等水平的推理能力；

提示詞的風(fēng)格一定要與模型相匹配 —— 讓 GPT-4o 感到困惑的問題可能正好適合 O1，反之亦然，因為他們的推理方法不同。

05 編寫高效提示詞：最佳實踐總結(jié)

為將上述內(nèi)容整合為可操作的指南，以下提供一份使用 O1 或 O3-mini 模型的最佳實踐清單：

使用清晰具體的指令：明確說明你希望模型執(zhí)行的任務(wù)或回答的問題。避免無關(guān)細(xì)節(jié)。對于復(fù)雜問題，通常直接提問就足夠了（無需復(fù)雜的角色扮演或多問題嵌套式提示詞）。
僅提供必要的上下文，省略冗余內(nèi)容：包含模型所需的垂直領(lǐng)域信息（如案件事實、數(shù)學(xué)題數(shù)據(jù)等），因為模型可能缺乏最新的或小眾的知識。但不要添加無關(guān)文本或過多示例 —— 冗余內(nèi)容會分散模型的注意力。
少用或不用小樣本示例：默認(rèn)從零樣本提示詞開始。若模型誤解了任務(wù)或輸出格式，可添加一個簡單示例作為引導(dǎo)，但切勿為 O1/O3 添加長串示例鏈。這類模型不需要大量示例，這樣做反而可能降低其性能。
按需設(shè)定角色或語氣：通過系統(tǒng)消息（system message）或簡短前綴引導(dǎo)模型進(jìn)入正確的思維模式（例如“你是一名高級法律助理，正在分析一個案件”）。這種引導(dǎo)尤其有助于調(diào)整語氣（正式/非正式）并確保使用領(lǐng)域相適應(yīng)的語言。
明確指定輸出格式：若需要特定結(jié)構(gòu)（列表、提綱、JSON 等），需明確告知模型。推理模型能夠可靠地遵循格式指令。例如：“請以有序步驟列表的形式回答”。
通過指令控制回答篇幅與細(xì)節(jié)：要求簡潔回答時直接說明（如“用一段話回答”或“僅需回答是/否，然后加一句話解釋即可”）。需要深度分析時要明確指示（如“提供詳細(xì)解釋”）。切勿假設(shè)模型默認(rèn)知曉你對模型響應(yīng)詳細(xì)程度的需求 —— 必須主動說明。
利用 O3-mini 的推理強度設(shè)置：通過 API 使用 O3-mini 時，根據(jù)任務(wù)選擇適當(dāng)?shù)耐评韽姸龋ǖ?中/高）。高強度會給出更透徹的答案（適用于復(fù)雜法律推理或困難數(shù)學(xué)題），低強度提供更快速簡潔的回復(fù)（適合快速檢查或簡單查詢）。這是調(diào)節(jié) O3-mini 提示詞行為的獨特方式。
避免冗余的“逐步思考”提示詞：不要為 O1/O3 添加“讓我們逐步分析”之類的短語或思維鏈指令，這些模型已內(nèi)置此類推理機制。此類提示詞應(yīng)保留給 GPT-4o 等需要顯式引導(dǎo)的模型使用，以節(jié)省計算資源。
測試與迭代優(yōu)化：由于這些模型對提示詞的措辭較敏感，若未獲得理想回答，可嘗試重構(gòu)問題或收緊指令。稍加改動（如直接提問與開放式提示詞的轉(zhuǎn)換）可能顯著提升效果。雖然 O1/O3 相比舊模型更易一次性處理復(fù)雜任務(wù)，但微調(diào)提示詞仍能有助于優(yōu)化內(nèi)容的清晰程度與輸出格式。
驗證重要輸出：對于重要應(yīng)用場景，不要依賴單一的提問-回答循環(huán)。后續(xù)繼續(xù)使用提示詞要求模型驗證其結(jié)論（如“你對此結(jié)論有信心嗎？請解釋原因”），或再次詢問模型來查看是否得到一致的結(jié)果。一致且理由充分的答案能反映模型推理的可靠性。

通過遵循這些技巧，可充分發(fā)揮 O1 和 O3-mini 的潛力，并獲得高度優(yōu)化的響應(yīng)結(jié)果，從而發(fā)揮它們的優(yōu)勢。

06 將上述最佳實踐應(yīng)用于法律案例分析

最后，讓我們通過法律案例分析場景來具體呈現(xiàn)這些提示詞設(shè)計原則（如前文所述）。法律分析是復(fù)雜推理任務(wù)的典型代表，若精心設(shè)計提示詞，O1 模型能在此領(lǐng)域發(fā)揮卓越效能：

結(jié)構(gòu)化輸入：首先清晰概述案件的關(guān)鍵事實及需要回答的法律問題。例如，以要點或簡短段落形式列出背景事實，隨后明確提出法律問題：“根據(jù)上述事實，依據(jù)美國法律判定甲方是否構(gòu)成違約?！边@種結(jié)構(gòu)化的提示詞結(jié)構(gòu)有助于模型解析場景，確保關(guān)鍵細(xì)節(jié)不被遺漏。
提供相關(guān)法律依據(jù)：若涉及特定法律條文、判例或相關(guān)定義，需將其內(nèi)容或摘要納入提示詞。O1 不具備實時檢索功能，可能無法“記憶”起小眾法律條款 —— 若分析依賴某條法律文本，請直接提供。例如：“根據(jù)[法律條文 X]，[具體內(nèi)容]…請應(yīng)用此法條分析本案?！贝伺e為模型提供了精準(zhǔn)推理所需的工具。
通過系統(tǒng)消息（System Message）設(shè)置角色信息：使用系統(tǒng)指令如“你是一位以清晰、循序漸進(jìn)的方式解釋法律在實際案例中應(yīng)用的法律分析師”，可引導(dǎo)模型生成正式的、結(jié)構(gòu)化的分析。雖然 O1 默認(rèn)具備嚴(yán)謹(jǐn)?shù)耐评砟芰?，但此類指令能使其輸出更貼合法律文書風(fēng)格（如引用事實、應(yīng)用法條、得出結(jié)論）。
無需使用多個示例示范：無需在提示詞中提供完整的案例分析示例（此操作可能適用于 GPT-4o）。O1 不需要示例即可完成分析 —— 它能從零開始構(gòu)建推理流程。但可簡要說明期望的輸出格式：“請以 IRAC 格式回答（問題、規(guī)則、分析、結(jié)論）?！边@種格式指令提供了一個模板，無需冗長的示例，O1 會根據(jù)模板組織輸出。
按需控制輸出長度：若需深度分析，O1 可生成涵蓋每個問題的多段落詳細(xì)推理。若需精簡版（如一份快速的咨詢意見），可指示模型：“將分析集中在核心問題相關(guān)的幾個關(guān)鍵段落上。”反之，若初始回答過于簡短和膚淺，可再次提示：“請詳細(xì)解釋法律如何應(yīng)用于案件事實的?！監(jiān)1 會很樂意詳細(xì)說明，因為它已經(jīng)在內(nèi)部已經(jīng)完成了大量的推理工作。
確保準(zhǔn)確性與邏輯一致性：法律分析要求準(zhǔn)確地將規(guī)則應(yīng)用于事實。盡管 O1 具有邏輯推理能力，但仍建議核查其引用的法律條文或具體主張（因為其訓(xùn)練數(shù)據(jù)可能會缺失一些細(xì)節(jié)內(nèi)容）?？稍谔崾驹~末尾添加：“仔細(xì)檢查所有案件事實是否都已處理，結(jié)論是否符合法律規(guī)定?！?因為 O1 有自我檢查的傾向，模型可能會主動指出是否有邏輯漏洞或隱含的假設(shè) —— 這在注重細(xì)微差別的法律領(lǐng)域尤為重要。
使用后續(xù)追問機制：法律場景常需連續(xù)提問。例如，在 O1 給出分析后繼續(xù)追問：“若合同包含不同的終止條款，分析結(jié)果將如何變化？”O(jiān)1 能有效處理此類迭代問題，延續(xù)推理鏈條。但需注意：若交互界面沒有超出當(dāng)前對話上下文的長期記憶（且無檢索功能），每次追問需依賴已有信息或補充必要的新信息。需要保持對話聚焦于當(dāng)前案件事實以避免混淆。

通過應(yīng)用這些實踐方法，您的提示詞將引導(dǎo) O1 或 O3-mini 進(jìn)行高質(zhì)量的法律分析?？傊逦仃愂霭盖?、明確任務(wù)要求，讓推理模型承擔(dān)核心工作。最終結(jié)果應(yīng)是結(jié)構(gòu)嚴(yán)謹(jǐn)、逐步推導(dǎo)的法律論述，希望你能充分發(fā)揮 O1 的邏輯優(yōu)勢，并通過高效的提示詞設(shè)計實現(xiàn)進(jìn)一步優(yōu)化。

OpenAI 的推理模型擅長復(fù)雜問題的解決，而法律分析正屬于需要深度邏輯的領(lǐng)域。O1 系列模型在研究、戰(zhàn)略制定等場景的深層推理能力（如 OpenAI 文檔所述）同樣適用于法律分析。理解其與 GPT-4o 的差異并調(diào)整提示詞策略，可最大限度發(fā)揮 O1 和 O3-mini 的潛力，即使在最具挑戰(zhàn)性的推理任務(wù)中也能獲得準(zhǔn)確、結(jié)構(gòu)合理的答案。通過精準(zhǔn)控制模型的輸出風(fēng)格與清晰程度，我們既能利用模型的智能，又能確保結(jié)果的專業(yè)性與實用性。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

END

本期互動內(nèi)容 ??

?文章建議避免在推理模型中使用 few-shot 示例，這一點是否讓你感到意外？你打算如何調(diào)整自己的提示詞策略？

原文鏈接：

https://techcommunity.microsoft.com/blog/azure-ai-services-blog/prompt-engineering-for-openai’s-o1-and-o3-mini-reasoning-models/4374010

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報

社區(qū)頭條

回復(fù)

相關(guān)推薦

萬字長文解析：大模型需要怎樣的硬件算力

pangguiyu ? 1.6w瀏覽 ? 0回復(fù)
GPT-4推理能力為0？開發(fā)者懸賞1萬美金被打臉，神秘提示正確率直沖100%

duhorse ? 3177瀏覽 ? 0回復(fù)
從API到Agent：萬字長文洞悉LangChain工程化設(shè)計

wx5bbef785639a1 ? 4659瀏覽 ? 0回復(fù)
兩萬字長文詳解視頻擴散模型的最新進(jìn)展

angel ? 5354瀏覽 ? 0回復(fù)
大語言模型高效推理知多少？三萬字長文帶你揭開神秘面紗（數(shù)據(jù)級、模型級和系統(tǒng)級）

angel ? 1.1w瀏覽 ? 0回復(fù)
萬字長文解析：2024年的機器消除學(xué)習(xí)

AIGC最前線 ? 2925瀏覽 ? 0回復(fù)
極佳、中科院等9機構(gòu)聯(lián)合首發(fā) | 3萬字長文全面解析世界模型(內(nèi)容生成/自動駕駛等)

angel ? 5456瀏覽 ? 0回復(fù)
Hinton萬字訪談：用更大模型「預(yù)測下一個詞」值得全力以赴

輕薄滴假象 ? 2228瀏覽 ? 0回復(fù)
大語言模型的前世今生：萬字長文完整梳理所有里程碑式大語言模型（LLMs）

angel ? 6909瀏覽 ? 0回復(fù)
萬字綜述：全面梳理 FP8 訓(xùn)練和推理技術(shù)

amei2000go ? 1.1w瀏覽 ? 0回復(fù)
清華唐杰團隊新作：一口氣生成2萬字，大模型開卷長輸出

Crystalcxt ? 2057瀏覽 ? 0回復(fù)
必須為孩子存下來的提示詞，像玩RPG游戲一樣學(xué)習(xí)

ermulong ? 2495瀏覽 ? 0回復(fù)
超全兩萬字長文詳解視頻擴散模型的最新進(jìn)展

angel ? 6228瀏覽 ? 0回復(fù)
如何編寫出色的生成式AI提示？

51CTO內(nèi)容精選 ? 1931瀏覽 ? 0回復(fù)
【萬字長文】深度剖析：RAG、AI Agent與Agentic RAG的融合發(fā)展|值得收藏

Halo咯咯 ? 3733瀏覽 ? 0回復(fù)
DeepSeek-編寫智能體提示詞模板的10個編程常識

九歌AI大模型 ? 2490瀏覽 ? 0回復(fù)
萬字綜述 LLM 訓(xùn)練中的 Overlap 優(yōu)化：字節(jié) Flux 等7種方案

amei2000go ? 1219瀏覽 ? 0回復(fù)
萬字長文深度剖析基于 MCP 實現(xiàn) AI 應(yīng)用架構(gòu)設(shè)計新范式的落地實踐

玄姐聊AGI ? 2617瀏覽 ? 0回復(fù)
如何優(yōu)化AI提示詞？掌握這5個技巧，讓你的大模型交互更高效！

Halo咯咯 ? 1019瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Google 的 A2A 與 Anthropic 的 MCP 應(yīng)該如何選擇？ 7h前發(fā)布
面對開源大模型浪潮，基礎(chǔ)模型公司如何持續(xù)盈利？ 5天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：為什么說JSON不一定是LLM結(jié)構(gòu)化輸出的最佳選擇？

下一篇：「DeepSeek-V3 技術(shù)解析」：多頭潛在注意力機制（MLA）

社區(qū)精華內(nèi)容

目錄