o1不是聊天模型!前SpaceX工程師:這樣用o1才能解決復(fù)雜問(wèn)題
「我是如何從討厭o1到每天用它來(lái)解決我最重要的問(wèn)題的?
我學(xué)會(huì)了如何正確使用它。」
Ben Hylak曾是SpaceX軟件工程師、蘋(píng)果VisionOS人機(jī)交互設(shè)計(jì)師,后來(lái)離職創(chuàng)立了Dawn Analytics。
起初,Ben Hylak對(duì)o1滿是質(zhì)疑,如今卻成為了o1的活躍用戶。
o1不是一個(gè)聊天模型,這正是關(guān)鍵所在。
o1 pro剛宣布推出,Ben就果斷訂閱了。畢竟,只要它每月能頂替1-2個(gè)工程師的工作量,這每月200美元的訂閱費(fèi)就花得值。
然而,經(jīng)過(guò)一整天認(rèn)真的試用,Ben得出結(jié)論:這模型簡(jiǎn)直太糟糕了。
每次提出問(wèn)題,Ben都得等上5分鐘,結(jié)果等來(lái)的卻是一堆前后矛盾的廢話,還莫名其妙地附上架構(gòu)圖和優(yōu)劣勢(shì)分析列表。
Ben把吐槽放到了網(wǎng)上,不少人表示贊同,但也有一些人強(qiáng)烈反對(duì)。這些觀點(diǎn)來(lái)自行業(yè)一線的專(zhuān)業(yè)人士,有人對(duì)o1 pro的表現(xiàn)大為驚嘆。
Ben漸漸意識(shí)到自己完全弄錯(cuò)了,他一直把o1當(dāng)成聊天模型來(lái)用,可o1壓根就不是聊天模型。
如果o1不是聊天模型,那它究竟是什么?
它更像是一個(gè)「報(bào)告生成器」。
只要你能提供充足的上下文信息,并且清晰地闡明所需的輸出內(nèi)容,它通常能完美解決問(wèn)題。
提供充足的背景信息
提供海量的上下文信息。無(wú)論你認(rèn)為「海量」是多少,在此基礎(chǔ)上乘以10倍。
當(dāng)使用諸如Claude 3.5 Sonnet或4o這類(lèi)聊天模型時(shí),一般是從一個(gè)簡(jiǎn)單問(wèn)題和一些上下文信息入手。如果模型還需要更多上下文,它往往會(huì)向你提問(wèn)。
聊天模型正是通過(guò)互動(dòng)的方式從你那里獲取更多上下文。
o1只會(huì)按照你問(wèn)題的字面意思作答,不會(huì)主動(dòng)從你這里獲取上下文信息。
所以,你得盡可能多地向o1提供上下文。
哪怕只是問(wèn)一個(gè)簡(jiǎn)單的工程問(wèn)題,也請(qǐng)做好以下這些:
- 詳細(xì)說(shuō)明你已經(jīng)試過(guò)的所有方法,以及這些方法為何行不通。
- 提供所有數(shù)據(jù)庫(kù)架構(gòu)的完整導(dǎo)出文件。
- 闡述公司的業(yè)務(wù)內(nèi)容、規(guī)模大小,同時(shí)對(duì)特有的術(shù)語(yǔ)進(jìn)行定義。
簡(jiǎn)單來(lái)講,就把o1當(dāng)成新入職的員工來(lái)對(duì)待。
為o1提供上下文的簡(jiǎn)單技巧:用Mac或手機(jī)上的語(yǔ)音備忘錄,直接通過(guò)語(yǔ)音對(duì)整個(gè)問(wèn)題場(chǎng)景進(jìn)行描述,時(shí)長(zhǎng)在1-2分鐘,把轉(zhuǎn)錄的文本粘貼進(jìn)去。
聚焦「要什么」而非「怎么做」
給o1提供盡可能多的背景信息后,關(guān)鍵是講清楚你期望的最終輸出成果。
我們習(xí)慣告訴模型怎么回答,如請(qǐng)以資深軟件工程師的身份,仔細(xì)思考后作答。
但o1的使用方法不一樣。別告訴o1該怎么做,只說(shuō)要什么,然后讓o1自己來(lái),它會(huì)規(guī)劃并解決后續(xù)步驟。
這能充分發(fā)揮o1的自主推理能力,實(shí)際運(yùn)行效率或許比手動(dòng)審核、對(duì)話溝通的方式更高。
你必須清楚具體需求,比如,是想讓o1實(shí)現(xiàn)某個(gè)特定架構(gòu),還是創(chuàng)建一個(gè)最小化的測(cè)試應(yīng)用。
o1第一次就能生成正確答案的能力著實(shí)令人驚嘆。除了成本和延遲,o1在幾乎所有其他方面都更為出色。
o1的優(yōu)勢(shì)與不足
o1的優(yōu)勢(shì)
一次性生成單個(gè)或多個(gè)文件:只需粘貼大量代碼以及與正在構(gòu)建內(nèi)容相關(guān)的上下文信息,它就能一次性完成整個(gè)文件(甚至多個(gè)文件)的生成。生成的內(nèi)容幾乎沒(méi)有錯(cuò)誤,并且會(huì)嚴(yán)格遵循代碼庫(kù)中已有的模式。
較少出現(xiàn)幻覺(jué):總體而言,o1在理解問(wèn)題時(shí)似乎很少產(chǎn)生混淆。
醫(yī)學(xué)診斷:對(duì)于醫(yī)學(xué)專(zhuān)業(yè)人士而言,o1通常能給出與正確答案極為接近的診斷。
解釋概念:o1在闡釋極為復(fù)雜的工程概念方面表現(xiàn)卓越。
評(píng)估:o1展現(xiàn)出了作為評(píng)估工具的潛力,它經(jīng)常能在上下文信息有限的情況下,判斷生成結(jié)果是否正確。
o1尚未實(shí)現(xiàn)
特定語(yǔ)氣/風(fēng)格的寫(xiě)作:o1在寫(xiě)作方面的表現(xiàn)欠佳,特別是在模仿特定語(yǔ)氣或風(fēng)格時(shí)。它自帶一種濃厚的學(xué)術(shù)/公司報(bào)告風(fēng)格,而且始終如此。這可能是因?yàn)榇罅康耐评韙oken將語(yǔ)氣導(dǎo)向了這個(gè)方向。
構(gòu)建完整的應(yīng)用:o1一次性生成單個(gè)或多個(gè)文件的能力很強(qiáng),但它無(wú)法直接構(gòu)建完整的SaaS應(yīng)用,至少需要大量反復(fù)調(diào)整。不過(guò),它基本上能一次性生成完整的前端功能模塊,或簡(jiǎn)單的后端功能模塊。
網(wǎng)友評(píng)論:o1/pro是我用過(guò)的第一個(gè)可以很好地完成高級(jí)軟件架構(gòu)的模型!