6.5億美元!AI智能體最大收購案產(chǎn)品之父Jake Keller采訪:垂域Agent是成為10億獨(dú)角獸的新機(jī)會 原創(chuàng)
編譯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
YC最新的一期訪談,請來了創(chuàng)業(yè)大佬Jake Keller ,圍繞他的創(chuàng)業(yè)之路來聊垂直領(lǐng)域 AI Agents 的掘金機(jī)會。
為什么是 Jake Keller,他的經(jīng)歷有多牛呢?我們簡單看三點(diǎn),就知道他的采訪含金量:
- Jake 創(chuàng)建法律公司 Case Text 十余年之久,從 AI 1.0時代就在不斷嘗試新技術(shù),與OpenAI等多家工作室保持合作。
- 在 ChatGPT 上線之前,Jake 的公司就拿到了秘密開發(fā)中的GPT-4的訪問機(jī)會,并在 48 小時內(nèi)決定All in GPT-4。
- 發(fā)布基于GPT-4 的產(chǎn)品 CoCounsel (編者注:AI 法律助手)僅半年,就以6.5億美元被 Thomson Reuters 收購,這也是迄今為止規(guī)模最大的垂直AI Agents收購案。
圖片
Jake Keller 做客 YC 《LightCone》的這期節(jié)目,《為什么說垂直領(lǐng)域的LLM Agent是新的10億美元SaaS機(jī)會》,帶來許多扎實(shí)的思考和技術(shù)與商業(yè)的新線索。
從左到右依次是:主持人Diana、嘉賓Jake Keller、主持人Gary、主持人Jared
播客視頻上線后,獲得了大量好評,還有從業(yè)者說 Jake Keller 的采訪切實(shí)地解答了他的困惑。
圖片
話不多說,先給大家畫個重點(diǎn):
- 第一次體驗(yàn) GPT-4 的 48 小時內(nèi),Jake 決定公司的 120 人都投入到開發(fā)基于 GPT-4 的產(chǎn)品 CoCounsel 中。
- 與 GPT-4 技術(shù)的結(jié)合,使得產(chǎn)品在一分半時間,完成了律師一天才能完成的任務(wù)。
- 在引入 GPT 技術(shù)前,公司已經(jīng)實(shí)現(xiàn)了2000萬美元年收入,為了說服員工投入新產(chǎn)品開發(fā),Jake以身作則,構(gòu)建了新產(chǎn)品的第一個版本。
- 公司所有人在發(fā)布產(chǎn)品的前幾個月里幾乎沒有睡覺,所有人都認(rèn)為這是一次引領(lǐng)市場的絕佳機(jī)會。
- Jake 反對“套殼GPT”的說法,在一個垂直領(lǐng)域中,在大模型工作之前,“已經(jīng)為你的應(yīng)用程序構(gòu)建了幾十個不同的東西”,在進(jìn)入提示環(huán)節(jié)時,如何“分解大問題成逐步思考的策略”“寫出非常具體的提示”都是難以復(fù)制的知識資產(chǎn)。
- Jake認(rèn)為o1模型將改變很多使用GPT API公司的工作方式,現(xiàn)在“不僅教會AI如何回答問題,更要教會它如何思考?!?/li>
以下是經(jīng)過整理的播客全文,enjoy:
主持人Gary :今天我們有一位非常特別的嘉賓,Case Text的Jake Keller。我覺得Jake有點(diǎn)像是登上月球的第一批人之一。他創(chuàng)立了Case Text,大約是在11、12年前吧。
在最初的十年里,你的公司從0走到了1億美元的估值。而在GPT-4發(fā)布后的兩個月內(nèi),估值直接跳到了 Thompson Reuters 以6.5億美元收購的階段。所以你對如何從大語言模型中創(chuàng)造真正的價值有很多經(jīng)驗(yàn)。
我覺得你是我們在YC的朋友中,最早意識到這是一次巨變、一次革命的人之一。不僅如此,你還敢把公司都押在上面,結(jié)果你賭對了。所以歡迎你,Jake。
Jake Keller :很高興來到這里。
主持人Jared:我覺得Jake的故事非??幔覀兘裉煜胝埶麃淼脑蚴?,現(xiàn)在優(yōu)秀的創(chuàng)始人正在創(chuàng)建的公司中,很多都在做垂直領(lǐng)域的AI Agents。
我試圖數(shù)了一下在 S24(編者注:S24 指 YC 在 2024 年夏季推出的一組初創(chuàng)公司)中的公司,YC最近一批次里有幾十家公司都在構(gòu)建垂直領(lǐng)域的AI Agents。而我認(rèn)為 Jake 是目前最成功的垂直AI Agents的創(chuàng)始人——這是迄今為止規(guī)模最大的收購案,而且它已經(jīng)在很多關(guān)鍵任務(wù)中大規(guī)模應(yīng)用了。
我們幾個月前舉辦了一次活動,Jake 在那次活動中給我們做了一個非常精彩的演講,講述了他是如何建立這個產(chǎn)品的。我們覺得,對于那些對這個領(lǐng)域感興趣的《LightCone》的觀眾來說,直接從這位領(lǐng)域內(nèi)最成功的構(gòu)建者之一那里聽到他的經(jīng)驗(yàn)是非常有幫助的。
1.48小時的大膽決定:公司所有人都轉(zhuǎn)向GPT-4技術(shù)項(xiàng)目
主持人Gary :那么,你是怎么做到的呢?
Jake Keller :首先,像很多這樣的事情一樣,經(jīng)過十年長的旅程,有一定的運(yùn)氣成分在里面。
我們開始深入投資于AI和自然語言處理,并且與一些不同的研究實(shí)驗(yàn)室建立了緊密聯(lián)系,其中包括OpenAI的一些人。當(dāng)他們開始測試早期版本時,我們當(dāng)時不知道那(個產(chǎn)品)是GPT-4,但那確實(shí)是GPT-4。我們很早就看到了它。
于是,在GPT-4公開發(fā)布前的幾個月,我們公司內(nèi)部都簽了保密協(xié)議,所有人都在研究這個東西。我永遠(yuǎn)不會忘記第一次看到它的那一刻。我們用了大概48小時就決定,把公司里每個人的工作都從當(dāng)時正在做的項(xiàng)目轉(zhuǎn)移到我們基于GPT-4技術(shù)的新產(chǎn)品 CoCounsel 的構(gòu)建上。
主持人Jared :當(dāng)時有多少人?
Jake Keller :當(dāng)時大約有120人。
主持人Jared :你把120個人的工作全部改變了?
Jake Keller :是的,完全改變了,是在48小時內(nèi)完成的。
主持人Gary :對于正在觀看的觀眾來說,Case Text最初一直都在法律領(lǐng)域,你是個律師,你為自己構(gòu)建了這個東西。最早的版本實(shí)際上是帶有注釋的判例法(編者注:是指由法院在具體案件中作出的裁決和判決所形成的法律規(guī)則和原則,能夠?yàn)槲磥眍愃瓢讣峁┲笇?dǎo)和參考),對吧?
Jake Keller :是的,完全正確。在公司非常早期的階段,公司一直專注的使命是如何將最先進(jìn)的技術(shù)帶入法律領(lǐng)域。
作為一個律師,我其實(shí)很喜歡這份工作,但我最討厭的是不得不使用律師們經(jīng)常需要用來完成工作的那些技術(shù)。我記得當(dāng)時是2012年,我還在一家律師事務(wù)所,如果我想做一些非常瑣碎的事情,比如我有一部新iPhone,我可以上Google搜索電影時間或者最近的提供素食選項(xiàng)的泰國餐館,這非常容易。但如果我想找到一份能證明我當(dāng)事人清白的證據(jù),讓他不用在監(jiān)獄里待一輩子,或者找到一份能幫我贏得數(shù)十億訴訟的關(guān)鍵法律案件,那這就得花五天連續(xù)工作到凌晨5點(diǎn)。我當(dāng)時想:這肯定有更好的辦法。
主持人Diana :作為律師的工作流程是什么樣的?你們需要閱讀一疊又一疊的文件嗎?
Jake Keller :差不多吧。在我開始執(zhí)業(yè)之前,所有東西都還沒虛擬化或者上線,你會真的在地下室里對著一箱又一箱的文件,逐一閱讀,試圖找到(想要的資料),比如在一家像輝瑞或Google這樣的公司里所有關(guān)于潛在欺詐的電子郵件。
如果你想找判例法(這比我的時間早一些),你還得親自去圖書館,打開書本,開始逐頁閱讀。雖然當(dāng)時開始有一些基于網(wǎng)絡(luò)的研究工具出現(xiàn),但它們都非常笨重,找到相關(guān)信息還是很難。
主持人Diana :你基本上無法對這些東西使用Control F(編者注:查找)功能,對吧?”
Jake Keller :“是的,沒錯。我永遠(yuǎn)記得,當(dāng)時在律所工作時,我還在為使用的工具構(gòu)建瀏覽器插件,來讓我的工作更高效和有效。其實(shí)我之所以離開律所,申請YC創(chuàng)辦公司,部分原因是我因?yàn)榛ㄌ鄷r間做這些技術(shù)開發(fā)而被總法律顧問訓(xùn)斥。他們還明確表示,我所在的律所擁有所有相關(guān)技術(shù)的產(chǎn)權(quán)。所以我決定另謀出路?!?/p>
2.之前的工作都是漸進(jìn)式的,直到ChatGPT出現(xiàn)了
主持人Jared :“那么你想講講Case Text前10年的故事嗎?那段像是長期的艱難跋涉,以及LLM(大語言模型)時代之前的經(jīng)歷?”
Jake Keller :“從那段時間我得到的一個教訓(xùn)是,創(chuàng)業(yè)時,你可能一開始并沒有完全找對方向。你可能有一個大概正確的方向,你知道有個問題需要解決,但可能需要很長時間才能找到解決方案。比如在我們公司,我們看到了法律領(lǐng)域存在技術(shù)不佳的問題,還有很多律師依賴內(nèi)容進(jìn)行研究并理解法律。所以我們覺得,‘我們能做得更好’,但問題是,我們?nèi)绾潍@得這些內(nèi)容呢?于是我們花了好幾年的時間嘗試讓律師像Gary所說的那樣去注釋判例法,提供信息?!?/p>
主持人Gary :“就像一個UGC網(wǎng)站,用戶生成內(nèi)容類型的?”
Jake Keller :“是的,那是我們當(dāng)時的重點(diǎn)之一,結(jié)合更好的技術(shù)和更好的內(nèi)容。”
當(dāng)時,我們的偶像是像Stack Overflow、維基百科和GitHub這樣的開放源碼或UGC網(wǎng)站。但這完全失敗了。我們根本無法讓律師花時間貢獻(xiàn)信息。我覺得這就是不同的群體,典型的維基百科編輯可能有很多時間可以自由支配,因此他們?yōu)槊赓M(fèi)貢獻(xiàn)內(nèi)容感到自豪(當(dāng)然不是全部人),而律師是按小時收費(fèi)的,他們的時間非常寶貴,永遠(yuǎn)覺得時間不夠用,根本沒有時間來為UGC網(wǎng)站貢獻(xiàn)內(nèi)容。所以我們不得不轉(zhuǎn)型。
于是我們開始深入投資,當(dāng)時這還不叫AI,只是自然語言處理和機(jī)器學(xué)習(xí)。我們發(fā)現(xiàn),我們并不需要依靠UGC來復(fù)制我們競爭對手在大型內(nèi)容數(shù)據(jù)庫中的某些優(yōu)勢。當(dāng)時就能自動化實(shí)現(xiàn)部分功能。此外,我們還開始創(chuàng)造出比競爭對手能夠提供的更好的用戶體驗(yàn),那時我們使用的AI技術(shù)在今天看來可能顯得很基礎(chǔ),像是用于Pandora和Spotify推薦音樂的推薦算法,系統(tǒng)分析這首歌與那首歌的關(guān)聯(lián),人們聽了這首歌后還聽了那首等。
類似地,我們分析了案件間的相互引用,它們引用了較早的判決意見,形成了一個引用網(wǎng)絡(luò)。我們找到了檢查律師工作的方法,比如他們會上傳自己的工作進(jìn)展,然后我們可以告訴他們,‘所有談?wù)撨@個案子的人也都提到了這個案子,你遺漏了這個?!襁@樣的體驗(yàn)非??帷?/p>
“實(shí)際上,直到最后,直到 CoCounsel 之前,我們做的大多數(shù)事情都是對法律工作流程的漸進(jìn)式改進(jìn)。有趣的是,當(dāng)只有漸進(jìn)式改進(jìn)時,實(shí)際上很容易被忽視。我們很多客戶可能不會直說,但給人的感覺就是,你走進(jìn)他們辦公室,向他們推銷產(chǎn)品,告訴他們‘這將徹底改變你的工作方式’,他們會想,‘我每年賺500萬美元,我不想改變?nèi)魏螙|西。這個技術(shù)……不,我不想引入任何有可能讓我的生活變得更糟或潛在風(fēng)險的東西,或者更高效的東西’,因?yàn)樗麄兪前葱r收費(fèi)的?!?/p>
真正的轉(zhuǎn)折點(diǎn)是在ChatGPT發(fā)布后。當(dāng)時我們還在私下(參與)秘密開發(fā)GPT-4,后來ChatGPT發(fā)布了。突然之間,美國乃至世界上的每位律師都意識到,‘天哪,我不知道這會如何改變我的工作,但它肯定會帶來重大改變’,他們能感覺到。
而那些之前說‘我每年賺500萬美元,我不需要改變?nèi)魏螙|西’的人,現(xiàn)在都變成了‘我每年賺500萬美元,但這會改變一些東西,我需要搶先了解這項(xiàng)技術(shù)。’這種技術(shù)本身(稍后我們會深入探討)改變了我們?yōu)槁蓭煒?gòu)建產(chǎn)品的方式,也改變了市場對什么是必要技術(shù)的認(rèn)知。
在我們十年的發(fā)展中,這是第一次,即使我們還沒有公開發(fā)布基于GPT-4的CoCounsel,他們就已經(jīng)開始打電話給我們了,像是在說:“我們知道你們在做AI,我們需要趕上這個潮流。你能給我們展示什么?我們可以一起做些什么?” 我覺得這是因?yàn)檫@次的改變不再是漸進(jìn)的了,而是基本的變化,突然之間他們不得不重視,再也無法忽視了。
3.找到法律領(lǐng)域PMF,成為“登月第一人”
主持人Gary :我對你有的這種心態(tài)模型是這樣的:有一個叫“想法迷宮”的概念,創(chuàng)始人一開始進(jìn)入迷宮,就像是在試探,實(shí)際上是在場上,和客戶交談,學(xué)習(xí),了解哪里是墻壁?應(yīng)該往哪條路走?是該往左還是右?通常初創(chuàng)公司的創(chuàng)始人在這個想法迷宮中會遇到死胡同,然后不得不轉(zhuǎn)向。
我覺得你的故事非常有趣,因?yàn)槟惝?dāng)時已經(jīng)接近某種無法達(dá)到產(chǎn)品市場契合點(diǎn)的路徑末端,但當(dāng)LLDs(大語言模型)出現(xiàn)時,就像迷宮被重新?lián)u動了一下。而你實(shí)際上比任何其他人都更接近產(chǎn)品市場契合點(diǎn)。這就是為什么這段時間如此瘋狂。對,這正是為什么你成為了“登月第一人”。
Jake Keller :是的,是的,我覺得這確實(shí)有道理。問題是,每次我們在迷宮中前進(jìn)時,都覺得自己可能已經(jīng)達(dá)到了產(chǎn)品市場契合點(diǎn)。你知道,在發(fā)布CoCounsel之前,我們已經(jīng)有了實(shí)際的收入,也有了真正的客戶,他們對我們贊不絕口。
我一直在想馬克·安德森在2000年代初寫的一篇文章,叫《唯一重要的事情》。在文章里,他描述了有產(chǎn)品市場契合點(diǎn)時的感覺,他列出了幾件事,比如:你的服務(wù)器會崩潰,你無法足夠快地雇傭支持人員和銷售人員,你會在Woodside著名的餐廳Bucks免費(fèi)吃飯一年,那是很多風(fēng)險投資家會帶你去的地方。
我早年讀到這篇文章時,覺得這有些夸張,但是當(dāng)我們發(fā)布CoCounsel時,確實(shí)是完全一樣的情況。我們的服務(wù)器崩潰了,我們無法足夠快地雇傭支持人員,也無法足夠快地雇傭銷售人員,我在Bucks吃了很多頓飯。以前,如果我們能登上《美國律師協(xié)會期刊》或其他法律特定的出版物,那就是一個很重要的日子了。而現(xiàn)在,我們上了CNN和MSNBC,突然之間,一切都變了。而這就是我認(rèn)為的真正的產(chǎn)品市場契合點(diǎn)。馬克·安德森在2005年左右的那篇文章,確實(shí)準(zhǔn)確描述了2023年產(chǎn)品市場契合點(diǎn)的樣子。
主持人Jared :你能談?wù)勀嵌委偪竦臅r期嗎?從你們發(fā)布CoCounsel到以6.5億美元被收購,僅僅過了兩個月。那兩個月內(nèi)究竟發(fā)生了什么?
Jake Keller :要說明的是,交易在我們發(fā)布后六個月才最終完成,但兩個月后,談判就開始了。
為了提供一些背景信息,我們開始構(gòu)建CoCounsel的想法是在看到GPT-4后的一個周末,大概48小時內(nèi),我們萌生了一個點(diǎn)子——一個AI法律助理的概念,聽起來現(xiàn)在可能不那么瘋狂,但在當(dāng)時卻很瘋狂。這個法律助理幾乎像是事務(wù)所的一個新成員,你可以與它對話,就像你今天和ChatGPT對話一樣,給它任務(wù),比如“我要你幫我讀這些一百萬份文件,看看有沒有證據(jù)表明這家公司存在欺詐行為?!?/p>
幾小時后,它會說:“我讀完了這些文件,這是總結(jié)?!被蛘摺皫臀铱偨Y(jié)文件,進(jìn)行法律研究,并整理一份報告,回答律師的初步研究問題?!币虼?,這就像是事務(wù)所的一個強(qiáng)大擴(kuò)展工具。這是我們從一開始的設(shè)想,我們制作了一個非常早期的初始版本。
由于與OpenAI的協(xié)議,我們不能公開這個產(chǎn)品,但他們允許我們把NDA(保密協(xié)議)擴(kuò)展到少數(shù)幾個客戶身上。因此,在GPT-4公開發(fā)布的幾個月前,我們讓一些客戶使用它。那些客戶不知道自己在使用GPT-4,但他們實(shí)際上看到了某種特別的東西。
這甚至是在ChatGPT之前。這是我們第一次體驗(yàn)到這種“如神一般”的AI,它突然完成了我當(dāng)律師時需要花整整一天才能完成的任務(wù),而它只用了大約一分鐘半。你可以想象,當(dāng)時真的很瘋狂。
首先,我們公司所有120個人在GPT-4公開發(fā)布前的幾個月里幾乎沒有睡覺,直到我們可以公開發(fā)布產(chǎn)品。我們覺得自己有一個絕佳的機(jī)會可以領(lǐng)先市場。每個人都非常努力地工作時會發(fā)生一些非常美妙的事情——你可以非??焖俚剡M(jìn)行迭代。我現(xiàn)在還看到有些公司卡在我們剛看到GPT-4的第一個月時的狀態(tài)。我覺得這可能是因?yàn)樗麄儧]有像我們那樣全情投入和專注于那段大約六個月的時間,直到GPT-4的公開發(fā)布。
4.ALL in AI,進(jìn)入深度創(chuàng)始人模式
主持人Diana :你為了完成這次轉(zhuǎn)型,必須重振公司。你進(jìn)入了深度創(chuàng)始人模式,因?yàn)橛泻芏鄦T工的反對聲,覺得“這個東西已經(jīng)在運(yùn)作了,為什么我們要投身到AI的深淵里去?”能談?wù)勀阕鳛閯?chuàng)始人的這個時刻嗎?
Jake Keller :首先,這尤其是在你經(jīng)營一家企業(yè)10年之后變得尤其明顯,因?yàn)樗麄円呀?jīng)看著你在這個迷宮中徘徊,碰到死胡同。而且很多人從頭到尾都在看著我,作為創(chuàng)始人說:“我們肯定要朝這個方向走,這一定會成功?!庇袝r候并不成功,而員工能忍受這樣的次數(shù)是有限的。所以這可能是我和一些員工之間的最后一次信任機(jī)會。
他們會想:“Jake又來了,又是這個瘋狂的新技術(shù),又是某個我們要深度投資的想法。”是的,確實(shí)需要花費(fèi)一些努力去說服人們。如果你能想象不同角色的處境,比如你負(fù)責(zé)市場拓展,負(fù)責(zé)銷售或營銷產(chǎn)品,而我們每年增長70%-80%,我們有1500萬到2000萬美元的年收入,情況并不糟糕,對吧?非常棒。是的,確實(shí)很棒。所以他們會想:“我們?yōu)槭裁匆@樣做?”甚至董事會中的一些成員也是,一些人立即理解了,但有些人需要被說服。
至于那次創(chuàng)始人時刻,對我來說真的有效的是我以身作則。我自己構(gòu)建了第一個版本。
主持人Gary :即使在擁有120人的公司里,擁有大量工程師和律師的情況下,在那之前你還是自己打開了IDE,親自編寫了這個東西。
Jake Keller :是的,部分原因是,最初只有我和我的合作者簽署了保密協(xié)議。
主持人Gary :這反而是個好事情,對吧?
Jake Keller :結(jié)果證明這是完美的,即使在保密協(xié)議擴(kuò)展后,我們一開始還是保持了小范圍的團(tuán)隊(duì)。
在最初的一段時間內(nèi),我在48小時內(nèi)決定讓整個公司參與進(jìn)來,但實(shí)際上我們是在獲得訪問權(quán)限后一周半才通知公司的。在那一周半時間里,我們構(gòu)建了第一個版本,這個原型版本。
我永遠(yuǎn)不會忘記這個時刻,時機(jī)非常有趣。我們在一個周五看到了GPT-4,整個周末我們都在使用它。然后周一是一次公司高管的外部會議,所有高管都來了。他們以為我們會討論如何達(dá)成下季度的銷售目標(biāo),但我告訴他們:“各位,我們要討論的完全不是這些東西。讓我給你們看一些東西。”
所以,是的,我自己構(gòu)建了第一個版本,但通過這個過程,我和少數(shù)幾個人確實(shí)幫助說服了其他人。我們還早期引入了客戶,當(dāng)一個懷疑的銷售人員或市場營銷人員,甚至工程師,看到客戶實(shí)時對產(chǎn)品做出反應(yīng),看到他們臉上的表情時,那真的迅速改變了人們的想法。你要想象一下,那時的世界還沒有ChatGPT,一些人第一次看到這個點(diǎn)子時完全被震撼了。這確實(shí)迅速改變了很多人的想法。我親眼看到人們在Zoom通話中經(jīng)歷了生存危機(jī)般的反應(yīng)。
主持人Diana :哦,你能看到他們的表情,對吧?
Jake Keller :各種反應(yīng)都有,比如“我該怎么辦?” 我們展示給一些資深律師看的時候,他們常常會說:“那我該退休了吧,我沒法處理這個?!?/p>
主持人Gary :這一切很多都是由GPT-4的發(fā)布推動的吧?你們之前有GPT-3的訪問權(quán)限,甚至還有GPT-2,對吧?
Jake Keller :是的,我們與很多實(shí)驗(yàn)室保持著緊密的合作,包括OpenAI,他們不斷向我們展示早期版本的成果。
他們會問:“你能用這個為法律行業(yè)構(gòu)建一些東西嗎?” 每次我們都會回答:“不行,這太差勁了?!?到了GPT-3和3.5的時候,終于出現(xiàn)了合理的英文語言生成,看起來有點(diǎn)像律師的風(fēng)格了,雖然那已經(jīng)很值得稱贊了,但它還是會胡編亂造,和實(shí)際需求相去甚遠(yuǎn)。尤其是在法律領(lǐng)域,準(zhǔn)確性非常重要,不能有任何錯漏,不能胡亂假設(shè)。所以我們?yōu)樵缙诎姹净撕芏嗑?,才讓它們接近可用狀態(tài)。
我記得其中一個里程碑是在GPT-3.5發(fā)布時,有一項(xiàng)研究表明GPT-3.5的律師資格考試通過率僅達(dá)到第10百分位。雖然它表現(xiàn)比一些人好,但也只是10%的人,可能就是那些隨便填寫答案的考生。
然后我們獲得了GPT-4的早期訪問權(quán)限,我們立刻想再測試一次,并與OpenAI合作,確認(rèn)測試集不是訓(xùn)練數(shù)據(jù)中的內(nèi)容,而是完全新的測試。結(jié)果顯示,GPT-4表現(xiàn)超過了90%的考生。這是一個巨大的飛躍。接著我們還進(jìn)行了一些測試,比如讓它閱讀4到5個案例,根據(jù)這些案例撰寫一份備忘錄,回答這個問題。我們做了大量的提示工程工作,確保它能夠準(zhǔn)確回答,引用正確的案例內(nèi)容,而不是胡編亂造。
5.回應(yīng)套殼GPT的質(zhì)疑:構(gòu)建業(yè)務(wù)邏輯讓產(chǎn)品難以復(fù)制
主持人Diana :很多反對者會說,很多公司只是在構(gòu)建GPT的外殼,沒有在構(gòu)建太多的知識產(chǎn)權(quán)。但實(shí)際上,解釋這些問題需要很多技巧。能不能和我們談?wù)?,?shí)際上還有多少東西需要構(gòu)建?
Jake Keller :哦,是的,我的意思是,當(dāng)你真正試圖為客戶解決問題時,并真正完成任務(wù)——在我們的案例中,就是做一個年輕助理律師會做的事情,并且做到非常好——你需要添加很多層次的東西才能真正完成工作。等你把這一切加起來,你就不僅僅是個GPT套殼了。
你已經(jīng)是一個完整的應(yīng)用程序了,這個應(yīng)用程序可能包括在我們的案例中,像法律本身這樣的專有數(shù)據(jù)集,以及我們自動添加的注釋。
這可能包括連接到客戶數(shù)據(jù)庫,在我們的案例中,法律行業(yè)有非常具體的法律專用文件管理系統(tǒng),連接這些非常重要。也可能包括一些微妙的事情,比如你如何進(jìn)行光學(xué)字符識別(OCR),你使用了什么OCR程序,以及在執(zhí)行任務(wù)時如何設(shè)置它們。
比如,CoCounsel 做的任務(wù)之一是審查大量文件。當(dāng)你開始處理大量文件時,你會看到這些文件上滿是手寫批注,有時掃描件是傾斜的,還有法律行業(yè)中的一個奇怪現(xiàn)象,他們會在一頁紙上打印四頁內(nèi)容以節(jié)省空間,所有OCR程序會直接從左到右讀取,但實(shí)際上它應(yīng)該是按順序讀取的。
所以,當(dāng)你處理了所有這些邊緣情況后,坦白說,即使你還沒有觸碰到大型語言模型,光是到大型語言模型之前,可能已經(jīng)為你的應(yīng)用程序構(gòu)建了幾十個不同的東西,以確保它能正常工作。
而當(dāng)你進(jìn)入提示環(huán)節(jié)時,寫出測試、非常具體的提示,以及分解大問題成逐步思考的策略,如何以正確的方式輸入和格式化信息,所有這些也成為了你的知識產(chǎn)權(quán),而且很難復(fù)制,也很難構(gòu)建,因此很難被復(fù)制。
主持人Diana :這些都是業(yè)務(wù)邏輯,這就是為什么許多非常成功的SaaS公司在非常特定的領(lǐng)域需要非常自定義的,冷門的、利基的集成,連接到這些冷門的法律數(shù)據(jù)庫。
Jake Keller :是的,絕對沒錯。我一直在思考的兩件事是,基本上 SaaS 在很長一段時間里都只是SQL的一個外殼,對吧?如果你想想像 Salesforce 這樣非常成功的公司,他們圍繞基本上只是數(shù)據(jù)庫和數(shù)據(jù)庫中表格之間的連接構(gòu)建了業(yè)務(wù)邏輯,有時填補(bǔ)了技術(shù)人員能夠做但大多數(shù)人做不了的差距,或者讓它變得更容易接觸?;蛘咛钛a(bǔ)了這樣一個差距:你可以在ChatGPT中展示很多很酷的演示而不寫一行代碼,但幾乎能運(yùn)行且工作70%的時間和能100%正常運(yùn)行是完全不同的任務(wù)。
人們可能會為那些工作70%的東西每月付20美元,但如果能100%正常工作,可能每月會愿意支付500到1000美元,具體取決于使用場景。所以這個最后一公里或一百公里的價值是非常大的。
6.不斷測試和修正消除模型“幻覺”,目標(biāo)正確率是100%
主持人Jared :是的。你能談?wù)勀闶侨绾螐?0%提升到100%的嗎?因?yàn)槲覀兟牭降年P(guān)于這項(xiàng)技術(shù)的另一個批評是,這些大型語言模型“幻覺”太多,不夠準(zhǔn)確,不能用于真實(shí)世界。但正如你之前提到的,你正在處理的用例是一個任務(wù)關(guān)鍵的場景,涉及的風(fēng)險很高。如果AI Agents給律師提供錯誤信息,可能會對重要的法庭案件產(chǎn)生嚴(yán)重影響。你是如何讓它足夠準(zhǔn)確,以至于律師們——他們天生保守——能信任它的呢?
Jake Keller :首先,這種測試驅(qū)動開發(fā)框架能起到很大的作用,因?yàn)槟憧梢蚤_始看到模式,了解它為什么會出錯,然后你可以針對該模式添加指令。有時它仍然不能做對,然后你就會真正問自己,我的指令是否非常清晰?我是否包括了不該看到的信息?或者信息太多或太少,無法讓它真正理解全部背景?通常這些模型是相當(dāng)智能的,所以你通??梢宰犯菰?,找出你為什么沒有通過某些測試,然后逐步修正,直到通過這些測試并做對。我們學(xué)到的一件事是,如果它通過了100個測試,接下來它對任何隨機(jī)用戶輸入的準(zhǔn)確率可能就會非常高,幾乎達(dá)到100%。
主持人Gary :讓我覺得棘手的是,許多我們合作的創(chuàng)業(yè)者都很想走“無評估、無測試驅(qū)動”的路線,只靠感覺進(jìn)行提示工程。也許你很快就轉(zhuǎn)換到這種方法了,你們從一開始就很清楚,我們不能像那樣做提示工程?
Jake Keller :是的,我認(rèn)為最重要的事情首先取決于使用場景。對于我們處理的許多事情來說,無論是好是壞,都有一個正確答案。如果你給出了錯誤答案,律師們不會高興的。我曾經(jīng)是律師,也為律師服務(wù)了十年,每次我們做錯了一件小事,我們都會立刻聽到反饋。所以我在這個過程中也許一直有那個聲音在我腦海里。
我從那10年的艱苦經(jīng)歷中學(xué)到的是,它必須達(dá)到100%。
主持人Gary :哦,是的,哦,是的,這可能適用于比我們意識到的更多領(lǐng)域。
Jake Keller :確實(shí)如此。另一件我們常常思考的事情是,你可能很快就會對這些東西失去信心。特別是如果你的第一次體驗(yàn)很糟糕,尤其是在你第一次接觸時,你可能會想“也許我一年后再看看這個AI技術(shù)吧?!?尤其是當(dāng)你是個忙碌的律師,而不是技術(shù)人員。所以我們知道,必須確保律師的第一次接觸和第一周的體驗(yàn)是非常順利的,否則他們就不會深入投資。
7.談OpenAI o1模型:“讓AI模仿頂尖律師是如何思考問題的”
主持人Diana :那么讓我們談?wù)凮penAI的o1模型吧,因?yàn)檫@是一個非常不同的模型。
到目前為止,像GPT-4和之前的幾代模型,它們的智能可以類比為丹尼爾·卡尼曼提出的“系統(tǒng)一”思維,這是一種非常快速的、基于模式的直覺決策。這種經(jīng)濟(jì)理論甚至贏得了諾貝爾獎。
LLMs在這種思維方面表現(xiàn)出色,但它們在執(zhí)行功能上非常差勁。而你所描述的所有這些東西,實(shí)際上是在賦予LLM執(zhí)行功能,讓它能夠“思考”,并真正管理那些更慢的思維過程。而我認(rèn)為o1模型令人興奮的地方在于,我們還沒有看到它被構(gòu)建出來,因?yàn)樗鼛滋烨皠倓偘l(fā)布。我認(rèn)為它接近于“系統(tǒng)二”的思維。這是AGI(通用人工智能)的關(guān)鍵缺失部分,我看到很多研究人員對此感到興奮。讓我們談?wù)勀銓1的看法,以及它會如何改變局面。
Jake Keller : 首先,我認(rèn)為o1是一個非常令人印象深刻的模型。就像其他模型一樣,我們給它的測試內(nèi)容是我們知道它之前無法通過的,而它展示了令人驚嘆的細(xì)致程度、精確性和智能。這不僅僅是數(shù)學(xué)上的精確,有時是那些你不會預(yù)期需要一個超級智能模型來完成的任務(wù)。
例如,在我們進(jìn)行的一個測試中,我們給它了一位律師的真實(shí)法律簡報,但我們對其中的一些引用稍作修改,使它變得錯誤,比如改變了一些案例中的引用。這是一份40頁的法律簡報,修改可能只是加了一個詞,如“不是”,這就完全改變了其含義。然后我們也將案件的完整文本提供給AI,并詢問它“律師對這個案件有任何錯誤理解嗎?” 以前的每一個LLM都會說“沒有,一切都對”,因?yàn)樗鼈冊谔幚磉@種細(xì)微的差異時并不夠精確。但o1模型立刻察覺到了這些差異。它會停下來思考一會兒,然后開始回答,比如它會指出“某個地方的‘和’被改為了‘既不…也不’”,這是我們以前期望的LLM能做到但始終無法通過的測試。而現(xiàn)在o1能夠勝任這些需要精確、細(xì)致思考的任務(wù)。
主持人Gary : 顯然我們對o1的內(nèi)部運(yùn)作機(jī)制并不了解,但我們知道它大概使用了類似“鏈?zhǔn)剿季S”的方法。如果OpenAI有一個龐大的語料庫,記錄了人們在逐步完成任務(wù)時的內(nèi)部思考過程,o1可能會變得更加出色。這與你們之前的策略有些相似,你們是把問題分解成多個步驟以達(dá)到100%的準(zhǔn)確率,而不是簡單地把所有內(nèi)容都投入到上下文窗口里,然后希望它能“神奇地”工作。你認(rèn)為這是目前正在發(fā)生的事情嗎?
Jake Keller :或許是的。他們可能改變了他們的承包商的工作方式,不再是簡單的“輸入問題,輸出答案”,而是“輸入問題,思考如何解決這個問題,再輸出答案”。但有趣的是,這樣做的限制就在于撰寫這些指令的人的智力水平。
而我們正在研究的是,是否可以通過提示o1模型在思考過程中該注意哪些問題來引導(dǎo)它思考。我們聘請了一些頂尖的律師,讓AI模仿這些頂尖律師是如何思考問題的。我們還沒有最終的證據(jù)證明這顯著提高了結(jié)果,但這確實(shí)是一個非常有趣的機(jī)會,即不僅教會AI如何回答問題,還教會它如何思考。
主持人Gary : 我真的非常感激,因?yàn)槲矣X得你在分享一些線索。在許多其他領(lǐng)域,這項(xiàng)技術(shù)才剛剛開始。你去幾乎任何一家公司,人們都沒有意識到剛剛發(fā)生了什么。他們?nèi)匀恢貜?fù)那些陳舊的說法,比如“你最好做微調(diào)”或者類似的說法。這些事情實(shí)際上根本沒有與我們每天看到的創(chuàng)業(yè)公司和創(chuàng)始人為用戶創(chuàng)造的事物聯(lián)系起來。我很高興我們能夠分享這些信息和知識。即使是我們談到的一些事情,比如“你應(yīng)該做評估”。實(shí)際上,從70%到100%之間有很多隱藏的關(guān)鍵點(diǎn),這些線索可能會催生數(shù)十億甚至上千億美元的公司。
Jake Keller : 確實(shí)如此。我們希望如此。我認(rèn)為你將會看到其他領(lǐng)域(比如法律)真正升級,當(dāng)你不需要花費(fèi)幾百萬美元和六個月的時間,真的待在地下室逐個閱讀文件時,你可以直接跳過這些步驟,直接獲取結(jié)果?,F(xiàn)在,你可以從戰(zhàn)略上、智能地思考問題了。對于這些公司來說,這將是一個巨大的突破。因?yàn)槟壳八麄冎Ц兜男剿當(dāng)?shù)百萬美元只是為了完成這些工作。如果有公司能夠推出一款A(yù)I,哪怕只完成其中80%的工作,其價值已經(jīng)非常明顯了。我想鼓勵大家不要因?yàn)槟切╆惻f的說法而放棄,比如“它幻覺太多”“它不夠準(zhǔn)確”等等。事實(shí)上,有一條路徑,你可以做到的。
主持人Gary : 有一些好消息,那就是工作不會消失,它們只會變得更有趣——這是我的看法。好了,時間到了,非常感謝你和我們一起討論。
本文轉(zhuǎn)載自51CTO技術(shù)棧,作者:伊風(fēng)
