奧特曼:自認比o1聰明請舉手??到o2還這么想么???|OpenAI開發(fā)者日
奧特曼:認為自己比o1更聰明的請舉手。
(臺下一些人舉手)
奧特曼:到了o2你們還會這么想么?
(汗流浹背了)
這一幕,剛剛在OpenAI開發(fā)者日最后一個環(huán)節(jié)——奧特曼爐邊談話中上演。
對話由奧特曼和OpenAI首席產(chǎn)品官Kevin Weil進行,奧特曼還對未來作出如下判斷:
- 無限上下文長度將在十年內(nèi)發(fā)生
- o1正在推動智能體應(yīng)用,人們將要求AI在一小時內(nèi)完成以前人類數(shù)月或數(shù)年的工作
- 然后每個人將擁有10個智能體,再然后擁有1000個
- 擔心科幻(Sci-fi)是我們最重要的事之一
除此之外,活動上宣布了OpenAI API大量重磅更新:
- 實時語音API:每個APP里都可以擁有“Her”
- 視覺微調(diào)API:只需100張圖提升GPT-4o特定任務(wù)圖像理解能力
- 自動提示詞緩存:模型最近見過的輸入tokens統(tǒng)統(tǒng)打5折
- 模型蒸餾API:用前沿模型的輸出微調(diào)GPT-4o mini
圍繞這些功能的精彩現(xiàn)場演示,也引起眾人圍觀。
比如GPT-4o驅(qū)動的實時語音API, 配合函數(shù)調(diào)用+Twillio(云通訊服務(wù)),可以直接打電話訂外賣了。
訂購400個草莓裹巧克力醬甜點,參會者人人都有的吃。
看起來演示現(xiàn)場是OpenAI員工在臺上扮演食品店員工,真正的訂購過程是在幕后完成。
沒過一會,還有人曬會場外草莓快被領(lǐng)完了。
最新發(fā)布的推理大模型o1也露了一手,從頭編程操控無人機,現(xiàn)場蕪湖起飛。
這邊大會辦得熱鬧,與OpenAI相關(guān)的周邊消息也不斷傳出:
剛剛離職的幾位中,前研究VP Barret Zoph已決定要成立一家新公司。
前CTO Mira Murati還沒宣布下一步要干什么,但投資人開始圍追堵截她,希望她盡快成立自己的公司。
還有一位此前已離職的OpenAI聯(lián)合創(chuàng)始人Durk Kingma,宣布加入隔壁Anthropic。
OpenAI開發(fā)者日
與去年相比,今年的OpenAI開發(fā)者日活動不再現(xiàn)場直播,并拆分成三部分在不同地點舉辦(美國、英國、新加坡)。
剛剛在舊金山舉辦的第一場,宣布了多項API更新。
Realtime API
實時語音API為公開測試版,所有開發(fā)者都能在自己的APP中構(gòu)建與ChatGPT高級語音模式類似的體驗。
價格也不貴,每分鐘音頻輸入約0.06美元,每分鐘音頻輸出約0.24美元。
語言學習應(yīng)用Speak已使用Realtime API開發(fā)AI角色扮演練口語功能。
,時長00:15
此外還在Chat Completions API中增加了音頻輸入和輸出,可以用在對時延要求不高的地方,將在未來幾周內(nèi)作為gpt-4o-audio-preview發(fā)布。
視覺微調(diào)
開發(fā)者現(xiàn)在可以用圖像對GPT-4o微調(diào),以提高視覺能力。
可以用來增強視覺搜索功能、改進自動駕駛汽車或智能城市的物體檢測以及更準確的醫(yī)學圖像分析等應(yīng)用。
如外賣和共享出行公司Grab,將車道計數(shù)的準確性提高20%,將限速標志的定位提高13%。
在UI設(shè)計上,微調(diào)過的GPT-4o生成的網(wǎng)頁區(qū)域也能更好匹配整個頁面的風格。
視覺微調(diào)的過程與文本微調(diào)類似,按照OpenAI指定的格式準備圖像數(shù)據(jù)集,然后將數(shù)據(jù)集上傳到OpenAI開發(fā)平臺
只需使用100張圖像就能提高GPT-4o在視覺任務(wù)中的性能,當然用的更多提升也能更大。
GPT-4o的微調(diào)費用為$25/100萬tokens,微調(diào)后推理費用為每 100 萬個輸入tokens 3.75美元,每100萬個輸出令牌15美元。
不過在2024年10月31日之前,每天免費為視覺微調(diào)提供100萬個訓(xùn)練token。
羊毛薅起來~
提示詞緩存
許多開發(fā)者在構(gòu)建人工智能應(yīng)用程序時,會在多個API調(diào)用中重復(fù)使用相同的上下文,例如在編輯代碼庫或與聊天機器人進行長時間、多輪對話時。
提示詞緩存功能可以在降低成本的同時降低推理延遲。
OpenAI推出這個功能是比較晚的,此前谷歌Gemini、Claude,以及國內(nèi)DeepSeek,Kimi等都已上線。
不過OpenAI搞出來的特色在于:一切都是自動的。
從今天起,提示詞緩存已適配最新版本的GPT-4o、GPT-4o mini、o1-preview和o1-mini,以及這些模型的微調(diào)版本。
只要是AI見過的token,自動統(tǒng)統(tǒng)打五折。
緩存將在閑置5-10分鐘后清除,最多保留1小時。
模型蒸餾
讓開發(fā)者可以用o1-preive和GPT-4o等前沿模型的輸出,對GPT-4o mini等小模型微調(diào)。
此前,模型蒸餾是一個多步驟、易出錯的過程,需要開發(fā)人員在互不關(guān)聯(lián)的工具中手動協(xié)調(diào)多個操作,從生成數(shù)據(jù)集到微調(diào)模型和評估性能。
由于蒸餾本質(zhì)上是迭代的,需要反復(fù)運行每個步驟,大大增加了工作量和復(fù)雜性。
這次OpenAI推出了新的集成工作流程,可自動獲得前沿模型生成的輸入-輸出對、運行自定義評估、以及完成微調(diào)。
同樣在10月31日之前,在GPT-4o mini上每天提供200萬個免費培訓(xùn)token,在GPT-4o上每天提供100萬個免費訓(xùn)練token。
離職高管被資本熱捧,聯(lián)創(chuàng)加入Claude團隊
OpenAI持續(xù)發(fā)布新模型、新功能的壓力,讓OpenAI內(nèi)部研究和安全團隊疲于奔命,難以跟上步伐。
此前已有消息證實GPT-4o發(fā)布前,團隊只有9天時間做安全評估,每天工作20多個小時。
財富雜志最新消息表示,o1發(fā)布前也遇到了同樣的情況,并且在公司高層之間引發(fā)了摩擦。
許多向前CTO Mira Murati匯報工作的團隊都認為o1還沒有做好發(fā)布的準備,還沒有真正形成產(chǎn)品,不過他們的反對意見被駁回了。
除了奧特曼之外唯一還在的聯(lián)創(chuàng)Woijceich Zarembra發(fā)聲,承認了在o1開發(fā)階段他和后訓(xùn)練團隊負責人Barret Zoph發(fā)生激烈沖突,但沒有透露詳細細節(jié)。
現(xiàn)在后訓(xùn)練團隊仍在繼續(xù)完善o1,但Barret Zoph已經(jīng)辭職了。
Barret Zoph目前表示將成立一家新公司,但目前尚不清楚他具體會做什么,也不清楚他是否會和Murati合作。
再看Murati這邊,她本人還沒有宣布下一步任何計劃,但投資人爭相與她會面,希望她盡快創(chuàng)辦自己的公司。
據(jù)Business Insider消息,許多投資人正在試圖接近她,即使以前沒有聯(lián)系過的也會給她發(fā)冷郵件。
作為去年11月奧特曼被短暫趕下臺的余波,OpenAI高層持續(xù)動蕩,已經(jīng)流失不少研究和管理人才。
與此同時,OpenAI 一直在瘋狂招聘,規(guī)模相比去年擴大了一倍多,員工人數(shù)從不到800人增加到1800人。
有老員工開始抱怨:新員工的涌入改變了OpenAI的氛圍和文化。
關(guān)于研究的對話少了,關(guān)于產(chǎn)品或向社會部署的對話多了。
離職的OpenAI研究人才中,有相當一部分去了隔壁Anthropic。
聯(lián)合創(chuàng)始人John Schulman、超級對齊負責人Jan Leike跳槽加入之后,Anthropic又吸引來一位早年已經(jīng)離職的OpenAI聯(lián)創(chuàng)Durk Kingma。
Durk Kingma博士畢業(yè)于阿姆斯特丹大學,師從機器學習大牛Max Welling。
兩人合作開發(fā)了變分自編碼器VAE,相關(guān)論文于今年獲得ICLR首屆時間檢驗獎。
Durk Kingma于2018年離開OpenAI,做了一段時間天使投資人,后加入谷歌大腦,再后來被合并進了Google DeepMind。
這次他加入Anthropic將主要在荷蘭遠程辦公,沒有透露他將具體加入哪個團隊或負責哪部分工作。
總之OpenAI變得不像以前的自己,但隔壁Anthropic越來越像以前的OpenAI了。
還有人提出,如果去年11月奧特曼真的下臺了,OpenAI現(xiàn)在會不會更好呢?
健康的公司,有優(yōu)秀的CEO,不會用報酬威脅員工簽封口協(xié)議,也不會有高管辭職,更不會有那么多丑聞。
OpenAI發(fā)布https://openai.com/index/introducing-the-realtime-api/
https://openai.com/index/introducing-vision-to-the-fine-tuning-api/
https://openai.com/index/api-prompt-caching/
https://openai.com/index/api-model-distillation/