10分鐘定制一個「陳天奇GPT」,OpenAI新品大波實測來襲!Sam Altman降維打擊,千家AI初創(chuàng)公司入土
OpenAI首屆春晚,創(chuàng)業(yè)公司屠殺夜。
正如Sam Altman所言:「我們正在孕育新物種,它們正在迅速增殖?!?/span>
圖片
可以說,基于OpenAI接口構建創(chuàng)業(yè)公司,產(chǎn)品忽然就失去了意義。許多初創(chuàng)公司的產(chǎn)品,已經(jīng)沒有了護城河。
杜克大學教授陳怡然表示,照這個趨勢,所有希望在細分領域依靠領域知識和OpenAI掰腕子的人,都是死路一條,至少在學術界和中小公司幾乎不可能。
OpenAI只要找到一個合作方,或者在公開領域能找到相應的訓練集,剩下的就是降維式打擊。
圖片
不過,使用自己的數(shù)據(jù)集來訓練一個定制版GPT-4可不便宜——起步價200-300萬美元。
此外,如果想得到比較理想的效果,最好是擁有極其龐大的專有數(shù)據(jù)集(至少數(shù)十億token)。
圖片
隨著OpenAI的史詩級發(fā)布,微軟的股價連續(xù)上漲8個交易日,并在周二收盤時創(chuàng)下360.53美元的歷史新高。
而1.12%的日漲幅也讓其市值達到了約2.68萬億美元。
圖片
OpenAI說,這是我們夢寐以求的未來。如果說以前是「讓你的錢為你工作」,現(xiàn)在就是「讓你的AI為你工作。」
初創(chuàng)公司「一夜回到解放前」
OpenAI剛剛官宣進入Agent戰(zhàn)場,所以,全球十家頭部Agent初創(chuàng)公司接下來該做什么?
圖片
圖片
看完下面這批API演示,你就會明白,為什么說「OpenAI一更新,千家初創(chuàng)公司要倒閉」。
圖片
曾經(jīng)有人預測,ChatGPT,終將成為一個為集Midjourney、PDF Chat、Perplexity AI和高級數(shù)據(jù)分析于一體的「AI超級應用程序」
定制GPTs,但沒全部開放
號稱最最重磅的更新「GPTs」讓人人都可以不用編程,僅通過對話聊天方式,就打造一個專屬個性化的GPT,還可以通過「GPT商店」賺錢,果真有這么神奇?
Altman本人親自在現(xiàn)場登臺演示,幾步操作就創(chuàng)建了一個「創(chuàng)業(yè)導師GPT」,用時才3分鐘不到。
驚艷的是,「創(chuàng)業(yè)導師GPT」根據(jù)Altman本人的演講風格,給出了回答。
圖片
目前,「GPT商店」已經(jīng)上線了由OpenAI開發(fā)的16個機器人,包括數(shù)學導師、創(chuàng)意寫作教練、助理廚師等等。
圖片
那些已經(jīng)拿到內(nèi)測資格的網(wǎng)友,已經(jīng)開啟了一大波應用。
英偉達高級系統(tǒng)軟件工程師Bojan Tunguz用時10分鐘,創(chuàng)建了一個ChatXGB——一站式XGBoost助手。
圖片
就比如,當你問它「XGBoost guy指的誰」?答:XGBoost guy就是陳天奇.....
ChatXGB給出100%正確的答案。
圖片
曾創(chuàng)建了火爆的BabyAGI的網(wǎng)友,這次又定制了一個世界首個自定義GPT智能體「Agi.zip」。
創(chuàng)建這個GPT時,他發(fā)現(xiàn)GPT-4-turbo不夠快,還使用了添加了20個預構建的熱鍵以加快速度。
自動保存
- 長期記憶
- 可重用技能
- 跟蹤當前任務
- 使用.sql導出到任何聊天中
現(xiàn)在,不用動手操作,只需動動嘴,真正的AGI來了...
還有創(chuàng)建「X Optimizer GPT」的網(wǎng)友,用其來優(yōu)化X帖子。
它可以微調(diào)推文,并確定高峰發(fā)布時間,以便在X上獲得最大的參與度。
圖片
圖片
圖片
OpenAI官方發(fā)布的「HotMods」——可以把你上傳的圖像改編成一種全新的畫風,如下是網(wǎng)友體驗的效果。
圖片
圖片
不過,對于大多數(shù)人來說,ChatGPT依然是下面這個狀態(tài):「不好意思,我還沒準備好」。
圖片
API、TTS,網(wǎng)友腦洞大開
與此同時,隨著海量新功能的發(fā)布,OpenAI創(chuàng)始人Greg Brockman也興奮地轉(zhuǎn)發(fā)了網(wǎng)友們各種腦洞大開的應用案例。
和GPT視頻聊天
比如,使用OpenAI的vision API,我們就可以用網(wǎng)絡攝像頭和ChatGPT玩「你畫我猜」了。
圖片
開啟「視頻」后,小哥問ChatGPT:你看到了什么?
它很流利地描述起攝像頭里的畫面:我看到一個留著短發(fā)的年輕男人坐在墻邊,他直視著鏡頭,身穿一件黑色的T恤。
這位小哥拿起一副墨鏡,向攝像頭對面的ChatGPT展示了一下,然后問它:我拿著什么?
ChatGPT回答說:你拿著一副墨鏡。
圖片
類似的,也有網(wǎng)友做出了差不多功能的應用。
圖片
對此,有網(wǎng)友表示,這種工具或許可以用來幫助盲人「看」到真實的世界。
圖片
對于盲人來說,這將是一個很好的工具,如果它能像個人助理一樣用語音應答,就能引導他們?nèi)ふ襾G失的物品或其他東西。
GPT-4V + TTS = AI解說員
而將OpenAI的視覺和語音API相結(jié)合,還可以直接讓AI變身為足球解說員!
比如,把一場足球比賽視頻的每一幀都傳給了GPT-4-vision-preview,只給了它一些簡單的提示,要求它生成旁白。
圖片
GPT-4V完美地做到了,配合上TTS的解說,一場現(xiàn)成的體育解說視頻就這樣出爐了。這個視頻完全沒有編輯,是從模型中直出的。
這個視頻總共有1131幀,每10幀選一張圖發(fā)給GPT,總共花了30刀。
具體來說,首先提取視頻幀,然后創(chuàng)建一個結(jié)構化提示,定義GPT請求的參數(shù),包括模型、提示信息、API密鑰、最大token限制,然后發(fā)送GPT請求、制作語音解說提示、生成語音解說腳本,向TTS API發(fā)送請求將腳本轉(zhuǎn)換為音頻,再將音頻和視頻結(jié)合就可以了。
圖片
有人表示:30刀替代一個體育解說員,這很瘋狂。
圖片
除了體育比賽外,還可以利用GPT-4 API識別畫面進行游戲解說,比如英雄聯(lián)盟。
前方「高血壓」預警:視頻里是LNG打T1那場……
完整版如下:
網(wǎng)友點評:如果能讓敘述速度加快,再加入一些感情,那看起來就跟真人解說相差無幾!
「這是我迄今為止看到的GPT Vision的最佳用例?!?/span>
圖片
GPT版瀏覽器
網(wǎng)友將GPT-4V的能力與瀏覽器相結(jié)合,就可以隨意圈圖,獲得解答。
圖片
比如,它可以幫助你學習解剖學,數(shù)學、汽修等等。
圖片
而將上網(wǎng)功能與自定義GPTs結(jié)合,則可以從自己最喜歡的音樂人中創(chuàng)建音樂播放列表。
圖片
圖片
GPT瑜伽教練
通過GPT-4V API可以讓ChatGPT成為你的瑜伽教練。
不需要再付講師費,也能做出標準的動作。
圖片
圖片
簡單勾勒,設計HTML
更厲害的是,通過GPT-4V API可以在5小時內(nèi)將低保真度模擬與實際HTML的流程組合在一起。
圖片
假設你自己做一個全新的推特界面,就可以簡單勾勒出結(jié)構,GPT-4V瞬間就做成了HTML。
圖片
GPT-4V加持的多模態(tài)RAG
LangChain平臺認為,雖說一張圖片勝過1000個字,但圖像在RAG應用程序中通常是不可見的。
GPT-4V等多模態(tài)LLM恰恰解鎖了使用圖像的RAG應用程序。
使用新的GPT-4V API,LangChain將在本周發(fā)布模板和說明書,以重點介紹多模態(tài)RAG的幾種方法:
圖片
選項 1:多模態(tài)嵌入檢索
- 優(yōu)點:直接嵌入最高質(zhì)量的b/c圖像檢索潛力
- 缺點:多模態(tài)嵌入的選項更少
選項 2:生成圖像摘要
- 優(yōu)點:簡單,因為它使用文本嵌入,并且不依賴多模態(tài)LLM進行答案合成
- 缺點:信息丟失,因為圖像不直接用于答案合成或檢索
選項 3:檢索圖像摘要,但傳遞圖像進行合成
- 優(yōu)點:文本嵌入簡化了檢索,但在答案合成中仍然使用圖像
- 缺點:嵌入了檢索b/c圖像摘要中的潛在質(zhì)量損失
這些方法可以對帶有圖像內(nèi)容的文檔(如教科書、財務報告、技術手冊等)啟用 RAG。
圖片
TTS普通話一級過了
國外小哥在HuggingFace上提交了一個個OpenAI新發(fā)布的TTS文字轉(zhuǎn)語音,可以直接體驗。
有5種男聲和2種女聲可以選擇。
不如,咱們就用普通話等級考試中的練習題考考TTS的能力如何?
圖片
體驗地址:https://huggingface.co/spaces/ysharma/OpenAI_TTS_New
普通話,新智元,6秒
更震撼的是,TTS模型還能精準把控標點符號的含義,生成語音的語氣各不相同。
助手API
一位開發(fā)者使用了Assistants API構建了一個開源「GPTvsGPT」,只用了109行Python代碼。
GPTvsGPT是一個有趣的應用程序,可以模擬2個個性鮮明的人工智能助理之間的對話。
令人興奮的是能夠通過檢索、數(shù)據(jù)和自定義函數(shù)來擴展這些功能。
圖片
圖片
他還讓DALL·E為此設計了一個LOGO。
另外一位開發(fā)者更是用了不到30行的代碼創(chuàng)建了網(wǎng)站。
圖片
圖片
此外,用AI Assistants和GPT-4-1106還可以構建一個AI簡歷分析器和評分工具。
目標是,通過使用 AI 來評估候選人是否合適,從而節(jié)省寶貴的招聘時間。
圖片
在演示視頻中,網(wǎng)友上傳了兩個文件:職位描述和候選人簡歷。
總有一天,人工智能只會為人們挑選工作......無需過濾簡歷。簡歷將成為過去......
圖片
不過,開發(fā)者想要利用OpenAI的Assiatant API,在自己的應用程序中構建個性化的Agent并不便宜——存儲數(shù)據(jù)的成本高達0.20美元/GB/助手/天。
與每月每GB約0.023美元的S3相比,OpenAI的定價要高出260倍!
圖片
谷歌,現(xiàn)在到你了
面對OpenAI的挑戰(zhàn),英偉達高級科學家Jim Fan表示,DeepMind是時候重現(xiàn)2016年AlphaGo的輝煌了!
現(xiàn)在,大家對谷歌Gemini的期望高得離譜。
不過,它至少做到以下一點,并在2024年第一季度發(fā)布API,才能與GPT分庭抗禮:
- 文本能力達到GPT-4的120%;
- 水平能力達到GPT-4的100%,但成本只有turbo的一半或速度是turbo的2倍;
- 視覺能力達到GPT-4的100%;
- 本地支持長視頻。
相比之下,Meta也只需開源Llama-3即可。
圖片
目前,谷歌已經(jīng)對Bard進行了多次迭代。谷歌DeepMind也在內(nèi)部開發(fā)了一些SOTA的基礎模型,如UL2、PaLI、PaLM、Flamingo等。
所以,這理論上是有可能的。
圖片
參考資料: