Devin背后技術(shù)浮出水面!居然是OpenAI推出新版本GPT-4 Vision!網(wǎng)友:這視覺版本,正是我想要的!
撰稿 | 言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
就在今天,GPT-4推出重磅更新!帶視覺能力的GPT-4面向大眾公開了!
圖片
MiraOpenAI首席技術(shù)官M(fèi)ira在推特上公布了這一消息。
圖片
據(jù)OpenAI API官方介紹,GPT-4 Turbo with Vision 現(xiàn)已在 API 中正式推出。Vision 請求現(xiàn)在也可以使用 JSON 模式和函數(shù)調(diào)用。
大家都知道,GPT-4是一個多模態(tài)的大模型,支持文本和圖像的輸入,輸出為文本,那么GPT-4 Vision 又是什么鬼?
簡單來講,就是這個版本的GPT-4不再僅限于輸入圖片,而是可以隨時盯著你的屏幕與操作,成為你的實時助手,而不再只是一個局限在聊天工具里的智囊。
這樣還是比較抽象,OpenAI開發(fā)者賬號還給出了幾個生動的實例,大家不妨感受下!
1.GPT-4 Vision:主打一個實時屏幕交互
首先,不得不提Devin,當(dāng)時cognition_labs推出它時,朋友圈都被刷爆了,感慨它是一個顛覆式的編程Agent!
當(dāng)時,業(yè)內(nèi)人士就猜測背后的模型是GPT-4,現(xiàn)在OpenAIDevs也官宣了:Devin是GPT-4 Turbo提供支持的人工智能軟件工程助手,那些絲滑的Agent體驗,也使用了Vision來執(zhí)行各種編碼任務(wù)。
通過屏幕的實時跟蹤和交互,一切都變得更有趣起來了!
,時長00:45
第二個,印度最大的健康&健身平臺Healthify,目前擁有超過4000萬用戶,提供健康跟蹤和人工智能增強(qiáng)的健康指導(dǎo)。近一年來,Healthify通過OpenAI API,極大增強(qiáng)了原有AI產(chǎn)品的性能,簡化了健康跟蹤流程,并擴(kuò)大了教練的業(yè)務(wù)范圍。
具體到GPT-4 Vision,Healthifyme團(tuán)隊使用帶有Vision的GPT-4 Turbo構(gòu)建了Snap,通過識別來自世界各地的食物照片為用戶提供營養(yǎng)見解。使用 GPT-Vision 和嵌入模型來即時跟蹤食物和規(guī)模指導(dǎo),準(zhǔn)確度大大提升。
,時長00:18
該公司的AI產(chǎn)品總監(jiān)Raja表示,GPT-4的能力極限很大?!俺俗孏PT-4回答問題,現(xiàn)在還可以讓它執(zhí)行應(yīng)用程序操作?!?/p>
第三個例子,也是最為對開發(fā)者形象的例子就是tlfraw團(tuán)隊開發(fā)的產(chǎn)品Make Real。
Make Real可以實時通過用戶畫示例圖的交互形式結(jié)合局部提示快速生成由真實代碼驅(qū)動的工作網(wǎng)站,這背后也是帶有視覺的GPT-4 Turbo的功勞。
2.實際融入業(yè)務(wù),GPT-4 Vision究竟如何強(qiáng)悍?
GPT-4 Vison的早期使用者們,實際反饋如何,又是究竟看上了OpenAI哪里呢?
以上文提到的healthify為例,借助 OpenAI 率先上市的簡單 API,團(tuán)隊快速構(gòu)建了原型來測試模型性能。在正式選擇提供商之前,團(tuán)隊評估了多種模型選項,包括開源模型。
經(jīng)過全面評估后,Healthify 與 OpenAI 合作原因主要有這四點(diǎn):
首先,是一流的精度。 GPT-4 Vision瞬間超越了Snap pipeline的性能;該模型本身就可以識別來自世界各地的食物,并檢測到照片中的多種食物。GPT-4(針對 Ria)和 Whisper(針對 Coach Copilot)同樣優(yōu)于其現(xiàn)有管道和其他GenAI替代模型。
其次,輕松集成。一旦他們驗證了原型并且需要集成到他們的生產(chǎn)系統(tǒng)中,Healthify 團(tuán)隊就可以簡單地將 OpenAI 的 API 添加到他們現(xiàn)有的管道中?!笆褂?OpenAI 構(gòu)建概念驗證并使用它們來構(gòu)建生產(chǎn)系統(tǒng)非常容易,”Vashisht 說。
第三,只需要簡單的微調(diào)。Healthify 選擇 OpenAI 很大程度上是因為可以進(jìn)行開箱即用的微調(diào)。對數(shù)據(jù)進(jìn)行建模以進(jìn)行微調(diào)并將其上傳到服務(wù)非常簡單。該團(tuán)隊無需太多配置就能夠成功地將 OpenAI 的模型應(yīng)用到他們的用例中。
第四,強(qiáng)大的嵌入模型。Healthify 使用嵌入模型來解決其關(guān)鍵問題之一:除了文本匹配之外,如何匹配兩種食物?他們需要將 GPT-4 返回的食物名稱與自己系統(tǒng)中已有的食物名稱進(jìn)行匹配?!癎PT 是它自己的一個模型。它有自己的食物名稱詞典。Healthify 有自己的食物名稱,我們試圖弄清楚如何進(jìn)行匹配,”技術(shù)副總裁Abhijit Khasnis評論道。
“當(dāng)我們測試 OpenAI Embeddings 模型時,我們意識到 GPT 識別的食物名稱和我們的食物嵌入之間的余弦相似度匹配為我們提供了很高的準(zhǔn)確性!”
大模型時代,如何用上、用好大模型的能力,是今年以來每一位熱衷于AI變革的創(chuàng)新者都在思考的問題。我們不妨借鑒下healthify的思路。
3.網(wǎng)友:這正是我想要的!
大模型一出,所有的應(yīng)用都值得重構(gòu)一下,這句話放到2024年,絕對不再是夸張的說辭。
OpenAI也明顯讓GPT-4開始具備了融入生活、工作多種場景下的多種意想不到、卻又驚艷到用戶的心動功能。網(wǎng)友們紛紛表示:啊哈,GPT4 Vision果真是我想要的!
圖片
圖片
最后,不得不提:GPT-4,不是不能吃掉原來的應(yīng)用,只不過它不想吃,GPT-4需要更多的朋友來加速它的AGI飛輪!
本文轉(zhuǎn)載自 ??51CTO技術(shù)棧??,作者:言征
