李彥宏的野心:百度不造“超級應(yīng)用” !百度亮出4款產(chǎn)品新形態(tài):多智能體“秒噠”、多模態(tài)iRAG、AI眼鏡 原創(chuàng)
編輯 | 言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
進入下半年,國內(nèi)大模型廠商們都在忙什么?
11月12日上午9點35分,百度世界大會如約而至。李彥宏身著白襯衫,信步走入在上海世博中心的主會場,用一個小時的時間為人們展示了大模型進入2024年之后,百度最新取得的一些產(chǎn)品技術(shù)進展。
李彥宏全程一個小時的演講,回顧了過去24個月全球生成式人工智能變革帶來了的大爆發(fā),激動地喊出了放眼業(yè)內(nèi)似乎還不太敢喊出的一句slogon:“AI應(yīng)用時代真的來了!”,并同時發(fā)布了兩個重磅新品:文心iRAG和秒噠。
這里劃重點,這兩款技術(shù)產(chǎn)品,一款是多模態(tài)領(lǐng)域的檢索增強,另一款則是多智能體的產(chǎn)品開發(fā)應(yīng)用,這代表了百度作為國內(nèi)大模型領(lǐng)旗者,押寶應(yīng)用的兩大方向,值得各位一探。
圖片
1.李彥宏的第一個押寶:過去24個月,大模型最大的變化
大模型時代已經(jīng)前行了24個月,模型層面發(fā)生了哪些變化?百度創(chuàng)始人李彥宏給出了自己的答案:基本消除了幻覺。
而在消除幻覺方面,檢索增強作為一種 技術(shù)手段成為了行業(yè)共識。“但是,在多模態(tài)方面,檢索增強還做得不夠。”
李彥宏現(xiàn)場給出了一個“文生天壇圖像”的開源模型的錯誤例子,真實的天壇是三層的,而開源模型則會煞有其事地生成四層,令人難辨真假。
圖片
基于此,百度死磕多模態(tài)方面的幻覺問題,李彥宏自豪的發(fā)布了今天第一個“炸彈”:檢索增強的文生圖技術(shù)iRAG。
大致的原理也不難理解:就是其將百度搜索的億級圖片資源跟強大的基礎(chǔ)模型能力相結(jié)合,可以生成各種超真實的圖片,“整體效果遠遠超過文生圖原生系統(tǒng),去掉了機器味”。
百度首席技術(shù)官王海峰在接下來的演講中更具體一步的揭示了iRAG背后的黑科技:百度多模態(tài)可控生圖大模型。該模型通過多模態(tài)注意力機制、圖文交錯編碼等技術(shù)結(jié)合擴散模型,提升了整體注意力計算的高精確性,讓檢索增強的文生圖過程可以自動分析、理解、規(guī)劃和泛化。
圖片
李彥宏表示,iRAG技術(shù)極大地提高了A生成圖片的可用性,具備無幻覺、超真實、無成本、立等可取等商業(yè)價值。
2.第二個押寶:一個只靠想法就能賺錢的應(yīng)用:秒噠以及背后的技術(shù)實現(xiàn)
無需代碼就能開發(fā)應(yīng)用,已經(jīng)不再是什么新鮮的大模型話題。但真正做出來的App沒有,即便強如OpenAI,也在去年嘗試了GPTs之后,讓只需對話就能生成AI應(yīng)用的熱度歸于沉寂。
不過,這次百度做到了。早在上個月,李彥宏就曾在內(nèi)部的季度戰(zhàn)略復(fù)盤會議上表示:智能體雖然還是不是行業(yè)共識,但它是百度未來的一個賭注。
李彥宏將現(xiàn)在的智能體做一個分類,總共分為了四種:公司類、角色類、工具類、行業(yè)類。不同類型的智能體方面,百度近年來都已經(jīng)跟業(yè)內(nèi)的生態(tài)伙伴進行了深入的合作,李彥宏甚至給出了比亞迪、百勝餐飲、小朋友自己創(chuàng)作悟空動畫片等真實有趣的例子。
圖片
重頭戲來了,李彥宏會上甩出了另一款大模型“炸彈”應(yīng)用——無代碼工具“秒噠”!
秒噠具備無代碼編程、多智能體協(xié)作和多工具調(diào)用三大特性,李彥宏對其寄予了厚望,稱之為“迄今為止人類歷史上最復(fù)雜的多智能體協(xié)作工具”。作為一個不需要寫代碼就能夠?qū)崿F(xiàn)任意想法的工具,秒噠讓每個人都具備程序員的能力,會說話就能做出應(yīng)用。
圖片
李彥宏還在會場展示了一個五個智能體協(xié)作開發(fā)的案例,1號智能體小組長負責策劃召喚2號智能體策劃和3號智能體被稱為小編,4號智能體是程序員,5號是質(zhì)檢員等等。
圖片
圖片
前不久OpenAI說未來極有可能會出現(xiàn)一個人的公司,而李彥宏發(fā)布的這款“多噠”似乎也印證了未來的公司可能真的不用再費勁心力去招聘諸如產(chǎn)品經(jīng)理、開發(fā)等人員,一個想法可能就足以讓你搞定一款應(yīng)用。
李彥宏總結(jié)說,“只要有想法,你就可以心想事成,我們將迎來一個前所未有的只靠想法就能賺錢的時代。
李彥宏將做智能體類比為PC時代做網(wǎng)站、或是移動時代做自媒體賬號,“不同之處是智能體更像人、更智能,更像你的銷售、客服和助理。智能體可能會變成AI原生時代,內(nèi)容信息和服務(wù)的新載體。
話說回來,小編想到了一個問題:這款應(yīng)用似乎跟去年AutoGPT的場景很像,究竟高端在哪里?
接下來王海峰的演講解開了這個困惑:現(xiàn)在多智能體的技術(shù)語境已然發(fā)生了變化。去年的多智能體還處于“快思考”的大模型語境,而不同的是,今年下半年,百度也有了自己的“慢思考”模型。
“人類思考有兩個系統(tǒng),系統(tǒng)1反應(yīng)快,但容易出錯,系統(tǒng)2雖慢,但理性精確?!蓖鹾7鍟錾习l(fā)布了百度的思考模型背后的實現(xiàn)技術(shù),讓模型像人一樣進行任務(wù)拆解和自主規(guī)劃的能力,學會運用工具及決策。
具體而言,要訓練一個思考模型,需要這幾樣關(guān)鍵的東西:訓練所需的思考過程數(shù)據(jù),提示自動構(gòu)建、自動探索思考和行動路徑。王海峰介紹了現(xiàn)在思考模型的最大難題還是數(shù)據(jù)的不足,百度采用了合成過程數(shù)據(jù)的方式。
通過用戶模擬器生成指令、工具模擬器模擬功能、領(lǐng)域知識構(gòu)建推理,創(chuàng)建了思考模型數(shù)據(jù)合成的閉環(huán),再結(jié)合強化學習等手段從而實現(xiàn)思考過程的有監(jiān)督精調(diào)。
圖片
遺憾的是,秒噠現(xiàn)在還是一個期貨,預(yù)計明年上半年發(fā)布。
3.一個小驚喜網(wǎng)盤與文心的碰撞:自由畫布
不過,現(xiàn)貨也是有的,李彥宏在工具類智能體介紹時,展示了百度全新的應(yīng)用智能體,即百度文庫和百度網(wǎng)盤聯(lián)合開發(fā)的“自由畫布”,讓用戶可以在一塊類似“畫布”的界面上自由拖拽文檔、音視頻等富媒體素材,迅速生成多模態(tài)內(nèi)容。自由畫布是一個由文心多模態(tài)大模型加持的萬能白板,可以幫助用戶完成從找資料,到編輯、生成和分享的全部任務(wù)。
圖片
圖片
李彥宏表示,“這不是期貨,而是立即可用的現(xiàn)貨,是真正服務(wù)于創(chuàng)造的新質(zhì)生產(chǎn)力!
4.百度的野心
進入全新的AI革命浪潮,一直致力于科技驅(qū)動的“AI先生”李彥宏對于重塑百度有了新的思考和野心。李彥宏曾經(jīng)做國一個估計,要一年內(nèi)把大模型API的調(diào)用量提升10倍?,F(xiàn)在看,僅僅半年,百度的季度就超過了預(yù)期!
圖片
僅過去半年,百度文心大模型的日均調(diào)用量已經(jīng)超過15億,相較一年前首次披露的5000萬次,增長約30倍。李彥宏表示“增速超出預(yù)期”,說明AI是真需求。他感慨,這條陡峭的增長曲線,代表著過去兩年中國大模型應(yīng)用的爆發(fā)。
圖片
毫無疑問,百度在國內(nèi)擁有絕對的先發(fā)優(yōu)勢,但在打造超級應(yīng)用上,向來沒有特別激進,對于Kimi、豆包在C端的高歌猛進,李彥宏此前表示不會跟進。
此次百度世界大會2024,作為技術(shù)人出身的李彥宏,再次闡明了這一觀點,并表達了對未來智能應(yīng)用爆發(fā)的無限期待?!鞍俣人龅?,不是打造一個‘超級應(yīng)用’,而是要打造數(shù)百萬個‘超級有用’!”
圖片
奧運冠軍也來了,巴黎奧運會上百度黑科技的力量也可圈可點
李彥宏在現(xiàn)場發(fā)布了基于百度文心大模型的100大產(chǎn)業(yè)應(yīng)用,涵蓋了制造、能源、交通、政務(wù)、金融、汽車、教育、互聯(lián)網(wǎng)等眾多行業(yè)。李彥宏表示,“發(fā)布這100大產(chǎn)業(yè)應(yīng)用,其實也代表我們的認知和態(tài)度。
這個世界不應(yīng)該被軟件吞噬,而是,用AI應(yīng)用來創(chuàng)造世界!讓我們一起見證:Application creating the world!
弦外之音,百度給自己在大模型時代的定位非常篤定:要成為這個時代的基礎(chǔ)設(shè)施,而非超級用戶收割機。
圖片
5.One More Thing:百度首款A(yù)I眼鏡預(yù)發(fā)布
這場發(fā)布會,除了李彥宏的演講,小編還期待此前透露出來的百度AI眼鏡。近兩年這款A(yù)I創(chuàng)造的新物種非常熱,不妨來看看百度AI眼鏡怎樣重新定義人與世界的交互方式!
果然在主會場的最后,小度科技CEO李瑩帶來了全新AI硬件產(chǎn)品小度AI眼鏡,號稱“行走的百科全書”。
圖片
據(jù)介紹,作為全球首款搭載中文大模型的原生AI眼鏡,實現(xiàn)了佩戴舒適性與功能全面性的融合。李瑩表示,AI眼鏡作為人類的第一視角設(shè)備,其捕捉視覺、聲音、位置等信息的能力,將給人們帶來前所未有的感官延伸,也一定會成為更高效、便捷的人機交互入口,帶給人們?nèi)碌囊暯呛透氈碌母惺?,重新定義人與世界的互動方式。
重量輕達45g,30分鐘快充,56h待機,全雙工對話,八面聰聽,搭載DuerOS操作系統(tǒng),攝像頭清晰度方面,視頻理解方面以及軟硬一體的整合設(shè)計能力也在業(yè)內(nèi)處于領(lǐng)先的水平。
具體的參數(shù)大家可以翻看官網(wǎng)的預(yù)告,這里不再贅述了。小度科技CEO李瑩表示,小度AI眼鏡將于明年上半年正式上市,至于價格,也沒有公開,此前曾傳言2300左右,不過一切未定,敬請期待吧。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:言征
