自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

李彥宏內(nèi)部講話(huà)流出:曝大模型「刷榜」?jié)撘?guī)則,談三大認(rèn)知誤區(qū)

人工智能 新聞
大模型更新速度放緩,一些人開(kāi)始唱衰AI,難道AI真的進(jìn)入了寒冬?最近,李彥宏一次內(nèi)部講話(huà)曝出,闡述了人們對(duì)LLM的三大認(rèn)知誤區(qū)。

榜單,并不能代表模型實(shí)力

大模型時(shí)代,閉源比開(kāi)源在商業(yè)場(chǎng)景更有優(yōu)勢(shì)

智能體,還未成為共識(shí)

這是李彥宏近期在內(nèi)部講話(huà)中,所闡述出公眾和行業(yè)對(duì)大模型的三大認(rèn)知誤區(qū)。

2024年已過(guò)大半,AI行業(yè)技術(shù)在過(guò)去一年坐上過(guò)山車(chē)之后,逐漸進(jìn)入冷靜期。

GPT-4之后,OpenAI一直按兵不動(dòng),遲遲未更新下一代模型。而Llama 3等開(kāi)源模型的誕生,性能逼近閉源模型。

行業(yè)中,質(zhì)疑聲不斷涌現(xiàn):大模型是不是一場(chǎng)新的科技泡沫?

大模型之間是不是已經(jīng)沒(méi)有技術(shù)壁壘了?還要繼續(xù)投入基礎(chǔ)模型的研究嗎?開(kāi)源模型拿來(lái)直接用是不是就可以?未來(lái)AI應(yīng)用的發(fā)展方向在哪里?

這些,都是技術(shù)降溫時(shí),縈繞在所有人頭腦中的疑問(wèn)。

在剛剛曝光的內(nèi)部講話(huà)中,李彥宏對(duì)這些問(wèn)題給出了自己的答案和思考,并指出了AI未來(lái)的發(fā)展方向。

同時(shí),他堅(jiān)定地認(rèn)為——智能體,才是AI時(shí)代的未來(lái)趨勢(shì)。

內(nèi)部講話(huà)首次曝光:LLM三大誤區(qū)

1. 模型能力,已無(wú)壁壘?

對(duì)于「大模型之間的能力已經(jīng)不存在壁壘」這種說(shuō)法,李彥宏給出了不同觀點(diǎn)。

「每次新模型發(fā)布,都和GPT-4o做比較,說(shuō)我的得分已經(jīng)跟它差不多了,甚至某些單項(xiàng)上得分已經(jīng)超過(guò)它了,但這并不表明和最先進(jìn)的模型就沒(méi)有差距了」。

實(shí)際上,模型之間的差距是多維度的。一個(gè)維度是能力方面,比如理解、生成、記憶、邏輯推理等基本能力的差距;另一個(gè)維度是成本和推理速度。

很多公司或者用戶(hù)對(duì)于模型能力的評(píng)價(jià)是片面的,往往只關(guān)注前者,但卻忽視了后者,這就導(dǎo)致了對(duì)于單一榜單的過(guò)度迷戀。

為了讓自家模型得高分,有的廠商會(huì)對(duì)測(cè)試集「進(jìn)行over-fitting」。

比如,讓數(shù)據(jù)標(biāo)注員把評(píng)測(cè)題做一遍,或者讓GPT-4做一遍,再把答案喂給自家模型,相當(dāng)于讓模型「刷題」考高分。

這樣從榜單或者測(cè)試集上看,就會(huì)讓人覺(jué)得,模型之間的能力已經(jīng)很接近了,但在實(shí)際應(yīng)用場(chǎng)景中,就會(huì)暴露出明顯的差距,出現(xiàn)「高分低能」。

圖片

一些模型會(huì)刷榜時(shí),會(huì)通過(guò)輸出詳盡且格式完備的回答來(lái)「操控」人類(lèi)偏好

李彥宏表示,百度是不允許技術(shù)人員「打榜」。真正衡量文心大模型能力的,是在具體應(yīng)用場(chǎng)景中能否滿(mǎn)足用戶(hù)的需求,能否產(chǎn)生有價(jià)值的增益。

透過(guò)各種各樣的榜單和分?jǐn)?shù),我們需要看到,一方面模型能力之間還有比較明顯的差距,另外一方面,天花板也很高。

今天已經(jīng)實(shí)現(xiàn)的模型性能,和我們實(shí)際想要的理想狀態(tài),還有很遠(yuǎn)的距離。

因此,模型還需要不斷的快速迭代、更新、升級(jí)。不同的模型之間差距不會(huì)是越來(lái)越小,而是會(huì)越來(lái)越大的。即使今天的差距看似很小,再過(guò)一年時(shí)間,就會(huì)有天翻地覆的變化。

這個(gè)過(guò)程,就是看有誰(shuí)能夠持續(xù)不斷地幾年甚至十幾年投入,讓模型越來(lái)越能夠滿(mǎn)足場(chǎng)景和用戶(hù),實(shí)現(xiàn)效率提升或成本降低。

對(duì)于所謂的領(lǐng)先12個(gè)月或者落后18個(gè)月,李彥宏認(rèn)為并沒(méi)有那么重要。

在這個(gè)完全競(jìng)爭(zhēng)的市場(chǎng)環(huán)境中,無(wú)論做什么方向都有很多競(jìng)爭(zhēng)對(duì)手,因此不要覺(jué)得12~18個(gè)月是很短的時(shí)間。如果能保證永遠(yuǎn)領(lǐng)先對(duì)手12~18個(gè)月,哪怕是6個(gè)月,那都是「天下無(wú)敵」的水平。

2. 開(kāi)源已趕上,閉源沒(méi)優(yōu)勢(shì)?

我們從軟件時(shí)代走來(lái),因此有一種固定的思維模式——「開(kāi)源一定好」,但這在大模型時(shí)代卻不一定正確。

軟件時(shí)代,開(kāi)源的優(yōu)勢(shì)是建立在低廉的算力和硬件成本之上的,但對(duì)于大模型來(lái)說(shuō),算力和硬件卻是無(wú)法被忽略的關(guān)鍵因素。

比如開(kāi)源的Linux,因?yàn)橛脩?hù)已經(jīng)有了電腦,所以使用起來(lái)幾乎沒(méi)有成本;但是大模型時(shí)代,算力是「命根子」,是決定成敗的關(guān)鍵因素,即使是開(kāi)源模型,也無(wú)法直接促進(jìn)算力的高效利用。

圖片

正如上一個(gè)問(wèn)題中提到的,大模型除了能力或效果之外,還要看效率。效率上,開(kāi)源模型是不行的。

閉源模型,或者準(zhǔn)確地講應(yīng)該叫商業(yè)化模型,相當(dāng)于無(wú)數(shù)個(gè)用戶(hù)或客戶(hù)共享同樣的資源,分?jǐn)傃邪l(fā)成本和推理所用的硬件、GPU,這樣的算力效率是最高的。

以百度為例,目前文心大模型每天調(diào)用量超過(guò)6億、生成的token數(shù)量超過(guò)萬(wàn)億,GPU使用率達(dá)到了90%以上。

但如果在商業(yè)場(chǎng)景下使用開(kāi)源模型,就需要部署自己的GPU、自己找算力,無(wú)處分擔(dān)推理成本。最終綜合起來(lái),不如選擇商業(yè)化模型劃算。

所以,開(kāi)源大模型的價(jià)值主要體現(xiàn)在教學(xué)、科研等領(lǐng)域,開(kāi)放的源代碼可以讓我們弄清大模型的工作原理;但商業(yè)領(lǐng)域追求的是效率、效果和最低成本,開(kāi)源模型是沒(méi)有優(yōu)勢(shì)的。

3. AI應(yīng)用難落地,商業(yè)化沒(méi)路徑?

李彥宏表示,大模型應(yīng)用的發(fā)展必然要經(jīng)歷幾個(gè)階段。

一開(kāi)始是對(duì)人進(jìn)行輔助,產(chǎn)出的結(jié)果都需要人來(lái)把關(guān),檢查無(wú)誤、確定效果后才能使用,這是Copilot階段;

再往下走,就是Agent智能體,有了一定的自主性,具備自主使用工具、反思、自我進(jìn)化等能力;

這種自動(dòng)化程度再往下走,就變成所謂的Al Worker,能夠像人一樣做各種各樣的腦力和體力勞動(dòng),各方面的工作都可以獨(dú)立完成。

過(guò)去一年,很多目光都聚焦在多模態(tài)領(lǐng)域,但其實(shí)忽略了,智能體才是目前最能激發(fā)大模型潛力的應(yīng)用方向。

圖片

為什么這么強(qiáng)調(diào)智能體?因?yàn)橹悄荏w的門(mén)檻確實(shí)很低。

很多人不知道怎么把大模型變成應(yīng)用,這其中有很多不確定性,而智能體是一個(gè)非常直接、高效、簡(jiǎn)單的方式,在模型之上構(gòu)建智能體相當(dāng)方便。

百度在Create大會(huì)上發(fā)布了三個(gè)產(chǎn)品:AgentBuilder、AppBuilder和ModelBuilder,其中AgentBuilder和AppBuilder都是關(guān)于智能體的,一個(gè)門(mén)檻更低,另一個(gè)功能更強(qiáng)大。

這些工具引起了開(kāi)發(fā)者們的興趣,讓智能體的熱度逐漸提升。目前,文心平臺(tái)上每周都能創(chuàng)造出上萬(wàn)個(gè)新的智能體。

圖片

https://agents.baidu.com/center

然而,「智能體是大模型最重要的發(fā)展方向」這個(gè)判斷,其實(shí)并沒(méi)有形成共識(shí),因此還有很大的發(fā)展?jié)摿Α?/span>

百度在智能體方面已經(jīng)看到了趨勢(shì),而且具備比較好的發(fā)展條件。除了模型本身的能力比較強(qiáng)大之外,也有分發(fā)通路的優(yōu)勢(shì)。

百度的APP,尤其是百度搜索的日活躍用戶(hù)能達(dá)到幾億級(jí)別,因此能直接捕捉到用戶(hù)的需求,知道哪一個(gè)智能體能更好地去回答問(wèn)題、滿(mǎn)足需求。這個(gè)自然匹配的過(guò)程也最能夠幫助開(kāi)發(fā)者們分發(fā)智能體。

百度智能體,已邁入深水區(qū)

CEO李彥宏在多次內(nèi)外部講話(huà)中,都明確了表示智能體對(duì)于AI應(yīng)用的重要性,倡導(dǎo)全行業(yè)持續(xù)投入智能體生態(tài)。

6月的「亞布力企業(yè)家走進(jìn)百度」活動(dòng)中,李彥宏預(yù)言,未來(lái)將會(huì)有幾百萬(wàn),甚至更大量的智能體出現(xiàn),形成龐大生態(tài)。

「未來(lái),各行各業(yè)、各個(gè)領(lǐng)域都會(huì)依據(jù)具體的場(chǎng)景,根據(jù)自己特有的經(jīng)驗(yàn)、規(guī)則、數(shù)據(jù),做出來(lái)這些智能體。」

這些智能體不僅能對(duì)話(huà),還具備反思和規(guī)劃能力,未來(lái)或許還將具備協(xié)作能力。

「就像公司里有CEO,還有財(cái)務(wù)、技術(shù)、銷(xiāo)售主管,他們協(xié)作起來(lái),能完成一個(gè)非常復(fù)雜的任務(wù)?!谷绻鄠€(gè)智能體可以協(xié)作,將會(huì)對(duì)整個(gè)生態(tài)的發(fā)展形成極大推動(dòng)。

圖片

談及企業(yè)做智能體的方向,李彥宏表示,如果僅僅是針對(duì)理解、生成、邏輯和記憶等基礎(chǔ)能力做改進(jìn)或集成,價(jià)值不大;但在各個(gè)不同場(chǎng)景中,利用好特有的數(shù)據(jù),就能逐漸積累出自身的競(jìng)爭(zhēng)優(yōu)勢(shì)。

「大模型對(duì)于ToB業(yè)務(wù)的改造,會(huì)是非常深刻和徹底的,比互聯(lián)網(wǎng)對(duì)于ToB的影響力要大一個(gè)數(shù)量級(jí)。今天,大模型在B端的影響已經(jīng)大于C端了?!?/span>

今年7月WAIC的圓桌訪談和演講中,李彥宏再次表示,在AI應(yīng)用的發(fā)展方向上,最看好智能體,智能體代表著AI時(shí)代的未來(lái)趨勢(shì)。

圖片

基礎(chǔ)模型需要靠應(yīng)用才能顯現(xiàn)出價(jià)值,而智能體是一個(gè)幾乎「放之四海而皆準(zhǔn)」的大模型應(yīng)用。

因?yàn)殚T(mén)檻足夠低,甚至都不需要編程,只要用「人話(huà)」把工作流說(shuō)清楚,再配以專(zhuān)有知識(shí)庫(kù),就能做出一個(gè)效果不錯(cuò)的,甚至很有價(jià)值的智能體,比互聯(lián)網(wǎng)時(shí)代制作一個(gè)網(wǎng)頁(yè)還簡(jiǎn)單。

「智能體正在爆發(fā),只是現(xiàn)在基數(shù)還比較小,大家的體感沒(méi)有那么強(qiáng)烈。讓更多人進(jìn)來(lái)、發(fā)揮聰明才智,指不定哪條路跑通了,就是一個(gè)Super APP?!?/span>

雖然有巨大的潛力,但是像百度這樣,將智能體定位為大模型最重要戰(zhàn)略、最重要發(fā)展方向的公司,并不多見(jiàn)。

在百度文心智能體平臺(tái)AgentBuilder上,已有20萬(wàn)開(kāi)發(fā)者、6.3萬(wàn)企業(yè)入駐,在百度開(kāi)發(fā)智能體的商戶(hù)已達(dá)1.6萬(wàn)家。

7月,AgentBuilder平臺(tái)還做出了重大舉措,免費(fèi)開(kāi)放文心大模型4.0供開(kāi)發(fā)者使用。

根據(jù)今年第二季度的財(cái)報(bào),智能體在百度生態(tài)的分發(fā)量正在快速上升,百度搜索已經(jīng)成為分發(fā)的最大入口。

以7月份為例,日均分發(fā)次數(shù)超800萬(wàn),是5月的兩倍。其中最常用的智能體包括內(nèi)容創(chuàng)作、性格測(cè)試、日程規(guī)劃等應(yīng)用類(lèi)型,覆蓋教育、法律和B2B等行業(yè)。

作為AI應(yīng)用的先行者,百度對(duì)智能體領(lǐng)域的率先嘗試、大力押注,讓我們看到了大模型生態(tài)落地應(yīng)用的廣闊前景。

如果李彥宏的預(yù)言成真,大模型不僅不會(huì)淪為泡沫,反而是更大、更繁榮市場(chǎng)的開(kāi)始,大模型+智能體將引領(lǐng)移動(dòng)互聯(lián)網(wǎng)之后的下一次技術(shù)浪潮。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-09-13 14:08:12

李彥宏模型智能體

2024-04-12 10:05:35

大模型

2010-12-01 10:53:09

IT培訓(xùn)

2018-10-22 05:00:54

2024-04-17 14:44:49

2015-10-12 11:02:07

李彥宏創(chuàng)業(yè)失敗

2010-11-08 12:46:32

李彥宏

2013-08-27 16:46:28

李彥宏百度

2015-10-12 10:17:35

李彥宏百度創(chuàng)業(yè)

2009-06-30 08:28:10

李彥宏詠樂(lè)匯

2025-03-10 10:34:55

2020-12-26 15:19:00

DevOps誤區(qū)開(kāi)發(fā)

2015-02-28 14:16:32

Google百度

2023-09-02 20:19:10

2017-06-29 19:49:00

世界智能李彥宏馬云

2010-09-17 10:45:04

李彥宏

2023-11-09 15:12:00

模型數(shù)據(jù)

2014-09-04 17:25:20

李彥宏 百度

2020-07-09 14:50:02

AI 數(shù)據(jù)人工智能

2018-08-17 06:05:44

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)