一手實(shí)測文心4.5和X1:不輸DeepSeek
來了!文心大模型4.5今日如期上線。同時(shí),百度還意外的帶來了自家的深度思考模型文心X1。
文心大模型4.5是百度的新一代原生多模態(tài)基礎(chǔ)大模型,多模態(tài)理解能力優(yōu)秀,理解、生成、邏輯、記憶能力全面提升,多項(xiàng)基準(zhǔn)測試成績優(yōu)于GPT4.5、DeepSeek-V3,API價(jià)格僅GPT4.5的1%。
多模態(tài)能力
文本能力
文心大模型X1是首個(gè)自主運(yùn)用工具的深度思考模型,具備更強(qiáng)的理解、規(guī)劃、反思、進(jìn)化能力,效果對(duì)標(biāo)DeepSeek R1,API價(jià)格僅R1一半。
目前,2款模型已在文心一言官網(wǎng)上線,所有用戶可免費(fèi)使用(不用等到4月1日)。
體驗(yàn)地址:???https://yiyan.baidu.com??
1.文心4.5和X1有何亮點(diǎn)?
文心4.5,是百度的新一代原生多模態(tài)基礎(chǔ)大模型。一家公司模型能力強(qiáng)不強(qiáng),其基礎(chǔ)模型至關(guān)重要。
據(jù)介紹,文心4.5重點(diǎn)提升能力有:
1)原生多模態(tài)。通過多個(gè)模態(tài)聯(lián)合建模實(shí)現(xiàn)協(xié)同優(yōu)化,能夠在輸入和輸出端同時(shí)支持多種模態(tài),具備出色的多模態(tài)理解和跨模態(tài)遷移能力。
2)更精進(jìn)的語言能力,理解、生成、邏輯、記憶能力全面提升。
3)去幻覺、邏輯推理、代碼能力顯著提升。
文心X1,是百度的首款深度思考模型,具備更強(qiáng)的理解、規(guī)劃、反思、進(jìn)化能力,其核心能力如下:
1)具備更強(qiáng)的邏輯推理和復(fù)雜問題解決能力。
2)能夠自主調(diào)用工具,如高級(jí)搜索、文檔問答、圖片理解、AI繪圖、代碼解釋器、網(wǎng)頁讀取、TreeMind樹圖等。
3)RAG能力優(yōu)秀,能夠快速全面地分析實(shí)時(shí)熱點(diǎn)事件,有效降低幻覺。
4)中文能力突出,在中文知識(shí)問答、文學(xué)創(chuàng)作、公文寫作方面表現(xiàn)出色。
2.上手實(shí)測
下面,我們就來實(shí)測感受下,百度的這2款新模型到底怎么樣。
1)文心4.5實(shí)測
這是來自「數(shù)學(xué)吧」的一張梗圖,你知道什么意思嗎?
“可倒一定連續(xù)”,“連續(xù)不一定可倒”,這都什么鬼……我們問問文心4.5。
提問:這張圖?描述了?個(gè)什么道理?解釋出來。
文心4.5答:這張圖片通過共享單車倒下的場景,傳達(dá)了一個(gè)數(shù)學(xué)和邏輯上的道理。圖片中的文字“連續(xù)不一定可倒,可倒一定連續(xù)”是對(duì)這一道理的幽默表達(dá)。
從數(shù)學(xué)的角度來看,“連續(xù)”通常指的是函數(shù)在某一點(diǎn)或某一區(qū)間上的連續(xù)性,即函數(shù)值在該點(diǎn)或區(qū)間內(nèi)沒有突變或跳躍。而“可倒”在這里可以理解為函數(shù)在某一點(diǎn)上的可導(dǎo)性,即函數(shù)在該點(diǎn)存在導(dǎo)數(shù)。
圖片中的道理可以解釋為:
“連續(xù)不一定可倒”:一個(gè)函數(shù)在某一點(diǎn)上連續(xù),并不意味著它在該點(diǎn)上一定可導(dǎo)。例如,絕對(duì)值函數(shù)在x=0處連續(xù),但不可導(dǎo)。
“可倒一定連續(xù)”:如果一個(gè)函數(shù)在某一點(diǎn)上可導(dǎo),那么它在該點(diǎn)上一定連續(xù)。這是可導(dǎo)性的一個(gè)基本性質(zhì),通過共享單車的形象比喻,這張圖片以一種直觀目有趣的方式展示了數(shù)學(xué)中的這一邏輯關(guān)系。
是我孤陋寡聞了!沒想到一張隨手拍的共享單車圖,竟然蘊(yùn)含著這么高深的數(shù)學(xué)原理。
再比如這張,你能解釋它是什么意思嗎?
而文心4.5知道:節(jié)拍器上的指針代表了父母對(duì)我們認(rèn)知的“搖擺不定",有時(shí)候覺得我們長大了,應(yīng)該很懂事;有時(shí)候又覺得我們還小,什么都不懂。這種矛盾的心理,正是很多父母在子女成長過程中的真實(shí)寫照。
上點(diǎn)難度,無字圖片呢?看看文心4.5能不能讀懂。
這是我很喜歡的一部科幻電影里的截圖,考考文心4.5。
文心4.5答,這張圖來自電影《楚門的世界》(The Truman Show),回答正確。不得不說,百度的索引數(shù)據(jù)+多模態(tài)模型,真的太強(qiáng)了。
繼續(xù)加難度,丟一張橫向?;鶊D給它。
問:根據(jù)整張圖,分析12星座有哪些興趣愛好是相同的?
沒想到,文心4.5也能答得上來,完整找出了各個(gè)星座的共同愛好。
既然是多模態(tài),那就不局限于圖片。音視頻方面呢,文心4.5行不行?
比如,這是《甄嬛傳》中的一個(gè)視頻片段,讓它找出來自哪集。
文心4.5準(zhǔn)確溯源,來自第62集-63集的劇情,祺貴人受皇后指使,在眾人面前誣陷甄嬛與溫太醫(yī)有私情。
更讓我意外的是,文心4.5也能像Gemini一樣生成連續(xù)性、多場景的圖片。
比如,假設(shè)小米下一輛要造皮卡車,它會(huì)怎么造?讓文心4.5幫我們畫出來。
總的來看,文心4.5的多模態(tài)確實(shí)有點(diǎn)東西,確認(rèn)是原生多模態(tài),而非拼接多個(gè)單模態(tài)模型。
2)文心X1測評(píng)
接著,繼續(xù)測百度今天發(fā)布的核心模型——文心X1。
既然是推理模型,就必須問它一道經(jīng)典的電車難題:
瘋?把五個(gè)無辜的人綁在電?軌道上。?輛失控的電?朝他們駛來,并且片刻后就要碾壓到他們。但你可以拉?個(gè)拉桿,讓電車開到另?條軌道上。然而問題在于,那個(gè)瘋子在另?個(gè)電車軌道上也綁了?個(gè)?。?對(duì)這種情況,你是否會(huì)拉拉桿呢?
這個(gè)問題,難倒了不少AI和人類。我們先看看文心X1的思考過程。
確認(rèn),這是在真思考,而非表演思考。
X1答:沒有標(biāo)準(zhǔn)答案,取決于你接受的倫理體系。哲學(xué)家邊沁支持拉桿,康德則反對(duì)。實(shí)際上到底拉不拉,需要綜合情景變量(如時(shí)間壓力、身份關(guān)系、風(fēng)險(xiǎn)概率)來動(dòng)態(tài)決策,但無論怎么做,決策者的道德責(zé)任不可推卸。
X1還說,電車難題的價(jià)值不在于「正確答案」,而在于暴露道德體系的底層矛盾,推動(dòng)正義、責(zé)任、犧牲的深層思考。
這個(gè)問題的終極意義在于:當(dāng)我們用數(shù)字衡量生命時(shí),可能已經(jīng)失去了最寶貴的人性。
臥槽,你說得真有道理啊。
試試嘴臭功力呢,看看能不能與DeepSeek媲美。
輸入:以互聯(lián)網(wǎng)杠精的語?銳評(píng)“國內(nèi)各?菜系”,要求盡可能陰陽怪氣,攻擊性拉滿。
X1先進(jìn)行了一輪思考,找出八大菜系的分類及其特點(diǎn)。
然后生成各菜系的銳評(píng),確實(shí)夠陰陽怪氣的。
我摘幾段文字,大家感受下。
“川菜:哎呦喂,川菜啊,麻辣鮮香,一吃就停不下來,是不是恨不得把辣椒當(dāng)飯吃啊?那么重油重辣,也不怕上火長痘,到時(shí)候滿臉痘痘可別怪我沒提醒你。
粵菜:粵菜,清淡鮮美,講究原汁原味,是不是覺得吃不出味道就是高雅?。磕敲垂训瓱o味,吃著吃著就睡著了,還以為自己在吃什么仙丹呢,結(jié)果就是個(gè)催眠神器!
湘菜:湘菜嘛,香辣開胃,下飯神器,是不是覺得辣味就能掩蓋一切缺點(diǎn)???那么辣得不分青紅皂白,把味蕾都辣麻木了,還以為自己在吃什么靈丹妙藥呢,結(jié)果就是個(gè)自虐狂?!?/p>
官方介紹,與文心4.5一樣,文心X1也支持多模態(tài)理解能力。
比如這張抽象的藝術(shù)品,你知道是什么意思嗎?
X1知道。
它認(rèn)為:這件作品的價(jià)值不在于"看懂",而在于激發(fā)思考。它像一面鏡子:樂觀者看到保護(hù)(膠帶防止香蕉腐壞),悲觀者看到禁錮,中立者看到存在本身的矛盾性。這種開放性的解讀空間,正是當(dāng)代藝術(shù)最動(dòng)人的魅力所在。
這……確實(shí)夠抽象的,我段位不夠,屬實(shí)理解不了。
在測試X1中,下面這個(gè)Case最讓我感到震撼。
前面,我們不是說過文心X1可以調(diào)用工具嘛,那有沒有可能讓它來潤色一部小說,然后再將修改后的小說以doc文檔交付?
我們先來看下X1的思考過程,它累計(jì)調(diào)用了3次工具:文檔問答工具、代碼解釋器工具。
然后,經(jīng)過1分多鐘的改稿,最后直接交付了doc文檔。
這……也太強(qiáng)了吧?
這是X1的全部工作過程,大家可以自己感知下。
據(jù)我了解,這似乎是目前業(yè)內(nèi)首個(gè)支持自主調(diào)用工具的深度思考模型。
推理模型+聯(lián)網(wǎng)功能+工具調(diào)用能力,文心X1屬實(shí)有點(diǎn)驚艷到我了。
3.寫在最后
猶記得,兩年前的3月16日,百度發(fā)布了文心一言,帶來了中國的第一款A(yù)I ChatBots。
兩年后的今天,百度兩連發(fā),帶著全新的基礎(chǔ)模型(文心4.5)和推理模型(文心X1)而來。
而且,還提前全面免費(fèi)(不用等到4月1日)。
特別是文心X1,這并不在計(jì)劃內(nèi)。
后面,文心一言還將開源(6月30日),并于今年下半年推出文心大模型5.0。
此前種種謠言、片語,自此不攻自破。
2025年,對(duì)于百度來說,一定是大開大合的一年,也是放手去干的一年。
我對(duì)百度,依然有信心。
本文轉(zhuǎn)載自???沃垠AI???,作者:冷逸
