文心一言4.5和X1免費,馬上安排實測,來看看效果如何!
今早看到了百度 文心大模型4.5和X1 可以免費使用啦!之前說4月1號免費,這提前半個月,估計是最近大模型廠商一直都在開源,壓力太大了!
話說回來,2025年是真卷,幾乎每一周都有新東西,也都有爆款。之前我是隨機更,現在都變成日更啦!
文心4.5是個多模態(tài)大模型,可以對文字、圖片、音頻、視頻等內容進行綜合理解。文心X1是深度思考的推理大模型,但支持多模態(tài)和工具使用,具有更強的理解、規(guī)劃、反思、進化的能力。
從榜單上看效果有點猛,
多模態(tài),來自https://mp.weixin.qq.com/s/mwuO5c6vAcfQE3g_DkB4uw
文本,來自https://mp.weixin.qq.com/s/mwuO5c6vAcfQE3g_DkB4uw
開始開始!所有測試為了驗證模型基礎能力,均關掉檢索功能!文心X1在工具上體感很好。
- 簡單表格:
解析結果不正確。
- 中等表格:
這個比上一個有一些難度,主要是字多了一點,然后合并單元的不錯有交錯(6、7行的2、4列),文心4.5這個也沒對。
- 復雜表格:
這個更難了,表格結果錯綜復雜,文心4.5也沒對。
如果之前看過我的對Qwen2.5-VL的測試,就知道Qwen2.5-VL在表格解析上很強,都對。不過,之前GPT4-o和Claude、Gemini都沒對的!??!
下面看看文心4.5的數學能力,
- 2024年年高考全國甲卷數學(文)試題
結果正確,
- 2024年高考全國甲卷數學(理)試題
結果第一個正確第二個錯誤啦,C方程為;
下面看看文心4.5的信息抽取、計算、理解能力,
- 測試一下單圖片信息抽取+計算功能
input:請逐步詳細分析,告訴我在中文數據和英文數據分別占比是多少,并且告訴我總和
結果:正確
- 測試一下單圖片理解功能
input:請逐步詳細分析,這張圖片里是有兩只狗,對嗎
結果:完全正確
- 測試一下單圖片手寫ORC功能
input:請逐步詳細分析,輸出圖片中的文字內容
結果:錯了一個字,但是這種連筆確實還比較難,之前測試的其他模型也基本沒對。
- 再測試一下多圖片信息抽取+計算功能
input:請逐步詳細分析,兩頓飯我花了多少錢
結果:完全正確
接下來是色盲測試,詳細看開源多模態(tài)大模型是紅綠色盲嗎?,
圖1結果正確,
圖2結果錯誤,
只能說測試通過一半。
整體多模態(tài)圖片理解上的測試效果我覺得一般,在表格解析上沒有Qwen2.5-VL-72B好,其他的基本上都差不太多。
下面是純文本上的能力,看看文心4.5和文心X1效果如何。說一句X1太能think,每道題都等了好久!
- 依舊做題。
- 驗證滿血R1的題目:在平面四邊形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。將\triangle ACD沿AC翻折至\triangle ACP,其中P為動點。 求二面角A - CP - B的余弦值的最小值。
說明:答案為√3/3,4.5結果正確,X1結果錯誤,X1應該在思考過程中沒有思考完強制截斷了。
文心4.5
文心X1
- 大數計算:178939247893 * 299281748617 =?
說明:53553251005627872913981,4.5對了,X1推了10min之后,回答竟然偷懶了,只給了約等的答案。不過DS我當時測試是不對的。
文心4.5
文心X1
- 那道集倫理、生物、數學與一身的題目:有一天,一個女孩參加數學考試只得了 38 分。她心里對父親的懲罰充滿恐懼,于是偷偷把分數改成了 88 分。她的父親看到試卷后,怒發(fā)沖冠,狠狠地給了她一巴掌,怒吼道:“你這 8 怎么一半是綠的一半是紅的,你以為我是傻子嗎?”女孩被打后,委屈地哭了起來,什么也沒說。過了一會兒,父親突然崩潰了。請問這位父親為什么過一會崩潰了?
說明:雖然不對,但X1回答出了色盲,答出了1/3,還是滿強的。
文心4.5
文心X1
- 依舊弱智吧。
- 生蠔煮熟了叫什么?
說明:不錯不錯,都對了,沒說是熟蠔,哈哈哈!
文心4.5
文心X1
- 用水來兌水,得到的是濃水還是稀水
說明:結果正確,依舊純水~
文心4.5
文心X1
弱智吧是考不到文心的,是不是因為弱智吧本來就是百度的~~
- 依舊小紅、依舊老鷹。
- 小紅有2個兄弟,3個姐妹,那么小紅的兄弟有幾個姐妹
說明:結果正確,相信評論區(qū)依舊有人對線,小紅你怎么就認為是女生?。?!
文心4.5
文心X1
- 未來的某天,李同學在實驗室制作超導磁懸浮材料時,意外發(fā)現實驗室的老鼠在空中飛,分析發(fā)現,是因為老鼠不小心吃了磁懸浮材料。第二天,李同學又發(fā)現實驗室的蛇也在空中飛,分析發(fā)現,是因為蛇吃了老鼠。第三天,李同學又發(fā)現實驗室的老鷹也在空中飛,你認為其原因是
說明:回答錯誤,依舊老鷹不會飛~各大模型好像都錯了,經典中的經典~
文心4.5
文心X1
- 代碼
- 借鑒江樹的case,用黑白手繪風格說明什么是機器學習的本質,用SVG+CSS實現,所有代碼放到一個HTML中。
說明:畫的有點丑了,4.5有點亂,X1是個動圖還行,但有點丑,SVG畫圖Claude還是神級別的存在,沒辦法。
文心4.5
文心X1
- 創(chuàng)作
- 仿照《過秦論》的風格寫一篇《過美利堅論》
說明:感謝4.5寫的比X1好,X1混淆了很多內容,但感覺文筆都沒有DS好。
文心4.5
文心X1
- 用貼吧嘴臭老哥的風格點評大模型套殼現象
說明:還行,有那味兒了??!
文心4.5
文心X1
本文轉載自??NLP工作站??,作者:劉聰NLP
