對打GPT-4,文心一言搶先實(shí)測!畫「林黛玉倒拔垂楊柳」很驚艷,但寫代碼不大行
?昨天,百度沒有現(xiàn)場demo的發(fā)布會(huì),似乎被群嘲了一波。
一位穿白襯衣、黑褲子,系一條白色腰帶的美男子,給我們帶來了一場中規(guī)中矩、似乎缺乏亮點(diǎn)的演示。
不過,CEO的腰帶和顏值倒是出了圈。
有人調(diào)侃,這些天被ChatGPT、GPT-4整焦慮的人,發(fā)布會(huì)后忽然又覺得自己可以了。
但是拿到內(nèi)測碼的小編,火速測評了一波。
看著文心一言洋洋灑灑騰蛟起鳳,感慨萬千:或許,當(dāng)時(shí)百度要是心一橫,牙一咬,愿意在發(fā)布會(huì)上露一手,結(jié)果會(huì)大不一樣。
實(shí)測報(bào)告火熱出爐!
先來試試最近很火的一道雞兔同籠題。因?yàn)檫@道題本身有問題,算出來結(jié)果是負(fù)的,所以經(jīng)常被用來調(diào)戲各種「ChatGPT」們。
如果只是單純問這個(gè)問題,文心一言會(huì)非常機(jī)智地說:這道題出錯(cuò)了吧!
然而,當(dāng)你問計(jì)算過程的時(shí)候,還是寄了……
而GPT-4這邊則是,自己把自己的計(jì)算推倒重來了好幾遍之后,理不直氣也壯地給出了錯(cuò)誤答案……
而必應(yīng)則很干脆,毫不猶豫地給出了錯(cuò)誤答案。
還有這次意外火出圈的「V50」梗,文心一言從意思到出處一本正經(jīng)地解釋了一遍。
但GPT-4顯然就有些水土不服了……
不過能上網(wǎng)的必應(yīng),還是可以輕松搞定的。
但是到諧音梗這里,文心一言似乎并不能馬上領(lǐng)悟其中的微妙。
即便提示這是個(gè)諧音梗之后,它依然輸出了一樣的答案。
而GPT-4,立馬就明白了中文里的雙關(guān)。
不過,你要是問文心一言懂不懂什么叫「麻了隔壁」,就有意思了。
看回答吧,它能說出這是個(gè)諧音梗,應(yīng)該是懂了。但是呢,它又不明說,哎,就是讓你挑不出錯(cuò),絕對教不壞小孩。
而GPT-4卻無法get到這個(gè)梗,果然,咱們的國粹,外國的機(jī)器人理解起來確實(shí)有難度。
接下來讓(忽悠)文心一言重復(fù)我們說的話,雖然沒有像GPT-3.5回答「您是智障」那么聰明,但也成功避開這個(gè)坑。
從某種程度上說,智商還是在線的,并且十分正能量。
老婆的話好像管用,好像又不管用....
另外,讓它們互相給對方出難題。
可以看到,GPT-4給出的問題相對更直觀,顆粒度也更細(xì)。
美術(shù)功底如何?
文心一言是個(gè)多模態(tài)模型,那咱們來看看它的繪圖能力。
來看看金庸筆下的美艷少婦,在文心一言筆下會(huì)是什么樣子。
這……小編一口水噴出來。
你別說,美吧,肯定不夠美,但也并不丑,是一張初看捧腹、細(xì)看值得反復(fù)咂摸的臉。
文心一言,就喜歡你這不按套路出牌的樣子!
那讓文心一言生成一幅林黛玉的畫像吧。
輸入描述后,它生成了一棵柳樹……
于是小編明確了一下要求,要按這段文字生成一幅女子的畫像。
然后文心一言確實(shí)畫出一位古典美女,但氣質(zhì)明顯不對。
不死心的小編多次重復(fù)任務(wù),你別說,試到第五次的時(shí)候,小編眼前一亮:終于得到了一張可以打70分的圖!
玩上癮的小編,非要生成一個(gè)90分的林黛玉不可。試了幾次之后,果然蹲到了!
可見,文心一言的發(fā)揮不穩(wěn)定,但多番嘗試下,有可能誕生非常驚艷的作品。
既然都到這兒了,那怎么少得了「林黛玉倒拔垂楊柳」呢。
比較亮點(diǎn)的圖,都給大家貼這兒了。
要求它畫一張鴨子和兔子的合體,這生成的是鴨還是兔呢?
而這個(gè)任務(wù)中,恐怕文心一言也沒有搞明白,盤子里到底有沒有香蕉?杯子里有沒有橙汁?
最后,既然文心一言強(qiáng)烈推薦我們嘗試「晶瑩剔透的牡丹花」,那就畫幾張?jiān)囋嚢桑?/p>
不愧是「代表作」,有點(diǎn)東西。
專業(yè)知識(shí)和生產(chǎn)力
既然是評測,怎么能少的了讓AI寫代碼這個(gè)環(huán)節(jié)。這次,我們直接來個(gè)難的!
可惜,文心一言一上來就錯(cuò)了,而且同一個(gè)句式還被非常詭異地重復(fù)了三遍。TypeScript編譯器概念更是「貫穿全文」,有點(diǎn)像一個(gè)只知道一到兩個(gè)專業(yè)詞匯的人在面試中硬答。
而GPT-4的回答,從一個(gè)了解相關(guān)背景但是沒有相關(guān)操作經(jīng)驗(yàn)的人的角度來看,是非常合理的。
它不僅完整的提供了整個(gè)工作流,而且還提供了很多看起來正確的技術(shù)細(xì)節(jié)??梢哉f,根據(jù)這個(gè)回答,我們是有信心達(dá)成最終的目標(biāo)的。
隨后,小編還測評了一波聊天機(jī)器人們寫工作計(jì)劃表的能力。
文心一言:
GPT-4:
從上面的這個(gè)結(jié)果來看,GPT-4的列表更完備一些。不過由于隨機(jī)性的影響,GPT-4每次給的回答都不大一樣。
接下來,再測一測兩個(gè)語言模型對于數(shù)學(xué)界前沿訊息的掌握情況。
對于自己是否已解決了「零點(diǎn)猜想」問題,張益唐本人是這樣解釋的:「大海里的針我沒撈到, 但海底地貌我探得差不多了?!?/p>
那問問文心一言呢?
它很聰明,給出了關(guān)鍵詞——「某種形式的弱化或間接證明」。
但GPT-4的回答,就有點(diǎn)驢頭不對馬嘴了。
看來,對于出現(xiàn)時(shí)間不長、還未形成普遍共識(shí)的互聯(lián)網(wǎng)中文語料,文心一言比起GPT-4要更勝一籌。
而在文學(xué)方面,文心一言在回答關(guān)于三體的問題時(shí),也是非常得溜。
GPT-4的回答也很精彩,如果非要論個(gè)高下,小編個(gè)人更喜歡文心一言的答案。
最后,搞怪可以,但請做一個(gè)遵紀(jì)守法的好公民,預(yù)測彩票中獎(jiǎng)號(hào)碼這種事就不要想了!
寫在最后
據(jù)說,文心一言新聞發(fā)布會(huì)后三小時(shí),文心一言企業(yè)版API調(diào)用服務(wù)測試的企業(yè)用戶,就已經(jīng)突破了6.5萬。
來源:周建工
對AI模型來說,能不能做到,或許比能不能做好更重要。
讓我們再給中國玩家們一些時(shí)間。
參考資料:?
https://yiyan.baidu.com