騰訊元寶全面測評(píng)!國產(chǎn)AI“看劇”時(shí)代開啟!讀懂《慶余年》范閑,揭秘奧特曼宮斗! 原創(chuàng)
編輯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
騰訊在大模型上的動(dòng)作姍姍來遲。
對(duì)于“后發(fā)”的抉擇,騰訊想得很清楚。
在“騰訊元寶”上線的發(fā)布會(huì)上,騰訊云副總裁、騰訊混元大模型負(fù)責(zé)人劉煜宏說,“雖然行業(yè)內(nèi)看起來火熱,但是中國移動(dòng)互聯(lián)網(wǎng)用戶規(guī)模12.32億,國內(nèi)AI頭部產(chǎn)品日活躍用戶規(guī)模僅數(shù)百萬。這意味著AI產(chǎn)品的滲透率極低,不到1%。”
圖片
在這種情景之下,盡管大家的FOMO(害怕錯(cuò)過)情緒很重,但先發(fā)不見得必然獲取到優(yōu)勢。豆包對(duì)于文心一言的反超就是一個(gè)例證。去年8月份推出的豆包,無論是下載量還是月活躍用戶數(shù)均超過了上半年就入局的文心一言。
因此,騰訊選擇了沉住氣,將更準(zhǔn)確地洞察用戶需求、內(nèi)部打磨產(chǎn)品作為自己的答案。
那么,后發(fā)的元寶能否帶來一些驚喜呢?
我們?yōu)樵獙毜哪P湍芰M(jìn)行了全方位的測評(píng)。同時(shí),背靠騰訊豐富的內(nèi)容生態(tài)是元寶的獨(dú)特優(yōu)勢和潛力,因此也對(duì)現(xiàn)在的內(nèi)容鏈接能力進(jìn)行了評(píng)測,來看看元寶對(duì)微信、騰訊視頻、微信讀書等資源的利用情況。
圖片
在體驗(yàn)元寶之后,元寶給我留下最深印象的優(yōu)點(diǎn)就是——國內(nèi)AI終于開始讀圖了!雖然豆包、Kimi也允許上傳圖片,但是他們本質(zhì)做的是OCR,只識(shí)字不識(shí)圖。
圖片
但元寶可以看懂,并且可以對(duì)畫面內(nèi)容進(jìn)行一些理解。
圖片
雖然Ta目前看不懂自己的梗圖,并且誤解自己是個(gè)理財(cái)APP。但總體來說是個(gè)巨大的進(jìn)步。
圖片
至于缺點(diǎn),元寶沒有采取目前GPT、Kimi等比較主流的方法,會(huì)給每一個(gè)對(duì)話概括一個(gè)名字。方便用戶隨時(shí)回顧之前的對(duì)話內(nèi)容。
元寶在開始新對(duì)話后,必須通過不斷地上拉才可以回顧之前的對(duì)話。在刪除聊天記錄時(shí)則會(huì)清楚全部的記錄(這個(gè)靈感是來自微信嗎),而且也尚未提供搜索,給人感覺不夠便利。
圖片
此外,元寶很有想法。不是那種被質(zhì)問就馬上道歉說是自己出幻覺的那種AI。
詳細(xì)的測評(píng)將從以下五個(gè)維度展開。
圖片
一、自然語言處理能力
1.語言理解第一個(gè)題目由GPT-4o提供:
圖片
元寶的作答非常詳盡,因此只選取了建議部分:
圖片
從上述回答來看,元寶的理解比較深入,全面分析了給出的金融問題,并符合邏輯地提供了有價(jià)值且易于理解的投資建議。
作為AI測試界的常客,我們選擇了兩個(gè)“弱智吧”笑話,對(duì)元寶進(jìn)行了測試。
第一個(gè)是生魚片是不是死魚片?以下是元寶的總結(jié):
圖片
另一個(gè)是經(jīng)典的爸媽結(jié)婚問題:
圖片
2.語言生成選擇了一道高考作文題目交給元寶作答。
元寶的作文乍一看很唬人,細(xì)品一下會(huì)發(fā)現(xiàn)Ta一直在跑題,主要是模型起的標(biāo)題把自己帶偏了。
不過有意思的是,元寶無需提示就意識(shí)到了自己的作答身份,全篇以學(xué)生口吻完成。
二、信息檢索和知識(shí)問答
首先檢索了OpenAI的新聞,完成度不錯(cuò)。OpenAI與普華永道的合作也是最新發(fā)生的事情。
圖片
但當(dāng)我用馬斯克為關(guān)鍵詞進(jìn)行搜索時(shí),元寶剛開始的回答還很靠譜。
圖片
但隨著Ta思維的發(fā)散,Ta的答案走遠(yuǎn)了……
圖片
當(dāng)我追問時(shí),元寶居然神奇的硬圓上了。(這就是元寶的性格,不會(huì)像其他模型那樣愛認(rèn)錯(cuò),下文還會(huì)提到)
圖片
三、任務(wù)執(zhí)行和實(shí)用工具
在任務(wù)執(zhí)行中,我們考察的是元寶的路線規(guī)劃能力。
圖片
在實(shí)用工具能力上,選擇了一道難度較大的行測題目,對(duì)元寶進(jìn)行了拷問。
圖片
元寶經(jīng)過一通分析之后,也很好地找出了正確答案。
圖片
四、多模態(tài)交互能力
1.圖像理解
元寶的讀圖能力是我覺得最有趣的地方。
特別是Ta理解了照片拍攝的意圖,讓我感覺比較驚喜。
圖片
我甚至給元寶看了最近正在考慮組的房子戶型圖。元寶沒有像一般大模型那樣被質(zhì)疑后就爆發(fā)討好性人格,而是堅(jiān)持自我!(不過他應(yīng)該是把廚房當(dāng)成臥室了)。
圖片
2.圖像生成
元寶能根據(jù)古詩的含義進(jìn)行圖像生成。如果非常依賴上下文的詩表現(xiàn)可能不佳,例如“知否,知否,應(yīng)是綠肥紅瘦”,元寶可能會(huì)po上兩顆一紅一綠的樹上去。
圖片
生成的日常圖片逼真而有食欲。
圖片
五、騰訊內(nèi)容生態(tài)鏈接能力
首先讓元寶給我推薦值得關(guān)注的美食公眾號(hào)
圖片
方向是對(duì)的,但是質(zhì)量沒有那么好,里面有一些斷更一年多的公眾號(hào)也被收錄了。
同時(shí),在檢索最近發(fā)生的事情時(shí),元寶可以使用微信公眾號(hào)的優(yōu)質(zhì)資源整合作答。但是在交互時(shí),需要注意prompt的寫法,我一開始的問法是“為什么要爆料”,此時(shí)元寶不會(huì)開啟搜索,而是選擇進(jìn)行動(dòng)機(jī)的推測。
圖片
圖片
另外,在檢索熱播劇時(shí),元寶還會(huì)拉到騰訊視頻的答案,點(diǎn)擊可以在網(wǎng)頁端看視頻。不過,在進(jìn)一步的測試中發(fā)現(xiàn),目前的元寶還不具備閱讀和理解視頻的能力。
圖片
其實(shí),依托騰訊龐大的生態(tài)。元寶完全有機(jī)會(huì)成為一個(gè)很好的個(gè)人助手。
期待元寶能打破APP之間那道無形的墻。這其中的想象力以及能釋放給用戶的便利可能遠(yuǎn)超你我的想象。
圖片
?本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)
