編輯 | 伊風(fēng)
深夜,騰訊開(kāi)直播發(fā)布了T1的正式版。
騰訊在架構(gòu)上大膽棄用了Transformer,首個(gè)基于混合Mamba架構(gòu)的超大型推理模型就誕生了!
這樣做有啥好處呢:簡(jiǎn)單地說(shuō),混合Mamba架構(gòu)通過(guò)降低計(jì)算復(fù)雜度、緩存占用,同時(shí)發(fā)揮其在處理長(zhǎng)序列和捕捉復(fù)雜上下文方面的優(yōu)勢(shì),成功應(yīng)對(duì)了大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的挑戰(zhàn),顯著提升了系統(tǒng)的整體效率和吞吐量。還實(shí)現(xiàn)了實(shí)現(xiàn)了訓(xùn)練跟推理成本的雙下降!
從此,模型無(wú)論是思考還是生成答案都快到起飛!
圖片
官方也是非常自信地宣布:T1性能達(dá)到超一流水平,僅次OpenAI o1!
圖片
先來(lái)放個(gè)體驗(yàn)地址:https://llm.hunyuan.tencent.com/#/chat/hy-t1
圖片
對(duì)壘DeepSeek,T1速度快、情商高、幻覺(jué)少!
騰訊T1選擇深夜直播的目的很明顯:沖向國(guó)際化!
因此,在這場(chǎng)直播的前半段,也是相當(dāng)頻繁地以目前海內(nèi)外爆火的DeepSeek為標(biāo)桿。
首先,在回答質(zhì)量基本打平的情況下,T1的速度達(dá)到了DeepSeek的兩倍:
再做一個(gè)條件推理題目時(shí),T1早早就進(jìn)行了交卷。
除了生成速度之外,T1在處理復(fù)雜指令上,也進(jìn)行了改進(jìn)。在demo的演示中,小哥出了上聯(lián)“深深淺淺溪流水”,進(jìn)行思考后T1對(duì)了“洋洋灑灑江河滿”。(雖然也不是最工整的對(duì)子,但已經(jīng)相當(dāng)出色)。
圖片
其次,T1在回答問(wèn)題的文風(fēng)上做了優(yōu)化,使其回答更具通用性。
團(tuán)隊(duì)成員介紹說(shuō),我們觀察到某些推理模型像理工男,喜歡用高深的硬科技詞匯……?;煸猅1則對(duì)此進(jìn)行調(diào)整,雖然同樣擅長(zhǎng)理工科的長(zhǎng)推理,但在文科方面表現(xiàn)得比較中性,更適合通用任務(wù)和常識(shí)性任務(wù)。
“高深的硬科技詞匯”,DeepSeek:你直接報(bào)我名得了。
上圖:DeepSeek偏愛(ài)“量子糾纏”等術(shù)語(yǔ)
最后,T1還針對(duì)目前大模型飽受詬病的幻覺(jué)問(wèn)題做了優(yōu)化,摘要幻覺(jué)率顯著低于行業(yè)水平,成為一大亮點(diǎn)。
“推理模型雖然看上去思考了很多,但就會(huì)產(chǎn)生更多的幻覺(jué),有時(shí)候是無(wú)中生有,有時(shí)是張冠李戴?!被煸猅1針對(duì)這方面做了重點(diǎn)優(yōu)化。
小哥們表示,用T1來(lái)解讀研報(bào)非常香,簡(jiǎn)直是打工人的福音。
圖片
技術(shù)天團(tuán)解密:T1的超高性能從何而來(lái)
既然直播請(qǐng)到了技術(shù)團(tuán)隊(duì),那肯定得解析下T1為何有如此多的獨(dú)到之處。
圖片
團(tuán)隊(duì)成員將其概述為以下三點(diǎn):
1. 強(qiáng)大的通用模型基座
T1基于混元Turbo S通用模型基座,通過(guò)大規(guī)模高質(zhì)量數(shù)據(jù)訓(xùn)練,在預(yù)訓(xùn)練階段打下堅(jiān)實(shí)基礎(chǔ)。
2. 創(chuàng)新的后訓(xùn)練數(shù)據(jù)策略
在后訓(xùn)練階段,T1采用獨(dú)特的指令激發(fā)策略,注重高質(zhì)量Prompt和Response數(shù)據(jù)的獲取。通過(guò)復(fù)雜指令的多樣性和難度分級(jí)系統(tǒng),確保指令的豐富性和層次性。同時(shí),通過(guò)約束模型為每條Prompt生成Checklist,篩選出滿足多樣化約束的指令,防止指令分布不均勻。
3. 嚴(yán)格的數(shù)據(jù)質(zhì)量把控
T1在數(shù)據(jù)質(zhì)量方面采取了嚴(yán)格措施。首先,通過(guò)數(shù)據(jù)質(zhì)量檢測(cè)Pipeline(指的是按照特定順序執(zhí)行的質(zhì)量檢測(cè)步驟或操作流程),結(jié)合傳統(tǒng)算法和大模型檢測(cè)方法,確保訓(xùn)練數(shù)據(jù)的基礎(chǔ)質(zhì)量,避免低級(jí)錯(cuò)誤。其次,針對(duì)長(zhǎng)思維鏈數(shù)據(jù)中的幻覺(jué)和邏輯錯(cuò)誤問(wèn)題,訓(xùn)練了一個(gè)Critic(批判)模型進(jìn)行嚴(yán)格把控。該模型能夠識(shí)別和檢測(cè)數(shù)據(jù)中的噪音問(wèn)題,確保訓(xùn)練數(shù)據(jù)的準(zhǔn)確性和可靠性,從而提升模型在復(fù)雜任務(wù)中的表現(xiàn)。
不僅如此,團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)很有意思的現(xiàn)象,即從理科訓(xùn)練獲得的推理能力是可以通過(guò)能力遷移到文科和其他領(lǐng)域的。
因此,團(tuán)隊(duì)刻意讓模型去進(jìn)行能力遷移,通過(guò)將早期版本融入獎(jiǎng)勵(lì)系統(tǒng)指導(dǎo)正式版本迭代,提升通用能力。
極致工程化,應(yīng)對(duì)超大型推理模型的三大挑戰(zhàn)
不僅是技術(shù)創(chuàng)新,T1團(tuán)隊(duì)在工程化方面也做了很多工作。
團(tuán)隊(duì)成員介紹說(shuō),超大型推理模型目前面臨著“三座大山”:計(jì)算資源的效率挑戰(zhàn)、高帶寬帶來(lái)的通信挑戰(zhàn)、集群規(guī)模擴(kuò)大之后,在規(guī)模擴(kuò)展和穩(wěn)定性方面的挑戰(zhàn)。
針對(duì)這些讓人頭疼的問(wèn)題,T1團(tuán)隊(duì)做了什么:
1. 提升計(jì)算資源利用率,優(yōu)化通信效率
通過(guò)優(yōu)化,T1在萬(wàn)卡訓(xùn)練任務(wù)中,計(jì)算資源利用率處于行業(yè)領(lǐng)先水平。同時(shí),突破了分布式訓(xùn)練和推理的通信瓶頸,有效提升了端到端存儲(chǔ),使得訓(xùn)練效率提升了2.6倍,推理成本降低了約70%。
2. 保障服務(wù)穩(wěn)定性
在大規(guī)模GPU集群中,騰訊實(shí)現(xiàn)了萬(wàn)卡線性擴(kuò)展,加速比達(dá)到99%,服務(wù)穩(wěn)定性達(dá)到99.5%,故障率僅為行業(yè)平均水平的三分之一。
3. 自研框架與組件
為高性能保駕護(hù)航的安全平臺(tái)主要包括兩個(gè)組件:
訓(xùn)練組件(安全PDM):針對(duì)低端算力和顯存限制,騰訊自主研發(fā)了大規(guī)模訓(xùn)練框架,通過(guò)統(tǒng)一內(nèi)存顯存管理和多維并行優(yōu)化,顯著提升了訓(xùn)練的可擴(kuò)展性。
推理組件(安全HCF):支持萬(wàn)億級(jí)別的MOE大模型部署,具備多種并發(fā)策略、投機(jī)采樣、量化和稀疏化壓縮策略。此外,還支持PD分離部署策略,以充分利用高低端顯卡組合的性能。
4. 多模態(tài)場(chǎng)景的應(yīng)用
Angel平臺(tái)已經(jīng)在多個(gè)大模型場(chǎng)景中廣泛應(yīng)用,包括多模態(tài)、語(yǔ)音、3D、視頻等,展現(xiàn)了其高性能和高穩(wěn)定性的優(yōu)勢(shì)。
寫(xiě)在最后
在寫(xiě)這篇文章的時(shí)候,小編也忍不住體驗(yàn)了一把T1,的確速度拉滿。
在我測(cè)試的這個(gè)案例中,T1生成速度飛起的同時(shí),思考的維度全面、信息給的更加豐富。
圖片
問(wèn)題:為什么意大利面是低GI食物?
相信在這個(gè)周末,T1會(huì)擁有很多的實(shí)例測(cè)試,我們就能更加了解首款混合Mamba架構(gòu)推理模型的真正實(shí)力了。
或許,T1的這波投石問(wèn)路,會(huì)讓接下來(lái)有更多非Transformer的模型涌現(xiàn)出來(lái)呢?