自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

棄用Transformer!混元T1正式版推出,公開(kāi)對(duì)壘DeepSeek:速度快幻覺(jué)少!混合Mamba架構(gòu)推理模型:成本再降低!

原創(chuàng) 精選
人工智能
混合Mamba架構(gòu)通過(guò)降低計(jì)算復(fù)雜度、緩存占用,同時(shí)發(fā)揮其在處理長(zhǎng)序列和捕捉復(fù)雜上下文方面的優(yōu)勢(shì),成功應(yīng)對(duì)了大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的挑戰(zhàn),顯著提升了系統(tǒng)的整體效率和吞吐量。還實(shí)現(xiàn)了實(shí)現(xiàn)了訓(xùn)練跟推理成本的雙下降!

編輯 | 伊風(fēng)

深夜,騰訊開(kāi)直播發(fā)布了T1的正式版。

騰訊在架構(gòu)上大膽棄用了Transformer,首個(gè)基于混合Mamba架構(gòu)的超大型推理模型就誕生了!

這樣做有啥好處呢:簡(jiǎn)單地說(shuō),混合Mamba架構(gòu)通過(guò)降低計(jì)算復(fù)雜度、緩存占用,同時(shí)發(fā)揮其在處理長(zhǎng)序列和捕捉復(fù)雜上下文方面的優(yōu)勢(shì),成功應(yīng)對(duì)了大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的挑戰(zhàn),顯著提升了系統(tǒng)的整體效率和吞吐量。還實(shí)現(xiàn)了實(shí)現(xiàn)了訓(xùn)練跟推理成本的雙下降!

從此,模型無(wú)論是思考還是生成答案都快到起飛!

圖片圖片

官方也是非常自信地宣布:T1性能達(dá)到超一流水平,僅次OpenAI o1!

圖片圖片

先來(lái)放個(gè)體驗(yàn)地址:https://llm.hunyuan.tencent.com/#/chat/hy-t1

圖片圖片

對(duì)壘DeepSeek,T1速度快、情商高、幻覺(jué)少!

騰訊T1選擇深夜直播的目的很明顯:沖向國(guó)際化!

因此,在這場(chǎng)直播的前半段,也是相當(dāng)頻繁地以目前海內(nèi)外爆火的DeepSeek為標(biāo)桿。

首先,在回答質(zhì)量基本打平的情況下,T1的速度達(dá)到了DeepSeek的兩倍:

再做一個(gè)條件推理題目時(shí),T1早早就進(jìn)行了交卷。

除了生成速度之外,T1在處理復(fù)雜指令上,也進(jìn)行了改進(jìn)。在demo的演示中,小哥出了上聯(lián)“深深淺淺溪流水”,進(jìn)行思考后T1對(duì)了“洋洋灑灑江河滿”。(雖然也不是最工整的對(duì)子,但已經(jīng)相當(dāng)出色)。

圖片圖片

其次,T1在回答問(wèn)題的文風(fēng)上做了優(yōu)化,使其回答更具通用性。

團(tuán)隊(duì)成員介紹說(shuō),我們觀察到某些推理模型像理工男,喜歡用高深的硬科技詞匯……?;煸猅1則對(duì)此進(jìn)行調(diào)整,雖然同樣擅長(zhǎng)理工科的長(zhǎng)推理,但在文科方面表現(xiàn)得比較中性,更適合通用任務(wù)和常識(shí)性任務(wù)。

“高深的硬科技詞匯”,DeepSeek:你直接報(bào)我名得了。

上圖:DeepSeek偏愛(ài)“量子糾纏”等術(shù)語(yǔ)上圖:DeepSeek偏愛(ài)“量子糾纏”等術(shù)語(yǔ)

最后,T1還針對(duì)目前大模型飽受詬病的幻覺(jué)問(wèn)題做了優(yōu)化,摘要幻覺(jué)率顯著低于行業(yè)水平,成為一大亮點(diǎn)。

“推理模型雖然看上去思考了很多,但就會(huì)產(chǎn)生更多的幻覺(jué),有時(shí)候是無(wú)中生有,有時(shí)是張冠李戴?!被煸猅1針對(duì)這方面做了重點(diǎn)優(yōu)化。

小哥們表示,用T1來(lái)解讀研報(bào)非常香,簡(jiǎn)直是打工人的福音。

圖片圖片

技術(shù)天團(tuán)解密:T1的超高性能從何而來(lái)

既然直播請(qǐng)到了技術(shù)團(tuán)隊(duì),那肯定得解析下T1為何有如此多的獨(dú)到之處。

圖片圖片

團(tuán)隊(duì)成員將其概述為以下三點(diǎn):

1. 強(qiáng)大的通用模型基座

T1基于混元Turbo S通用模型基座,通過(guò)大規(guī)模高質(zhì)量數(shù)據(jù)訓(xùn)練,在預(yù)訓(xùn)練階段打下堅(jiān)實(shí)基礎(chǔ)。

2. 創(chuàng)新的后訓(xùn)練數(shù)據(jù)策略

在后訓(xùn)練階段,T1采用獨(dú)特的指令激發(fā)策略,注重高質(zhì)量Prompt和Response數(shù)據(jù)的獲取。通過(guò)復(fù)雜指令的多樣性和難度分級(jí)系統(tǒng),確保指令的豐富性和層次性。同時(shí),通過(guò)約束模型為每條Prompt生成Checklist,篩選出滿足多樣化約束的指令,防止指令分布不均勻。

3. 嚴(yán)格的數(shù)據(jù)質(zhì)量把控

T1在數(shù)據(jù)質(zhì)量方面采取了嚴(yán)格措施。首先,通過(guò)數(shù)據(jù)質(zhì)量檢測(cè)Pipeline(指的是按照特定順序執(zhí)行的質(zhì)量檢測(cè)步驟或操作流程),結(jié)合傳統(tǒng)算法和大模型檢測(cè)方法,確保訓(xùn)練數(shù)據(jù)的基礎(chǔ)質(zhì)量,避免低級(jí)錯(cuò)誤。其次,針對(duì)長(zhǎng)思維鏈數(shù)據(jù)中的幻覺(jué)和邏輯錯(cuò)誤問(wèn)題,訓(xùn)練了一個(gè)Critic(批判)模型進(jìn)行嚴(yán)格把控。該模型能夠識(shí)別和檢測(cè)數(shù)據(jù)中的噪音問(wèn)題,確保訓(xùn)練數(shù)據(jù)的準(zhǔn)確性和可靠性,從而提升模型在復(fù)雜任務(wù)中的表現(xiàn)。

不僅如此,團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)很有意思的現(xiàn)象,即從理科訓(xùn)練獲得的推理能力是可以通過(guò)能力遷移到文科和其他領(lǐng)域的。

因此,團(tuán)隊(duì)刻意讓模型去進(jìn)行能力遷移,通過(guò)將早期版本融入獎(jiǎng)勵(lì)系統(tǒng)指導(dǎo)正式版本迭代,提升通用能力。

極致工程化,應(yīng)對(duì)超大型推理模型的三大挑戰(zhàn)

不僅是技術(shù)創(chuàng)新,T1團(tuán)隊(duì)在工程化方面也做了很多工作。

團(tuán)隊(duì)成員介紹說(shuō),超大型推理模型目前面臨著“三座大山”:計(jì)算資源的效率挑戰(zhàn)、高帶寬帶來(lái)的通信挑戰(zhàn)、集群規(guī)模擴(kuò)大之后,在規(guī)模擴(kuò)展和穩(wěn)定性方面的挑戰(zhàn)。

針對(duì)這些讓人頭疼的問(wèn)題,T1團(tuán)隊(duì)做了什么:

1. 提升計(jì)算資源利用率,優(yōu)化通信效率

通過(guò)優(yōu)化,T1在萬(wàn)卡訓(xùn)練任務(wù)中,計(jì)算資源利用率處于行業(yè)領(lǐng)先水平。同時(shí),突破了分布式訓(xùn)練和推理的通信瓶頸,有效提升了端到端存儲(chǔ),使得訓(xùn)練效率提升了2.6倍,推理成本降低了約70%。

2. 保障服務(wù)穩(wěn)定性

在大規(guī)模GPU集群中,騰訊實(shí)現(xiàn)了萬(wàn)卡線性擴(kuò)展,加速比達(dá)到99%,服務(wù)穩(wěn)定性達(dá)到99.5%,故障率僅為行業(yè)平均水平的三分之一。

3. 自研框架與組件

為高性能保駕護(hù)航的安全平臺(tái)主要包括兩個(gè)組件:

訓(xùn)練組件(安全PDM):針對(duì)低端算力和顯存限制,騰訊自主研發(fā)了大規(guī)模訓(xùn)練框架,通過(guò)統(tǒng)一內(nèi)存顯存管理和多維并行優(yōu)化,顯著提升了訓(xùn)練的可擴(kuò)展性。

推理組件(安全HCF):支持萬(wàn)億級(jí)別的MOE大模型部署,具備多種并發(fā)策略、投機(jī)采樣、量化和稀疏化壓縮策略。此外,還支持PD分離部署策略,以充分利用高低端顯卡組合的性能。

4. 多模態(tài)場(chǎng)景的應(yīng)用

Angel平臺(tái)已經(jīng)在多個(gè)大模型場(chǎng)景中廣泛應(yīng)用,包括多模態(tài)、語(yǔ)音、3D、視頻等,展現(xiàn)了其高性能和高穩(wěn)定性的優(yōu)勢(shì)。

寫(xiě)在最后

在寫(xiě)這篇文章的時(shí)候,小編也忍不住體驗(yàn)了一把T1,的確速度拉滿。

在我測(cè)試的這個(gè)案例中,T1生成速度飛起的同時(shí),思考的維度全面、信息給的更加豐富。

圖片圖片

問(wèn)題:為什么意大利面是低GI食物?

相信在這個(gè)周末,T1會(huì)擁有很多的實(shí)例測(cè)試,我們就能更加了解首款混合Mamba架構(gòu)推理模型的真正實(shí)力了。

或許,T1的這波投石問(wèn)路,會(huì)讓接下來(lái)有更多非Transformer的模型涌現(xiàn)出來(lái)呢?

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2025-03-11 09:42:00

2025-03-24 13:04:12

2025-03-06 09:55:49

2024-09-23 08:20:00

模型訓(xùn)練

2025-02-25 09:13:16

2025-03-06 17:29:21

2025-03-06 10:14:39

2025-04-21 09:07:00

2025-02-10 06:50:00

AIDeepSeek推理模型

2024-09-24 11:01:03

2024-07-08 13:04:01

2025-03-10 08:47:00

模型AI訓(xùn)練

2022-07-27 09:25:08

深度架構(gòu)目標(biāo)檢測(cè)

2021-09-22 10:03:10

人工智能Transformer技術(shù)

2024-09-05 16:37:37

2010-07-21 09:54:29

FreeBSD 8.1

2025-02-07 08:33:02

2025-03-19 09:20:00

2024-09-10 13:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)