自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

棄用Transformer！混元T1正式版推出，公開(kāi)對(duì)壘DeepSeek：速度快幻覺(jué)少!混合Mamba架構(gòu)推理模型：成本再降低！

原創(chuàng) 精選

作者：伊風(fēng) 2025-03-24 08:26:45

混合Mamba架構(gòu)通過(guò)降低計(jì)算復(fù)雜度、緩存占用，同時(shí)發(fā)揮其在處理長(zhǎng)序列和捕捉復(fù)雜上下文方面的優(yōu)勢(shì)，成功應(yīng)對(duì)了大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的挑戰(zhàn)，顯著提升了系統(tǒng)的整體效率和吞吐量。還實(shí)現(xiàn)了實(shí)現(xiàn)了訓(xùn)練跟推理成本的雙下降！

編輯 | 伊風(fēng)

深夜，騰訊開(kāi)直播發(fā)布了T1的正式版。

騰訊在架構(gòu)上大膽棄用了Transformer，首個(gè)基于混合Mamba架構(gòu)的超大型推理模型就誕生了！

這樣做有啥好處呢：簡(jiǎn)單地說(shuō)，混合Mamba架構(gòu)通過(guò)降低計(jì)算復(fù)雜度、緩存占用，同時(shí)發(fā)揮其在處理長(zhǎng)序列和捕捉復(fù)雜上下文方面的優(yōu)勢(shì)，成功應(yīng)對(duì)了大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的挑戰(zhàn)，顯著提升了系統(tǒng)的整體效率和吞吐量。還實(shí)現(xiàn)了實(shí)現(xiàn)了訓(xùn)練跟推理成本的雙下降！

從此，模型無(wú)論是思考還是生成答案都快到起飛！

圖片

官方也是非常自信地宣布：T1性能達(dá)到超一流水平，僅次OpenAI o1！

圖片

先來(lái)放個(gè)體驗(yàn)地址：https://llm.hunyuan.tencent.com/#/chat/hy-t1

圖片

對(duì)壘DeepSeek，T1速度快、情商高、幻覺(jué)少！

騰訊T1選擇深夜直播的目的很明顯：沖向國(guó)際化！

因此，在這場(chǎng)直播的前半段，也是相當(dāng)頻繁地以目前海內(nèi)外爆火的DeepSeek為標(biāo)桿。

首先，在回答質(zhì)量基本打平的情況下，T1的速度達(dá)到了DeepSeek的兩倍：

再做一個(gè)條件推理題目時(shí)，T1早早就進(jìn)行了交卷。

除了生成速度之外，T1在處理復(fù)雜指令上，也進(jìn)行了改進(jìn)。在demo的演示中，小哥出了上聯(lián)“深深淺淺溪流水”，進(jìn)行思考后T1對(duì)了“洋洋灑灑江河滿”。（雖然也不是最工整的對(duì)子，但已經(jīng)相當(dāng)出色）。

圖片

其次，T1在回答問(wèn)題的文風(fēng)上做了優(yōu)化，使其回答更具通用性。

團(tuán)隊(duì)成員介紹說(shuō)，我們觀察到某些推理模型像理工男，喜歡用高深的硬科技詞匯……?；煸猅1則對(duì)此進(jìn)行調(diào)整，雖然同樣擅長(zhǎng)理工科的長(zhǎng)推理，但在文科方面表現(xiàn)得比較中性，更適合通用任務(wù)和常識(shí)性任務(wù)。

“高深的硬科技詞匯”，DeepSeek:你直接報(bào)我名得了。

上圖：DeepSeek偏愛(ài)“量子糾纏”等術(shù)語(yǔ)

最后，T1還針對(duì)目前大模型飽受詬病的幻覺(jué)問(wèn)題做了優(yōu)化，摘要幻覺(jué)率顯著低于行業(yè)水平，成為一大亮點(diǎn)。

“推理模型雖然看上去思考了很多，但就會(huì)產(chǎn)生更多的幻覺(jué)，有時(shí)候是無(wú)中生有，有時(shí)是張冠李戴?！被煸猅1針對(duì)這方面做了重點(diǎn)優(yōu)化。

小哥們表示，用T1來(lái)解讀研報(bào)非常香，簡(jiǎn)直是打工人的福音。

圖片

技術(shù)天團(tuán)解密：T1的超高性能從何而來(lái)

既然直播請(qǐng)到了技術(shù)團(tuán)隊(duì)，那肯定得解析下T1為何有如此多的獨(dú)到之處。

圖片

團(tuán)隊(duì)成員將其概述為以下三點(diǎn)：

1. 強(qiáng)大的通用模型基座

T1基于混元Turbo S通用模型基座，通過(guò)大規(guī)模高質(zhì)量數(shù)據(jù)訓(xùn)練，在預(yù)訓(xùn)練階段打下堅(jiān)實(shí)基礎(chǔ)。

2. 創(chuàng)新的后訓(xùn)練數(shù)據(jù)策略

在后訓(xùn)練階段，T1采用獨(dú)特的指令激發(fā)策略，注重高質(zhì)量Prompt和Response數(shù)據(jù)的獲取。通過(guò)復(fù)雜指令的多樣性和難度分級(jí)系統(tǒng)，確保指令的豐富性和層次性。同時(shí)，通過(guò)約束模型為每條Prompt生成Checklist，篩選出滿足多樣化約束的指令，防止指令分布不均勻。

3. 嚴(yán)格的數(shù)據(jù)質(zhì)量把控

T1在數(shù)據(jù)質(zhì)量方面采取了嚴(yán)格措施。首先，通過(guò)數(shù)據(jù)質(zhì)量檢測(cè)Pipeline（指的是按照特定順序執(zhí)行的質(zhì)量檢測(cè)步驟或操作流程），結(jié)合傳統(tǒng)算法和大模型檢測(cè)方法，確保訓(xùn)練數(shù)據(jù)的基礎(chǔ)質(zhì)量，避免低級(jí)錯(cuò)誤。其次，針對(duì)長(zhǎng)思維鏈數(shù)據(jù)中的幻覺(jué)和邏輯錯(cuò)誤問(wèn)題，訓(xùn)練了一個(gè)Critic（批判）模型進(jìn)行嚴(yán)格把控。該模型能夠識(shí)別和檢測(cè)數(shù)據(jù)中的噪音問(wèn)題，確保訓(xùn)練數(shù)據(jù)的準(zhǔn)確性和可靠性，從而提升模型在復(fù)雜任務(wù)中的表現(xiàn)。

不僅如此，團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)很有意思的現(xiàn)象，即從理科訓(xùn)練獲得的推理能力是可以通過(guò)能力遷移到文科和其他領(lǐng)域的。

因此，團(tuán)隊(duì)刻意讓模型去進(jìn)行能力遷移，通過(guò)將早期版本融入獎(jiǎng)勵(lì)系統(tǒng)指導(dǎo)正式版本迭代，提升通用能力。

極致工程化，應(yīng)對(duì)超大型推理模型的三大挑戰(zhàn)

不僅是技術(shù)創(chuàng)新，T1團(tuán)隊(duì)在工程化方面也做了很多工作。

團(tuán)隊(duì)成員介紹說(shuō)，超大型推理模型目前面臨著“三座大山”：計(jì)算資源的效率挑戰(zhàn)、高帶寬帶來(lái)的通信挑戰(zhàn)、集群規(guī)模擴(kuò)大之后，在規(guī)模擴(kuò)展和穩(wěn)定性方面的挑戰(zhàn)。

針對(duì)這些讓人頭疼的問(wèn)題，T1團(tuán)隊(duì)做了什么：

1. 提升計(jì)算資源利用率，優(yōu)化通信效率

通過(guò)優(yōu)化，T1在萬(wàn)卡訓(xùn)練任務(wù)中，計(jì)算資源利用率處于行業(yè)領(lǐng)先水平。同時(shí)，突破了分布式訓(xùn)練和推理的通信瓶頸，有效提升了端到端存儲(chǔ)，使得訓(xùn)練效率提升了2.6倍，推理成本降低了約70%。

2. 保障服務(wù)穩(wěn)定性

在大規(guī)模GPU集群中，騰訊實(shí)現(xiàn)了萬(wàn)卡線性擴(kuò)展，加速比達(dá)到99%，服務(wù)穩(wěn)定性達(dá)到99.5%，故障率僅為行業(yè)平均水平的三分之一。

3. 自研框架與組件

為高性能保駕護(hù)航的安全平臺(tái)主要包括兩個(gè)組件：

訓(xùn)練組件（安全PDM）：針對(duì)低端算力和顯存限制，騰訊自主研發(fā)了大規(guī)模訓(xùn)練框架，通過(guò)統(tǒng)一內(nèi)存顯存管理和多維并行優(yōu)化，顯著提升了訓(xùn)練的可擴(kuò)展性。

推理組件（安全HCF）：支持萬(wàn)億級(jí)別的MOE大模型部署，具備多種并發(fā)策略、投機(jī)采樣、量化和稀疏化壓縮策略。此外，還支持PD分離部署策略，以充分利用高低端顯卡組合的性能。

4. 多模態(tài)場(chǎng)景的應(yīng)用

Angel平臺(tái)已經(jīng)在多個(gè)大模型場(chǎng)景中廣泛應(yīng)用，包括多模態(tài)、語(yǔ)音、3D、視頻等，展現(xiàn)了其高性能和高穩(wěn)定性的優(yōu)勢(shì)。

寫(xiě)在最后

在寫(xiě)這篇文章的時(shí)候，小編也忍不住體驗(yàn)了一把T1，的確速度拉滿。

在我測(cè)試的這個(gè)案例中，T1生成速度飛起的同時(shí)，思考的維度全面、信息給的更加豐富。

圖片

問(wèn)題：為什么意大利面是低GI食物？

相信在這個(gè)周末，T1會(huì)擁有很多的實(shí)例測(cè)試，我們就能更加了解首款混合Mamba架構(gòu)推理模型的真正實(shí)力了。

或許，T1的這波投石問(wèn)路，會(huì)讓接下來(lái)有更多非Transformer的模型涌現(xiàn)出來(lái)呢？

責(zé)任編輯：武曉燕來(lái)源： 51CTO技術(shù)棧

Transforme 架構(gòu)緩存

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<ul id="lzptc"></ul>

<thead id="lzptc"><acronym id="lzptc"></acronym></thead>

<bdo id="lzptc"><rp id="lzptc"></rp></bdo>