信我,有你想要的!最大化DeepSeek潛能:動(dòng)態(tài)注意力機(jī)制
deepseek原理+應(yīng)用+實(shí)踐,和大家分享:
- 小眾的,deepseek核心技術(shù)原理;
- 大眾的,提示詞要怎么寫;
今天和大家聊聊,deepseek的核心技術(shù)之一的動(dòng)態(tài)注意力機(jī)制。
要搞懂這個(gè),先得知道什么是注意力機(jī)制?
這是一種通過(guò)計(jì)算…查詢向量(Query)…鍵向量(Key)…值向量(Value)…,最終得到...的技術(shù)。
畫外音:額,不折磨大家了。
注意力機(jī)制,Attention Mechanism,是如今AI最核心的技術(shù)(之一)。通俗地說(shuō),它允許模型在處理信息時(shí),專注于最關(guān)鍵的部分,弱化甚至忽略不相關(guān)的信息,從而提高處理效率與回復(fù)的質(zhì)量。它通過(guò)注意力分?jǐn)?shù),來(lái)量化描述某一部分信息被關(guān)注的程度,以反映相關(guān)信息在全局中的重要性。
舉個(gè)例子,用戶輸入提示詞:
哎喲媽呀,我跟你說(shuō),那啥,我今天早上出門,這天兒可夠冷的,那風(fēng)嗖嗖的,吹得我臉都僵了,我尋思著,咋這么冷呢,是不是把厚棉襖穿少了,你說(shuō)這天兒咋就那么邪乎呢,反正我這心里尋思著,哪兒能去買個(gè)暖寶寶貼貼。
這個(gè)提示詞中包含大量日常交流習(xí)慣中的鋪墊與情感表達(dá),屬于無(wú)效信息。注意力機(jī)制會(huì)讓模型將注意力專注在:今天早上很冷,我穿少了,哪兒能買暖寶寶?
注意力機(jī)制是什么來(lái)的?
注意力機(jī)制最符合人的真實(shí)思維。
再舉個(gè)例子:
第一眼看到一張圖片,你的注意力在哪兒,每個(gè)像素的權(quán)重是一樣的嗎?是不是一眼就會(huì)看到框中的耳環(huán),根本不會(huì)注意到其他部位。
這!就是神奇的注意力機(jī)制。
那什么是動(dòng)態(tài)注意力機(jī)制?
Dynamic Attention,要比注意力機(jī)制更進(jìn)一步,它不僅能夠?qū)W習(xí)到不同部分的相關(guān)性,還能在處理過(guò)程中自適應(yīng)的調(diào)整注意力的分配,把資源聚焦于當(dāng)下最重要的部分,使得模型更加智能(例如:文本,代碼,圖表在計(jì)算過(guò)程中權(quán)重會(huì)動(dòng)態(tài)變化)。
技術(shù)人應(yīng)該很容易理解這個(gè)所謂的“動(dòng)態(tài)”:
- 負(fù)載均衡 -> 根據(jù)歷史數(shù)據(jù)學(xué)習(xí)訓(xùn)練好參數(shù),3臺(tái)機(jī)器的流量分配權(quán)重配置好1:2:3。
- 動(dòng)態(tài)負(fù)載均衡 -> 在系統(tǒng)運(yùn)行過(guò)程中,根據(jù)3臺(tái)機(jī)器處理能力,動(dòng)態(tài)變化流量分配權(quán)重。
動(dòng)態(tài)注意力機(jī)制,對(duì)我們寫提示詞,獲取更佳的回答質(zhì)量有什么啟示呢?
我們可以在提示詞中:
1. 顯性的標(biāo)注關(guān)鍵信息,例如:
- 角色
- 技能
- 限制
- 步驟
2. 顯示設(shè)置約束條件,例如:
- 優(yōu)先考慮方案的分區(qū)容忍性與高可用
- 先不考慮內(nèi)網(wǎng)延時(shí)對(duì)方案的影響
3. 采用分層分步描述,讓deepseek清楚每一步的注意力重點(diǎn),例如:
- 第一步… 第二步… 第三步…
- 先設(shè)計(jì)框架,再填充細(xì)節(jié)
- 給出3組方案量化分析與優(yōu)缺點(diǎn)后,經(jīng)過(guò)我確認(rèn)選擇哪一組方案再繼續(xù)
優(yōu)化了提示詞,deepseek動(dòng)態(tài)注意力機(jī)制能更有效發(fā)揮:
- 有限深度思考時(shí)間,專注主要矛盾,增加分析維度,回復(fù)質(zhì)量極大提升;
- 相同質(zhì)量的回復(fù),動(dòng)態(tài)分配權(quán)重,極大降低計(jì)算消耗;
總結(jié)
- 動(dòng)態(tài)注意力機(jī)制是deepseek的核心技術(shù)(之一);
- 注意力機(jī)制最符合人的真實(shí)思維;
- 所謂“動(dòng)態(tài)”,是指在運(yùn)行過(guò)程中的注意力變化;
- 通過(guò)顯性標(biāo)注關(guān)鍵信息,顯性設(shè)置約束條件,顯性分層分步描述,能夠最大化發(fā)揮deepseek動(dòng)態(tài)注意力機(jī)制的潛力;
一切的一切,提示詞只有適配了AI的認(rèn)知模式,才能最高效的發(fā)揮最大的作用。
知其然,知其所以然。
思路比結(jié)論更重要。
補(bǔ)充閱讀材料:
《Attention Is All You Need》:https://arxiv.org/pdf/1706.03762
PDF,可下載。
《動(dòng)態(tài)注意力機(jī)制》:https://github.com/davidangularme/DynamicAttention
含源碼,Python。