自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

引入長思維鏈！微信基于阿里千問大模型搞出個翻譯版o1

2024-12-26 16:44:27

在最近的一項(xiàng)研究中，微信 AI 研究團(tuán)隊(duì)提出了 DRT-o1，將長 CoT 的成功引入神經(jīng)機(jī)器翻譯 (MT)。

最近，類 o1 模型的出現(xiàn)，驗(yàn)證了長思維鏈 (CoT) 在數(shù)學(xué)和編碼等推理任務(wù)中的有效性。在長思考（long thought）的幫助下，LLM 傾向于探索、反思和自我改進(jìn)推理過程，以獲得更準(zhǔn)確的答案。

在最近的一項(xiàng)研究中，微信 AI 研究團(tuán)隊(duì)提出了 DRT-o1，將長 CoT 的成功引入神經(jīng)機(jī)器翻譯 (MT)。實(shí)現(xiàn)這一目標(biāo)有兩個關(guān)鍵點(diǎn)：

一是適合在機(jī)器翻譯中使用長思考的翻譯場景：并不是所有的場景都需要在翻譯過程中進(jìn)行長思考。例如，對于簡單的表達(dá)，直譯就可以滿足大多數(shù)需求，而長思考的翻譯可能沒有必要；
二是一種能夠合成具有長思考能力的機(jī)器翻譯數(shù)據(jù)的方法。

展開來說，文學(xué)書籍中可能會涉及明喻和隱喻，由于文化差異，將這些文本翻譯成目標(biāo)語言在實(shí)踐中是非常困難的。在這種情況下，直譯往往無法有效地傳達(dá)預(yù)期的含義。即使是專業(yè)的人工翻譯，也必須在整個翻譯過程中仔細(xì)考慮如何保留語義。

為了在 MT 中模擬 LLM 的長思考能力，本文首先從現(xiàn)有文學(xué)書籍中挖掘包含明喻或隱喻的句子，然后開發(fā)出了一個多智能體框架通過長思考來翻譯這些句子。

該框架有三個智能體，即翻譯者（translator）、顧問（advisor）和評估者（evaluator）。數(shù)據(jù)合成過程是迭代的，每次迭代包括以下三個步驟：

（1）翻譯者根據(jù)前一步的翻譯和顧問的相應(yīng)改進(jìn)建議生成新的翻譯；

（2）顧問評估當(dāng)前翻譯并提供詳細(xì)反饋；

（3）評估者評估當(dāng)前翻譯并使用預(yù)定義的評分標(biāo)準(zhǔn)給出評估分?jǐn)?shù)。一旦評估者提供的翻譯分?jǐn)?shù)達(dá)到預(yù)定義的閾值或迭代次數(shù)達(dá)到最大值，迭代將停止。

此后，每一步中的翻譯和建議都可以形成長思考的機(jī)器翻譯樣本。為了提高長思考數(shù)據(jù)的可讀性和流暢性，本文使用 GPT-4o 來重新表述長思考的內(nèi)容。

基于收集的長思考機(jī)器翻譯樣本，本文分別使用 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 作為主干模型，對 DRT-o1-7B 和 DRT-o1-14B 進(jìn)行訓(xùn)練（SFT）。在文學(xué)翻譯上的實(shí)驗(yàn)結(jié)果證明了 DRT-o1 的有效性。例如，DRT-o1-7B 的表現(xiàn)比 Qwen2.5-7B-Instruct 高出 8.26 BLEU、1.31 CometKiwi 和 3.36 CometScore。它的表現(xiàn)也比 QwQ32B-Preview 高出 7.82 BLEU 和 1.46 CometScore。

本文貢獻(xiàn)主要包括：

提出 DRT-o1，旨在構(gòu)建具有長思考機(jī)器翻譯能力的 LLM。為了實(shí)現(xiàn)這一目標(biāo)，本文挖掘了帶有明喻或隱喻的文學(xué)句子，并收集具有長思考過程的機(jī)器翻譯樣本；
為了合成長思考機(jī)器翻譯樣本，本文提出了一個多智能體框架，其中包括翻譯者、顧問和評估者。這三個智能體以迭代方式協(xié)作，在機(jī)器翻譯過程中產(chǎn)生長思考。最后，使用 GPT4o 進(jìn)一步提高合成長思考機(jī)器翻譯樣本的質(zhì)量；
在文學(xué)翻譯上的實(shí)驗(yàn)結(jié)果驗(yàn)證了 DRT-o1 的有效性，通過長思考，LLM 可以在機(jī)器翻譯過程中學(xué)會思考。

論文標(biāo)題：DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought
論文鏈接：https://arxiv.org/pdf/2412.17498
項(xiàng)目地址：https://github.com/krystalan/DRT-o1

DRT-o1 數(shù)據(jù)

論文以英譯漢為研究對象，在本節(jié)中通過三個步驟介紹如何收集 DRT-o1 訓(xùn)練數(shù)據(jù)：

（1）收集在翻譯過程中往往需要長時間思考的英語句子（§ 2.1）；

（2）通過設(shè)計(jì)的多智能體框架對收集到的句子進(jìn)行長時間思考翻譯過程的合成（§ 2.2）；

（3）改進(jìn)長時間思考內(nèi)容的可讀性和流暢性，形成最終的長時間思考 MT 樣本（§ 2.3）。

最后，對收集到的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，加深理解（§ 2.4）。

文學(xué)圖書挖掘

研究者利用了古騰堡計(jì)劃公共領(lǐng)域書籍庫中的文學(xué)書籍，這些書籍通常有 50 多年的歷史，其版權(quán)已過期。他們利用了大約 400 本英文書籍來挖掘含有比喻或隱喻的句子。

首先，從這些書籍中提取所有句子，并過濾掉太短或太長的句子，即少于 10 個單詞或多于 100 個單詞的句子，最終得到 577.6K 個文學(xué)句子。

其次，對于每個句子，使用 Qwen2.5-72B-Instruct 來判斷該句子是否包含比喻或隱喻，并舍棄不包含比喻或隱喻的句子。

第三，對于剩下的句子，讓 Qwen2.5-72B-Instruct 將其直譯為中文，然后判斷譯文是否符合母語為中文的人的習(xí)慣。如果答案是否定的，則保留相應(yīng)的句子，將其視為「適合長思考翻譯」。

這樣，最終從 577.6K 個涉及比喻或隱喻的文學(xué)句子中收集了 63K 個直譯也有缺陷的句子，稱為預(yù)收集句子。

多智能體框架

對于每個預(yù)先收集的句子（用 s 表示），研究者設(shè)計(jì)了一個多智能體框架，通過長時間的思考將其從英文翻譯成中文。如圖 1 所示，框架包括三個智能體：翻譯者、顧問和評估者。合成過程如下：

(1) 詞語級翻譯。

(2) 初步翻譯。

(3) 翻譯完善循環(huán)。

長思考重配方

經(jīng)過多智能體協(xié)作，得到了一個漫長的思考過程：

其中，P (s) 表示 s 的多智能體思考過程，m 為迭代步數(shù)。為了強(qiáng)調(diào)有效的思維過程，沒有分?jǐn)?shù)變化的翻譯將被刪除。也就是說，如果 s^i 等于 s^(i-1)（i = 1，2，...，m），研究者將舍棄 P (s) 中的?t^i , f^i , s^i ?，結(jié)果為：

其中 1≤r_1 < r_2 < ... < r_n ≤ m，n 為剩余步數(shù)。如果 n < 3，將放棄整個樣本，即 P (s) / P′ (s)。

對于其余樣本，研究者效仿 Qin et al. (2024) 的做法，利用 GPT-4o 將 P ′ (s) 修改并打磨為自我反思描述。最后，獲得了 22264 個帶有長思考的機(jī)器翻譯樣本。圖 2 舉例說明了合成結(jié)果。

數(shù)據(jù)統(tǒng)計(jì)

研究者將收集到的 22264 個樣本分為訓(xùn)練集、驗(yàn)證集和測試集，樣本數(shù)分別為 19264、1000 和 2000。表 1 列出了 DRT-o1 數(shù)據(jù)和以往類似 O1 數(shù)據(jù)的數(shù)據(jù)統(tǒng)計(jì)。對于 Marco-O1 CoT 數(shù)據(jù)，由于其尚未完全發(fā)布，此處使用其演示數(shù)據(jù)來計(jì)算數(shù)據(jù)統(tǒng)計(jì)。可以看到，合成的思考中的平均 token 數(shù)達(dá)到了 500 多個，這與之前面向數(shù)學(xué)的 O1 類 CoT 數(shù)據(jù)相似。

實(shí)驗(yàn)

為了計(jì)算 CometKiwi 和 CometScore，研究者使用了官方代碼和官方模型。為了計(jì)算 BLEU 分?jǐn)?shù)，使用 sacrebleu 工具包計(jì)算語料庫級別的 BLEU。此處，研究者采用 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 作為 DRT-o1 的骨干。

下表 2 顯示了文獻(xiàn)翻譯的結(jié)果。研究者將 DRT-o1-7B 和 DRT-o1- 14B 與之前的 Qwen2.5-7B-Instruct、Qwen2.5- 14B-Instruct、QwQ-32B-preview 和 Marco-o1- 7B 進(jìn)行了比較。根據(jù)收集到的數(shù)據(jù)進(jìn)行指令調(diào)整后，DRT-o1-7B 的 BLEU、CometKiwi 和 CometScore 分別為 8.26、1.31 和 3.36，優(yōu)于 Qwen2.5-7B-Instruct。DRT-o1-14B 在 7.33 BLEU、0.15 CometKiwi 和 1.66 CometScore 方面優(yōu)于 Qwen2.5-14B-Instruct。此外，DRT-o1-14B 在所有指標(biāo)方面都取得了最佳結(jié)果，顯示了長思考在機(jī)器翻譯中的有效性。

圖 3 顯示了 DRT-o1-14B 的一個示例。可以看到，該模型學(xué)習(xí)了收集的數(shù)據(jù)的思維過程。DRT-o1-14B 首先執(zhí)行詞級翻譯，然后嘗試初步翻譯。接下來，它會不斷改進(jìn)翻譯，直到它認(rèn)為翻譯足夠好為止。

更多研究細(xì)節(jié)，可參考原論文。

責(zé)任編輯：姜華來源：機(jī)器之心

人工智能神經(jīng)機(jī)器翻譯 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營