一鍵生成萬字專利!中科院發(fā)布多智能體框架AutoPatent,含1933個(gè)「草稿-專利」數(shù)據(jù)對(duì)
在科技日新月異的今天,專利作為保護(hù)創(chuàng)新成果的重要法律工具,其撰寫過程卻往往繁瑣且耗時(shí),傳統(tǒng)的專利撰寫工作通常由熟悉專利法律和技術(shù)領(lǐng)域的專利代理人完成,這一過程耗時(shí)費(fèi)力,且效率較低。因此,開發(fā)一種能夠自動(dòng)化生成高質(zhì)量專利文檔的方法,對(duì)于提高專利撰寫的效率和準(zhǔn)確性具有重要意義。
最近,來自中科院深圳先進(jìn)院和大連理工大學(xué)的研究團(tuán)隊(duì)聯(lián)合開發(fā)了一個(gè)名為AutoPatent的自動(dòng)化的多智能體專利生成框架,能夠在十分鐘左右的時(shí)間依據(jù)發(fā)明人的專利技術(shù)底稿生成一篇完整的專利文檔。
圖片
論文地址:https://arxiv.org/abs/2412.09796
代碼鏈接:https://github.com/QiYao-Wang/AutoPatent
研究背景
一份完整的專利申請(qǐng)文件通常包含標(biāo)題、摘要、技術(shù)背景、詳細(xì)描述和權(quán)利要求等內(nèi)容,其平均長(zhǎng)度在17,000 Tokens以上。以往的專利申請(qǐng)流程通常為發(fā)明人依據(jù)發(fā)明的具體可實(shí)施內(nèi)容撰寫專利技術(shù)底稿委托專利代理人起草專利申請(qǐng)文件。
專利起草是一個(gè)復(fù)雜的知識(shí)密集型任務(wù),需要專利代理人對(duì)專利法熟悉并且具備該發(fā)明所屬技術(shù)領(lǐng)域的知識(shí),從而能夠完成對(duì)發(fā)明人技術(shù)底稿的審查和規(guī)范化重寫。
目前這一過程仍然完全由人工手動(dòng)完成,具有較高的人力成本和時(shí)間成本,從技術(shù)交底書到正式向?qū)@痔峤坏臅r(shí)間通常在一個(gè)月以上,無法有效保護(hù)迭代更新較快的技術(shù)領(lǐng)域的相關(guān)發(fā)明。
專利起草任務(wù)Draft2Patent
以往的專利撰寫任務(wù)通常關(guān)注專利文件內(nèi)部文本的相互轉(zhuǎn)化,例如專利的摘要與權(quán)利要求之間的相互轉(zhuǎn)化等。
研究人員通過模擬真實(shí)場(chǎng)景中的專利撰寫工作,引入了一項(xiàng)新穎的專利起草任務(wù)Draft2Patent,將發(fā)明人技術(shù)底稿轉(zhuǎn)化為完整的專利文件,提升專利代理人的專利撰寫效率。
該任務(wù)主要有兩個(gè)主要困難:
- 底稿和完整專利的平均長(zhǎng)度分別為4,000 Tokens和17,000 Tokens。
- 一份高質(zhì)量專利需要具有專利性(非顯而易見性、有用性、新穎性以及符合專利法律規(guī)范),同時(shí)需要滿足專業(yè)技術(shù)領(lǐng)域和法律的相關(guān)規(guī)范。
研究人員構(gòu)建了Draft2Patent任務(wù)對(duì)應(yīng)的基準(zhǔn)數(shù)據(jù)集D2P,其中包含1,933條底稿專利文本對(duì)和其他元數(shù)據(jù),并將其劃分為包含1,500條數(shù)據(jù)的訓(xùn)練集,133條數(shù)據(jù)的驗(yàn)證集和300條數(shù)據(jù)的測(cè)試集。
隨著大語言模型的發(fā)展,基于大語言模型的智能體展現(xiàn)了在知識(shí)密集型領(lǐng)域的意圖理解、規(guī)劃、記憶、重復(fù)思考及任務(wù)執(zhí)行的強(qiáng)大能力。
針對(duì)Draft2Patent任務(wù),研究人員提出了一個(gè)新穎的多智能體自動(dòng)化專利起草框架AutoPatent,其中使用寫作、規(guī)劃及審查三大類八個(gè)智能體在短組件生成、專利寫作規(guī)劃樹構(gòu)建(PGTree)、參考-審查增強(qiáng)生成(RRAG)三步驟的驅(qū)動(dòng)下完成完整專利的撰寫。
該篇文章的主要貢獻(xiàn)有:
- 自動(dòng)化生成,提升專利撰寫效率
通過自動(dòng)化生成專利文檔,文章提出的AutoPatent框架顯著提高了專利撰寫的效率,能夠在十分鐘左右的時(shí)間內(nèi)生成一篇完整的專利文檔,減輕了專利代理人和發(fā)明者的工作負(fù)擔(dān),使他們能夠更專注于創(chuàng)新和專利內(nèi)容的優(yōu)化。
- 多智能體協(xié)作,提升專利質(zhì)量
AutoPatent框架通過多智能體協(xié)作,其中規(guī)劃智能體構(gòu)建PGTree(Patent Writing Guideline Tree,專利寫作指南樹),專利詳細(xì)描述寫作智能體與審查智能體基于RRAG(Reference-Review-Augmented Generation,參考審查增強(qiáng)生成)協(xié)作撰寫占據(jù)專利文本80%以上的詳細(xì)描述部分,確保生成的專利文檔符合法律和技術(shù)標(biāo)準(zhǔn)。這提高了專利的合規(guī)性和保護(hù)范圍,增加了專利被授權(quán)的可能性。
- 由此及彼,推動(dòng)知識(shí)產(chǎn)權(quán)服務(wù)創(chuàng)新
文章提出的Draft2Patent任務(wù)和AutoPatent框架為知識(shí)產(chǎn)權(quán)服務(wù)領(lǐng)域帶來了新的思路和方法。這有助于推動(dòng)知識(shí)產(chǎn)權(quán)服務(wù)的創(chuàng)新和發(fā)展,提高整個(gè)行業(yè)的服務(wù)水平和競(jìng)爭(zhēng)力。
數(shù)據(jù)集
研究團(tuán)隊(duì)構(gòu)建了D2P基準(zhǔn)數(shù)據(jù)集,包含1,933個(gè)草稿-專利對(duì)和其他專利元數(shù)據(jù)。
由于專利局僅公開授權(quán)專利,而發(fā)明人和專利代理人不會(huì)公開其發(fā)明的底稿。
為此,團(tuán)隊(duì)通過與專業(yè)的專利代理人溝通,構(gòu)建了涵蓋發(fā)明所有相關(guān)信息的五個(gè)問題,對(duì)于單個(gè)專利P,將GPT-4o-mini模擬為發(fā)明人,通過詢問五個(gè)問題得到對(duì)應(yīng)的回答
,并將其與問題組合為底稿。
圖片
為了保證底稿的有效性,研究人員構(gòu)建了對(duì)應(yīng)問題的審查標(biāo)準(zhǔn),通過將GPT-4o模擬為專利審查員來評(píng)估每個(gè)答案是否能夠準(zhǔn)確描述該發(fā)明,并且通過人工篩選后,獲得了1,933條高質(zhì)量的專利底稿數(shù)據(jù)。
D2P數(shù)據(jù)集中不僅包含底稿專利文本對(duì),還包含底稿與其他專利元數(shù)據(jù)文本對(duì),如底稿標(biāo)題文本對(duì)等用于智能體的微調(diào),同時(shí)還構(gòu)建了底稿-PGTree文本對(duì)數(shù)據(jù),用于微調(diào)規(guī)劃智能體。
圖片
對(duì)于單個(gè)專利P,研究人員將GPT-4o-mini模擬為人工智能助手總結(jié)專利P的詳細(xì)描述中每一部分的內(nèi)容,并將其組織構(gòu)建為預(yù)設(shè)的雙層多路專利寫作規(guī)劃樹的數(shù)據(jù)結(jié)構(gòu)。
統(tǒng)計(jì)數(shù)據(jù)集中各部分的文本長(zhǎng)度后,可以看到標(biāo)題、摘要、權(quán)利要求、總結(jié)及技術(shù)背景等內(nèi)容的長(zhǎng)度小于2000 Tokens,而專利的詳細(xì)描述部分長(zhǎng)度超過了14,000 Tokens,占據(jù)完整專利的80%以上,生成高質(zhì)量專利詳細(xì)描述是本基準(zhǔn)的一大挑戰(zhàn)。
自動(dòng)化專利撰寫框架AutoPatent
研究人員提出了一個(gè)新穎的多智能體自動(dòng)化專利起草框架AutoPatent,其中包含三大類八個(gè)智能體在三大步驟的驅(qū)動(dòng)下完成完整專利的撰寫。
圖片
智能體
在AutoPatent框架中,定義了八個(gè)智能體,并將其分為三類:寫作智能體、規(guī)劃智能體及審查智能體。
寫作智能體:由于專利的各個(gè)部份之間存在著一定的格式及風(fēng)格差異,如專利的摘要一般較短而權(quán)利要求通常為具有編號(hào)的結(jié)構(gòu)化文本。將六個(gè)寫作智能體分為兩大類,即短文本寫作者和詳細(xì)描述寫作者。
規(guī)劃智能體:由于專利的詳細(xì)描述的平均長(zhǎng)度超過14,000 Tokens,為大語言模型一次性生成詳細(xì)描述帶來了困難。通過引入雙層多路的專利寫作規(guī)劃樹PGTree,指導(dǎo)詳細(xì)描述寫作者在RRAG過程中分步生成完整的詳細(xì)描述。
審查智能體:通過模擬真實(shí)場(chǎng)景中的專利撰寫步驟,定義了審查智能體。其需要依據(jù)事先設(shè)定的評(píng)價(jià)規(guī)范完成兩類任務(wù),即發(fā)明人提交新底稿后的質(zhì)量審查和與詳細(xì)描述寫作者協(xié)作評(píng)估詳細(xì)描述的質(zhì)量并提供反饋達(dá)到優(yōu)化的效果。
工作流程
提供了相應(yīng)的邏輯框圖和偽代碼。通過模擬真實(shí)場(chǎng)景中的專利撰寫過程將AutoPatent框架的整體工作流程分為三步。
短組件生成:在Step I中,利用不同的短文本寫作者將專利底稿并行轉(zhuǎn)化為對(duì)應(yīng)的短文本。之后將這些短文本與專利底稿共同組成參考(Reference, R)。
專利寫作規(guī)劃樹構(gòu)建:在Step II中,利用規(guī)劃智能體構(gòu)建該底稿對(duì)應(yīng)的PGTree。PGTree是一個(gè)雙層多路樹,將詳細(xì)描述的生成任務(wù)拆解為雙層級(jí)的大綱式多步生成任務(wù)。第一層節(jié)點(diǎn)提供該部分的整體概述,第二層節(jié)點(diǎn)向詳細(xì)描述寫作者提供每個(gè)子部分的具體指令。
圖片
參考-審查增強(qiáng)生成:在Step III中,詳細(xì)描述寫作者首先根據(jù)PGTree中二層節(jié)點(diǎn)的具體寫作指令從參考R中檢索對(duì)該部分寫作有用的信息,提升內(nèi)容的一致性和可靠性。詳細(xì)描述寫作者之后根據(jù)二層節(jié)點(diǎn)的具體寫作指令和檢索到的內(nèi)容生成子部分的內(nèi)容,審查智能體將主動(dòng)介入依據(jù)審查標(biāo)準(zhǔn)判斷生成的子部分的質(zhì)量,并通過與詳細(xì)描述寫作者的多輪交互完成子部分的內(nèi)容優(yōu)化,直至通過審查。
實(shí)驗(yàn)結(jié)果
研究人員采用了n-gram基于的BLEU指標(biāo)和ROUGE-1、ROUGE-2、ROUGE-L指標(biāo)作為客觀指標(biāo),同時(shí)提出了一種新的逆重復(fù)率(IRR)指標(biāo)來衡量專利文檔中句子的重復(fù)程度,從而去除由于重復(fù)句子過多對(duì)基于n-gram的指標(biāo)的過度獎(jiǎng)勵(lì)。
其中真實(shí)專利的IRR在t=0.2時(shí)為91.33,t=0.4時(shí)為98.57,真實(shí)專利的文本重復(fù)率較低。
圖片
其中基于Jaccard相似度和設(shè)定的閾值超參數(shù)判斷專利文本內(nèi)部句子的重復(fù),函數(shù)f(si, sj)定義為:
圖片
圖片
同時(shí),實(shí)驗(yàn)邀請(qǐng)了三位熟悉專利法和專利撰寫的人類專家對(duì)生成的專利文檔進(jìn)行質(zhì)量評(píng)價(jià)。評(píng)價(jià)標(biāo)準(zhǔn)包括準(zhǔn)確性、全面性、邏輯性、清晰度、連貫性和一致性等六個(gè)維度。
將AutoPatent框架與零樣本提示生成方法和監(jiān)督微調(diào)生成方法進(jìn)行了對(duì)比,以評(píng)估AutoPatent框架的性能。
圖片
實(shí)驗(yàn)結(jié)果顯示,AutoPatent框架在多個(gè)維度上均優(yōu)于基線方法,其中AutoPatent框架使用Qwen2.5-7B作為基座模型時(shí)的性能超過了參數(shù)量更大和能力更強(qiáng)的模型,生成的專利文檔在長(zhǎng)度、內(nèi)容質(zhì)量、重復(fù)率等方面均表現(xiàn)出色。
與此同時(shí),三位人類專家均認(rèn)為基于AutoPatent框架生成的專利文本質(zhì)量好于其他方法。
AutoPatent的出現(xiàn)在未來可能對(duì)知識(shí)產(chǎn)權(quán)行業(yè)產(chǎn)生深遠(yuǎn)影響:
- 專利生成流程重塑:傳統(tǒng)的專利申請(qǐng)流程繁瑣,涉及多次人工審核和修改。AutoPatent通過自動(dòng)化生成和審查流程,將原本需要數(shù)周甚至數(shù)月的時(shí)間縮短至幾小時(shí)或幾天,極大地提高了效率。
- 降低專利書寫難度,促進(jìn)創(chuàng)新:AutoPatent的出現(xiàn)降低專利撰寫難度,當(dāng)專利撰寫變得更為便捷和經(jīng)濟(jì)時(shí),更多的創(chuàng)新想法將有機(jī)會(huì)轉(zhuǎn)化為專利,從而激發(fā)整個(gè)社會(huì)的創(chuàng)新活力。
- 知識(shí)產(chǎn)權(quán)服務(wù)行業(yè)變革:隨著AutoPatent等自動(dòng)化工具的應(yīng)用,知識(shí)產(chǎn)權(quán)服務(wù)機(jī)構(gòu)將不得不探索新的服務(wù)內(nèi)容和模式,如專利數(shù)據(jù)分析、專利價(jià)值評(píng)估等增值服務(wù)。
參考資料:https://arxiv.org/abs/2412.09796