LawLLM:面向美國法律體系的法律大語言模型 原創(chuàng) 精華
摘要
在法律分析這一快速發(fā)展的領域中,由于法律語言的復雜性(通常包含專業(yè)術語、復雜句法和歷史背景),尋找相關案例并準確預測司法結果具有挑戰(zhàn)性。此外,相似案例與判例案例之間的微妙差異需要深厚的法律知識理解。研究人員常常混淆這些概念,導致難以開發(fā)專門技術來有效處理這些細致入微的任務。
本文介紹了法律大語言模型(LawLLM),這是一個專為美國法律領域設計的、能夠應對這些挑戰(zhàn)的多任務模型。LawLLM在相似案例檢索(SCR)、判例案例推薦(PCR)和法律判決預測(LJP)方面表現出色。通過明確區(qū)分判例案例和相似案例,我們提供了關鍵性的概念澄清,為未來研究開發(fā)針對這些任務的專門策略指明了方向。我們?yōu)槊總€任務提出了定制化的數據預處理技術,將原始法律數據轉化為可訓練的格式。
此外,我們還在LawLLM中運用了上下文學習(ICL)和先進的信息檢索方法等技術。評估結果表明,在零樣本和少樣本場景下,LawLLM始終優(yōu)于現有基線模型,提供了無與倫比的多任務能力,填補了法律領域的關鍵空白。代碼和數據可在https://github.com/Tizzzzy/Law_LLM獲取。
1 引言
大語言模型(LLMs)的發(fā)展推動了計算語言學的重大進步,尤其影響了法律分析等領域。鑒于法律語言的特性(包含復雜術語和特定情境的邏輯框架),LLMs在這一領域展現出前所未有的能力[21]。LLMs與法律領域的結合顯著提高了律師和法官等法律從業(yè)者的工作效率,能夠準確解讀他們的自然語言輸入并生成最相關的回應,從而減少了對大量法律文本進行人工審閱的需求。此外,LLMs還能為律師提供新穎的見解,揭示在復雜案件中被忽視的細節(jié)和觀點。法律領域的最新發(fā)展已經展示了LLMs在提升法律判決預測和處理各類法律任務方面的潛力。例如,LM-CompEval-Legal[26]等研究系統(tǒng)評估了LLMs的效能,而PLJP[33]和LoT[11]等項目則專注于整合領域特定模型并推進LLMs對法律推理的理解。
盡管這些模型已展現出前景,但仍存在研究挑戰(zhàn)。首先,這些模型通常只應對單任務挑戰(zhàn)。相比之下,LawLLM創(chuàng)新性地同時支持多個法律任務,能對復雜法律數據集進行更細致的分析,填補了該領域的關鍵空白。其次,法律領域中另一個存在爭議的領域是判例案例與相似案例之間的區(qū)別[22]。為判例案例推薦開發(fā)的模型多種多樣,從基于專家知識的模型到基于自然語言處理的模型[2,16,18,20]。這些方法通常將法律文本轉化為嵌入表示,并在嵌入層面計算相似度,這有助于判例選擇。但我們認為,這種方法更側重于識別具有文本和上下文相似性的相似案例,而非判例案例。
在我們的研究中,我們強調了兩者之間的關鍵區(qū)別。首先,判例案例必須在輸入法律案件之前已經結案,確保其與當前考慮案件的相關性和適用性。其次,判例案例是法官在做出決定時實際考慮過的案例,而不像相似案例可能未被考慮。第三,相似案例在案件敘述或案件類別上具有文本和主題相似性,而判例案例在表面上可能看似無關。還需注意的是,雖然法律案件的判例案例有時可能與相似案例相同,但情況并非總是如此。
本文介紹了法律大語言模型(LawLLM),這是一個能夠執(zhí)行相似案例檢索(SCR)、判例案例推薦(PCR)和法律判決預測(LJP)的多任務LLM。為構建LawLLM,我們使用美國真實法律數據集對Gemma-7B[29]進行指令微調,使其能夠執(zhí)行LJP、PCR和SCR任務。所有三個任務的指令都屬于分類類別。通過這樣做,我們可以有效減少模型的無關和噪聲選項,從而提高其性能。圖1展示了LawLLM的總體構想。LawLLM的開發(fā)還包括三種創(chuàng)新的預處理方法,將非結構化法律數據轉化為可訓練的格式。具體而言,對于LJP,我們從原始數據集中總結和提取判決結果,并應用零樣本和少樣本上下文學習(ICL)[13,36]技術來提升模型性能。在PCR中,LawLLM將真實法律案例的判例關系構建為知識圖譜(KG),將每個案例視為由判例連接連接的獨特實體[25]。此外,SCR任務創(chuàng)建了一個法律案例向量數據庫,并整合了先進的信息檢索(IR)技術[8,12]。
我們的研究將LawLLM定位為法律LLM領域的開創(chuàng)性模型。我們的主要貢獻如下:
- 我們提出了LawLLM,它擅長處理一系列法律任務,包括LJP、PCR和SCR。這種多任務功能對于滿足法律領域多樣化需求至關重要。
- LawLLM區(qū)分了判例案例和相似案例,明確了每個任務的目標。這種澄清使未來研究能夠為這些任務開發(fā)量身定制的策略。
- 實驗結果表明,LawLLM在所有三個任務上都優(yōu)于包括GPT-4模型在內的所有基線模型。這些結果凸顯了LawLLM在法律領域的強大能力。
2 相關工作
法律AI正在顯著提高法律界的效率和效力。AI技術,特別是大語言模型(LLMs),正在引領自動化復雜任務的潮流,如文檔分析、案件預測和法律研究[34,38]。LLMs利用先進算法和數據分析來處理和生成法律文本,從而在速度和準確性上帶來顯著提升[39]。本節(jié)我們將介紹法律AI和LLMs在法律實踐中的各種應用。
2.1 判例案例推薦
判例案例推薦是法律實踐的一個基本方面,因為既往判決會顯著影響當前法律決定。該領域已從早期的基于關鍵詞搜索和手動標注發(fā)展到更復雜的AI驅動模型,提高了檢索效率和上下文相關性。吳等人[34]提出了判例增強法律判決預測框架,將LLMs與領域專業(yè)知識相結合,顯著提高了法律預測準確性。馬等人[17]開發(fā)了結構化法律案例檢索系統(tǒng),利用法律文檔中的結構信息來提高案例搜索精度和上下文相關性。此外,蘇等人[27]提出了Caseformer。這一創(chuàng)新的預訓練框架從大量法律文本語料庫中學習,以優(yōu)化跨多種語言的案例檢索和情境化。
2.2 相似案例檢索
除了判例推薦外,檢索相似案例(即事實或法律問題相似的案例)對于全面法律分析和策略制定至關重要。傳統(tǒng)上,這一過程需要大量人工勞動,專業(yè)人員需要梳理龐大的案例數據庫[17,19]。如今,NLP和機器學習的進步改變了這一任務,允許跨文檔提取和比較語義內容??档热薣14]通過整合關聯知識增強了基于相似性的檢索。這種方法通過利用相似性和關聯分析來優(yōu)化檢索結果,該技術在醫(yī)療診斷和IT服務管理等其他領域也被證明有效。曼達爾等人[19]在印度最高法院數據集上分析了文本相似性技術,發(fā)現TF-IDF等傳統(tǒng)方法優(yōu)于BERT等現代上下文感知模型。吳等人[32]研究了中國司法系統(tǒng)中的語義檢索,開發(fā)了一個為案例生成知識圖譜的模型,以提高審判準確性和公平性。這些技術進步大大簡化了法律研究,使其更加高效和全面。
2.3 法律判決預測
預測法律判決涉及基于對歷史數據和既定法律標準的深入分析來估計潛在判決結果。該領域的初始模型相對簡單,主要依賴無法捕捉法律推理多方面的線性算法。王和金[31]的CNN-BiGRU多任務學習模型通過利用相關法律子任務的共享信息提高了預測準確性。查爾基迪斯等人[3]使用歐洲人權法院數據,通過分層BERT為長法律文本建立了穩(wěn)健的性能基準。魯斯納琴科等人[23]展示了基于注意力的方法可以通過優(yōu)化文檔預處理和競賽背景下的注意力機制來提高系統(tǒng)性能。這些模型不僅能預測結果,還不斷從新案例中學習以提高準確性,展示了LLMs在法律判決預測中的適應性。
2.4 法律領域中的LLMs
在大語言模型(LLMs)發(fā)展之前,研究人員探索了特定領域的預訓練語言模型(PLMs),例如基于Longformer架構處理長中文法律文檔的Lawformer[35]。隨著LLMs受到關注,研究人員發(fā)現像GPT-4這樣的模型能夠成功通過律師資格考試,展示了在法律推理和文本生成方面的強大能力[15]。這一成功促使法律領域專用LLMs的發(fā)展,例如利用對話式AI改善用戶與法律系統(tǒng)交互的Chatlaw[5]。在這方面,SaulLM-7B作為首個專門用于理解和生成法律文本的LLM被推出,利用大量法律語料庫實現了最先進的性能[4]。LLMs的影響超越了特定任務,擴展到更廣泛的法律操作。這些應用范圍從文檔自動化(LLMs協(xié)助起草和審查法律文件)到合規(guī)監(jiān)控(確保符合監(jiān)管標準)[28]。LLMs簡化了非專業(yè)人士的復雜法律流程,降低了獲取法律建議的門檻[9]。LLMs的廣泛應用展示了其在法律領域的廣泛適用性和持續(xù)創(chuàng)新的潛力。
盡管這些當代研究取得了成功,但這些模型主要專注于利用LLMs的理解和能力來執(zhí)行一般性法律問答。然而,LawLLM旨在利用LLMs的理解和學習能力來預測和執(zhí)行法律領域內的特定任務。
3 方法論
在本研究中,我們提出了法律大語言模型(LawLLM),以解決法律領域內的三個關鍵任務:相似案例檢索(SCR)、判例案例推薦(PCR)和法律判決預測(LJP)。我們的方法框架如圖2所示,分為四個獨立部分:數據預處理、SCR處理、PCR處理和LJP處理。
3.1 數據預處理
我們的方法始于從法律數據庫系統(tǒng)收集案例數據,記為D。我們確保所有收集的原始案例數據di∈D包含以下各種信息:
di={標題,日期,法官,原告,原告律師,被告,被告律師,案件詳情,判例關系}。
如圖2左上角所示,數據預處理包括三個主要步驟:
圖2:我們的法律大型語言模型(LawLLM)概覽:數據預處理位于左上角,以綠色顯示;相似案例檢索處理位于右上角,以黃色顯示;判例推薦位于左下角,以紅色顯示;法律判決預測位于右下角,以藍色顯示。
步驟1. 鑒于案件詳情中文本內容的龐大規(guī)模及其通常隱含的判決結果,我們使用GPT-4[1]模型提取核心信息并總結每個案例。這一步驟減少了信息過載,并確保我們的數據集適應Gemma的約束,特別是令牌大小限制。GPT-4預處理指令如下:
我有一個法律案例描述,需要兩個不同的信息:
1.摘要:請?zhí)峁┌讣脑敿氄攸c關注事實和事件。排除任何關于判決結果的信息。
2.判決:說明案件的判決結果,考慮以下類別:
- 原告勝訴
- 被告勝訴
- 和解
- 案件駁回
- 不確定
如果提到了判決結果,請僅用所選類別回答。如果結果未明確提及或無法從給定信息中推斷,請僅回答"不確定"。
請按以下格式回復:
對于摘要,以"Answer 1:"開頭
對于判決,以"Answer 2:"開頭
以下是案件描述:
[案件描述...]
此步驟的輸出包括摘要案例和標記的判決結果,格式如下:
{案件摘要,判決}=LLM(案件詳情,最大令牌|di)。 (2)
對于每個法律案例di,我們將數據重新組織為新格式d′i,定義為:
d′i={標題,日期,法官,原告,原告律師,被告,被告律師,案件摘要}。
D′={(d′1,v′1),(d′2,v′2),...,(d′n,v′n)}. (4)
在將D′分為訓練和測試數據時存在一些約束。我們確保所有法律案例至少具有五個判例關系。為確保訓練平衡,訓練數據集包含25%的以下每個類別:原告勝訴、被告勝訴、和解和案件駁回。我們還確保所有測試法律案例至少具有五個與訓練數據集連接的判例關系,更多解釋見第4.1節(jié)數據劃分。
步驟2. 在步驟1之后,所有訓練法律案例d′i使用OpenAI嵌入模型轉化為高維向量。該向量數據庫隨后用于基于語義和上下文相似性檢索前k個相似案例。
步驟3. 此步驟涉及將訓練數據集中的判例案例關系轉化為知識圖譜(KG)。定義為KG=(E,R,L),其中E表示實體,R表示二元關系(表示判例關系),L?E×R×E表示構成圖邊的三元組集合。每個三元組(es,r,et)∈L表示通過關系r從源實體es到目標實體et的有向邊。KG數據結構簡化了識別相關判例案例的復雜任務,將其轉化為實體預測問題,即給定查詢(es,r,?),模型將預測缺失的實體。
我們進一步為SCR、PCR和LJP任務定制數據處理,確保LawLLM的穩(wěn)健和有效實施。
3.2 相似案例檢索
如圖2右上角所示,SCR過程分為兩個階段:訓練(步驟1-2)和測試(步驟3-4)。
訓練階段。在訓練期間,每個訓練案例d′i輸入到向量數據庫,生成前10個候選案例。這些案例隨后按隨機順序排列,并格式化為SCR訓練指令。以下是SCR模型輸入的示例:
指令:
您是一位法律專家,專門比較用戶提供的法律案例與候選法律案例列表,其中包括標題和內容。您的主要功能是根據提供的描述,從列表中識別并輸出最相似案例的標題。
您應僅輸出案例標題,不包含任何其他信息。
考慮以下選項:
選項1:
[案例1...]
選項2:
選項10:
[案例10...]
輸入:
[輸入案例...]
在此場景中,SCR任務指令屬于分類類別,為模型提供10個案例以選擇最相似的一個。需要注意的是,前0個相似案例是案例d′i本身,因此在實際操作中,我們從向量數據庫中檢索前1到前10個相似案例,此選擇中的前1個案例作為此訓練任務的真實標簽。
測試階段。測試階段與訓練過程類似,我們最初從向量數據庫中檢索前10個相似案例。然而,在測試期間,我們檢索排名從前0到前9的案例,因為測試案例本身不包含在向量數據庫中。模型的預期響應取決于我們使用的評估指標:前1、前3和前5。對于前1指標,我們期望LawLLM將最相似案例識別為第一個結果。前3指標評估模型的答案是否在前三個檢索到的候選案例中,而前5指標將此評估擴展到前五個候選案例。
3.3 判例案例推薦
LawLLM中的判例案例推薦(PCR)采用了一種獨特方法,利用判例案例知識圖譜(KG),這與通常推測潛在判例關系的傳統(tǒng)PCR方法不同。我們的系統(tǒng)依賴于已確認的判例對,如圖2左下角所示,其中步驟1和2構成訓練階段,步驟3-5是測試階段。
訓練階段。從先前建立的KG中,對于每個確認的三元組(es,r,et),我們使用BERT嵌入[7]評估各種案例特征(如法官、案件詳情、原告或被告)之間的相似性,記為{F1,F2,...Fj}。我們計算每個特征對F1i和F2i的相似性分數Si,如下:
Si=sim(BERT(F1i),BERT(F2i)), i∈{1?j}
所有特征中最高的相似性分數決定了其判例關系的主要因素:
主要因素=max(S1,S2,...,Sj).
在創(chuàng)建訓練輸入時,我們?yōu)槟P吞峁┛偣?0個選項。真實判例案例et隨機放置在這些選項中,其他9個選項填充來自向量數據庫的相似但非判例案例。此設置旨在教導模型文本相似性不一定意味著判例關系。模型的預期輸出包括正確的判例案例et及其選擇理由(即哪個主要因素導致此判例關系)。以下是模型輸入的示例:
指令:
您是一位法律專家,專門比較用戶提供的法律案例與候選法律案例列表,其中包括標題和內容。您的主要功能是根據提供的描述,從列表中識別并輸出判例案例。
您應僅輸出推理過程和案例標題。
考慮以下選項:
選項1:
[案例1...]
選項2:
選項10:
[案例10...]
輸入:
[輸入案例...]
測試階段。對于每個測試案例,由于我們確保訓練數據集中至少存在五個判例案例,我們可以從KG(由訓練數據集構建)中識別k個判例案例作為真實標簽,其中k與前k評估指標一致。對于前1指標,選擇一個真實判例案例,而對于前3和前5指標,分別選擇3個和5個真實標簽。剩余的10?k個位置填充相似案例。然后,模型的任務是從k個判例案例中選擇一個,并解釋其選擇背后的推理。
3.4 法律判決預測
法律判決預測(LJP)處理利用數據預處理階段構建的數據集D′。該數據集將每個處理后的法律案例d′i與其對應的判決v′i配對。如圖2右下角所示,訓練階段包括步驟1,測試階段包括其余步驟。
訓練階段。我們使用(d′i,v′i)建立一個四分類訓練輸入,原告勝訴、被告勝訴、和解或案件駁回。每個案例對應的判決v′i作為訓練標簽。以下是模型輸入的示例:
指令:
您是一位法律專家,專門預測法律案例的結果。利用您的內部知識庫預測判決。您的主要功能是預測用戶提供的法律案例的可能判決。
您應僅輸出判決結果,不包含任何其他信息。
考慮以下選項:
- 被告勝訴
- 原告勝訴
- 和解
- 案件駁回
輸入:
[輸入案例...]
測試階段。在測試階段,我們在零樣本和少樣本上下文學習(ICL)場景下評估LawLLM。在少樣本ICL中,我們?yōu)槊總€測試案例d′i增強額外的上下文信息,一個相似案例和一個判例案例。其判例案例來自我們的KG,隨機選擇一個包含在測試輸入中。同時,從向量數據庫中檢索一個最相似案例。這種方法確保模型的預測受到相關法律判例和相似案例事實的影響,從而提高判決預測的準確性和可靠性。
3.5 統(tǒng)一模型微調
我們的方法涉及對LawLLM采用統(tǒng)一的微調策略,利用包含三個任務的組合數據集。該數據集記為Datasetcombined=LJP⊕PCR⊕SCR。我們采用前沿的4位量化低秩適應(LoRA)技術對Gemma模型進行指令微調。我們在LoRA期間使用交叉熵損失函數L。它計算模型預測的令牌概率與預期輸出序列中實際令牌概率之間的差異。在以下方程中,n表示預期輸出序列的長度,x表示輸入指令,yi表示預期輸出序列中的第i個令牌。
4 實驗
在本節(jié)中,我們進行實驗以評估LawLLM在三個任務上的性能:相似案例檢索(SCR)、判例案例推薦(PCR)和法律判決預測(LJP)。
4.1 實驗設置
數據集。我們在CaseLaw數據集上進行實驗,該數據集由哈佛法學院圖書館創(chuàng)新實驗室作為CaseLaw項目[10]啟動。該數據庫包含來自美國各州和聯邦法院的廣泛案例。該項目主要致力于通過其案例訪問項目(CAP)實現美國法律信息的民主化訪問,旨在提供免費和公開的訪問。我們實驗中使用的CaseLaw數據集的統(tǒng)計數據如表1所示。
表1:數據集統(tǒng)計
評估指標。如前所述,我們采用前k指標來評估SCR和PCR任務的性能。具體來說,我們使用前1、前3和前5指標。這些指標衡量模型從10個選項池中識別正確答案的精確度。例如,前1指標要求模型返回前一個選擇作為答案。前3和前5指標提供更多靈活性,允許正確答案在前三個或前五個選擇中的任何位置。
除了前k指標外,我們還使用"未找到"指標評估模型的幻覺率。該指標跟蹤完全虛構且與10個給定選擇不匹配的響應比例。通過測量"未找到"率,我們旨在了解模型產生與提供選項無關答案的頻率,從而洞察其可靠性。
對于LJP任務,我們采用準確率和F1分數[24]指標來衡量模型的性能。準確率計算所有案例中正確預測判決的比例,提供了整體預測性能的直接度量。F1分數范圍從0到1,將精確率和召回率結合為單個調和平均值,提供了模型有效性的平衡評估。
數據劃分。如前所述,我們的數據根據三個約束進行劃分。
- 約束1:對于PCR,我們采用前k評估指標,這意味著每個案例必須至少具有五個判例案例,允許我們識別k個真實標簽。
- 約束2:我們必須確保在評估測試案例時,其真實判例案例可以在由訓練案例形成的知識圖譜中找到。因此,每個測試案例必須至少在訓練數據中存在五個判例案例。
- 約束3:為確保法律判決預測(LJP)的平衡模型訓練,訓練數據的判決分布應包含每個可能結果的25%:原告勝訴、被告勝訴、和解和駁回。
這些方法導致總共1,000,000個案例用于訓練,200,000個案例用于測試。
比較基線。我們的模型針對包括LLaMa2-7b[30]、Gemma-7b[29]、Vicuna-13b[37]和Guanaco-13b[6]在內的先進基線進行評估,以及更大更先進的GPT-3.5和GPT-4模型[1]。每個模型都經過相同的測試階段,以確保在法律領域內對其多任務能力進行一致和公平的比較。
實現細節(jié)。我們使用A40 GPU對模型進行了10個epoch的訓練。為確保兼容性,我們監(jiān)控輸入令牌大小,將其限制在4096個令牌以內,以符合Gemma的最大令牌容量。此外,我們將模型的dropout率配置為0.1,并將學習率設置為2e^{-4}。
4.2 相似案例檢索結果
根據表2,LawLLM在所有類別中都優(yōu)于基線模型。具體而言,它在前1、前3和前5檢索率中實現了最高的準確率,分別為29.8%、63.2%和81.6%。值得注意的是,它還表現出最小的幻覺,如0.1%的未找到率所示。
表2:SCR測試結果
相比之下,GPT-4表現出強大的性能,前1、前3和前5準確率分別為27.5%、52.5%和70.5%,且未找到率低至0.5%。GPT-3.5也表現良好,尤其在前3和前5指標中。另一方面,像LLaMa2-7b和Guanaco-13b這樣的模型顯示出更高的未找到率,表明傾向于產生幻覺。
結果強調了我們的LawLLM模型在準確檢索相似案例同時最小化生成無關或不存在案例風險方面的有效性。
4.3 判例案例推薦結果
根據表3,LawLLM模型再次優(yōu)于其他基線方法。它在前1率31.8%、前3率59.7%和前5率83.2%方面取得了最佳結果。此外,LawLLM模型表現出較低的未找到率0.1%。
在基線模型中,GPT-4表現強勁,在前1、前3和前5指標中具有高準確率,同時未找到率非常低,表明推薦可靠且準確。相比之下,像LLaMa2-7b和Guanaco-13b這樣的模型顯示出更高的未找到率,突顯了提供相關案例推薦的挑戰(zhàn)??傮w結果表明LawLLM模型在PCR任務中的有效性,在準確性和可靠性方面都超過了基線模型。
表3:PCR測試結果
比較SCR和PCR結果時,一個值得注意的發(fā)現是大多數基線模型在PCR任務中與SCR相比表現出性能下降。例如,GPT-4模型在SCR前k和"未找到"指標中得分為27.4%、52.6%、70.8%、0.5%,而在PCR任務中其得分降至26.2%、51.4%、69.7%和0.7%。這種下降突顯了識別判例案例比相似案例更困難,因為模型在確定判例關系時不能僅依賴文本相似性。相反,它們必須考慮法律相關性等細微因素。這種性能差異強化了我們先前的斷言,即判例案例與相似案例不同,強調了在法律領域中區(qū)分這兩個概念的重要性。
我們進行了一項分析,以確定在top-1、top-3和top-5設置下,LawLLM在確定判例關系時主要考慮的因素。該分析涉及將我們的模型選擇每個因素作為主要決定因素的頻率與真實標簽(GT)分布進行比較。如表4所示,GT分布主要偏向"案件詳情"因素,對其他因素也有一定偏向。在top-1場景中,當10個選項中有1個正確判例案例和9個相似案例時,我們的模型強烈關注"案件詳情"因素。這種偏向可能源于GT分布對"案件詳情"的重視,導致我們的模型在面對眾多作為潛在干擾的相似案例時優(yōu)先考慮這一因素。然而,隨著正確答案池擴展到top-3和top-5場景中的3個和5個,LawLLM開始略微多樣化其關注點,包括其他因素,盡管"案件詳情"仍然占主導地位。這一趨勢表明,隨著正確答案數量的增加,LawLLM會調整其關注點,采取更平衡的方法,同時仍反映GT數據的主要傾向。
4.4 法律判決預測結果
如表5所示,LawLLM在LJP任務的零樣本和少樣本場景中均超越了所有基線方法。在零樣本場景中,LawLLM的準確率為0.636,F1分數為0.591,顯著優(yōu)于排名第二的GPT-4模型(準確率0.573,F1分數0.563)。在少樣本場景中,LawLLM保持了其卓越性能,準確率達到0.794,F1分數為0.758。
這些結果相較于最接近的競爭對手GPT-4(準確率0.732,F1分數0.712)有顯著提升。此外,所有模型在少樣本上下文學習(ICL)場景中的表現均優(yōu)于零樣本設置。例如,LLaMA2-7b的準確率從0.235提升至0.473,F1分數從0.239提升至0.455。這一模式表明,所有模型都能通過結合少量ICL示例受益,從而更好地理解任務。
5. 結論與未來工作
在本研究中,我們提出了法律大語言模型(LawLLM),這是一個專為美國法律領域設計的多任務LLM。通過為每個任務定制獨特的數據處理技術,LawLLM能夠有效處理相似案例檢索(SCR)、判例案例推薦(PCR)和法律判決預測(LJP)。此外,我們強調了判例關系與文本相似性之間的關鍵區(qū)別,為未來開發(fā)任務專用模型的研究提供了重要見解。我們的實驗結果一致表明,LawLLM優(yōu)于現有基線模型,展現了其卓越的多任務能力。
未來,我們計劃通過納入更多法律任務來擴展LawLLM的范圍,進一步提升其多功能性和實際適用性。這將涉及探索法律分析中的新興挑戰(zhàn),并整合反映多樣化法律背景的新數據集。此外,我們計劃改進數據處理技術和上下文學習方法,以增強模型對法律細節(jié)和判例的理解。
本文轉載自公眾號AIRoobt ,作者:Dong Shu等
原文鏈接:??https://mp.weixin.qq.com/s/5lPoaiOz7dVo6GsgE86aqw??
