自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

使用BERT的LLM提取摘要

譯文
人工智能
提取摘要是自然語言處理領(lǐng)域的一項重要技術(shù),人們需要了解如何使用BERT摘要從文本語料庫中提取關(guān)鍵句子。本文深入探討了提取摘要的基本原理和應(yīng)用,并將研究大型語言模型的作用,特別是BERT(來自Transformers的雙向編碼器表示)以增強該過程。

想了解更多AIGC的內(nèi)容,請訪問:

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

在當(dāng)今快節(jié)奏的世界里,充斥著太多的信息,并且難以處理。人們越來越習(xí)慣于在更短的時間內(nèi)接收更多的信息,當(dāng)他們不得不閱讀大量的文件或書籍時,可能會感到沮喪。這就該提取摘要發(fā)揮重要作用了。為了提取文章的核心內(nèi)容,這個過程從文章、頁面或段落中提取關(guān)鍵句子,為人們提供一些要點的快照。

對于那些無需逐字閱讀就能理解大型文檔的人來說,提取摘要是游戲規(guī)則的改變者。

本文深入探討了提取摘要的基本原理和應(yīng)用,并將研究大型語言模型的作用,特別是BERT(來自Transformers的雙向編碼器表示)以增強該過程。本文還將包括一個使用BERT進行提取摘要的實踐教程,展示它在將大量文本精簡成信息豐富的摘要方面的實用性。

理解提取摘要

提取摘要是自然語言處理和文本分析領(lǐng)域的一項重要技術(shù)。提取摘要可以從原文中精心挑選出關(guān)鍵的句子或短語,并將其組合起來,形成一個簡潔而翔實的摘要。這包括仔細地篩選文本,以確定所選文章中最關(guān)鍵的元素和中心思想或論點。

在抽象摘要涉及生成源材料中通常不存在的全新句子的情況下,提取摘要則堅持原始文本。它不會改變或改寫句子,而是準(zhǔn)確地提取句子原義,保持原來的措辭和結(jié)構(gòu)。這樣,摘要就能與源材料的基調(diào)和內(nèi)容保持一致。在信息的準(zhǔn)確性和保留作者的原始意圖成為優(yōu)先事項的情況下,提取摘要技術(shù)是非常有益的。

它有很多不同的用途,例如總結(jié)新聞文章、學(xué)術(shù)論文或長篇報告。這個過程有效地傳達了原始內(nèi)容的信息,而不會出現(xiàn)轉(zhuǎn)述時可能出現(xiàn)的潛在偏見或重新解釋。

抽取摘要如何使用大型語言模型(LLM)?

1.文本分析

這個初始步驟包括將文本分解為基本元素,主要是句子和短語。目標(biāo)是識別基本單元(在這種情況下是句子),算法稍后將評估并包含在摘要中,例如剖析文本以了解其結(jié)構(gòu)和單個組件。

例如,該模型將分析一個包含四句話的段落,將其分解為以下四個句子。

  • 建于古埃及的吉薩金字塔巍然屹立了數(shù)千年。
  • 它們是為法老建造的陵墓。
  • 大金字塔是最著名的金字塔。
  • 這些金字塔是建筑的智慧象征。

2.特征提取

在這個階段,算法需要分析每個句子,以識別特性(Characteristics)或特征(Features),這些特性或特征可能表明它們對整個文本的重要性。常見的特征包括關(guān)鍵詞與短語的頻率和重復(fù)使用、句子的長度、它們在文本中的位置及其含義,以及對文本主題中心的特定關(guān)鍵詞或短語的存在。

以下是一個大型語言模型(LLM)如何對第一句話進行特征提取的例子:“吉薩金字塔,建于古埃及,巍然屹立了數(shù)千年?!?/span>

3.對句子進行評分

每個句子都會根據(jù)其內(nèi)容進行評分。這個分數(shù)反映了一個句子在整個文本中的重要性。得分更高的句子被認為更有分量或相關(guān)性。

簡單地說,這個過程對每個句子的潛在意義進行評估,對整個文本進行總結(jié)。

4.選擇與聚合

最后一個階段是選擇得分最高的句子,并將它們匯編成摘要。如果認真處理,可以確保摘要保持連貫,并能全面代表原文的主要思想和主題。

為了創(chuàng)建有效的摘要,算法必須平衡包括重要句子的需求,這些句子必須簡潔,避免冗余,并確保所選句子提供對整個原文的清晰和全面的概述。

建于古埃及的吉薩金字塔巍然屹立了數(shù)千年。它們是為法老建造的陵墓。這些金字塔是建筑智慧的象征。

這是一個非?;A(chǔ)的例子,從總共4個句子提取了3個句子,以獲得最佳的整體概括。多讀一個句子并沒有壞處,但如果文本變長了怎么辦?例如有三個段落的文本?

如何運行BERT LLM提取摘要

步驟1:安裝和導(dǎo)入必要的軟件包

首先,利用預(yù)訓(xùn)練的BERT模型。不要任意使用一個BERT模型;與其相反,將關(guān)注BERT提取摘要生成器。這個特殊的模型已經(jīng)針對提取摘要中的專門任務(wù)進行了微調(diào)。

!pip install bert-extractive-summarizer  
from summarizer import Summarizer

步驟2

從Python中的摘要器導(dǎo)入的Summarizer()函數(shù)是一個提取文本摘要工具。它使用BERT模型從更大的文本中分析和提取關(guān)鍵句子。該功能的目的是保留最重要的信息,提供原始內(nèi)容的精簡版本。它通常用于高效地總結(jié)冗長的文檔。

model = Summarizer()

步驟3:導(dǎo)入文本

在這里,將導(dǎo)入想要測試模型的任何文本。為了測試這個提取摘要模型,使用ChatGPT 3.5生成文本,并提示:“提供一個關(guān)于GPU歷史和當(dāng)今使用方式的三段摘要?!?/p>

text = "The history of Graphics Processing Units (GPUs) dates back to the early 1980s when companies like IBM and Texas Instruments developed specialized graphics accelerators for rendering images and improving overall graphical performance. However, it was not until the late 1990s and early 2000s that GPUs gained prominence with the advent of 3D gaming and multimedia applications. NVIDIA's GeForce 256, released in 1999, is often considered the first GPU, as it integrated both 2D and 3D acceleration on a single chip. ATI (later acquired by AMD) also played a significant role in the development of GPUs during this period. The parallel architecture of GPUs, with thousands of cores, allows them to handle multiple computations simultaneously, making them well-suited for tasks that require massive parallelism. Today, GPUs have evolved far beyond their original graphics-centric purpose, now widely used for parallel processing tasks in various fields, such as scientific simulations, artificial intelligence, and machine learning.  Industries like finance, healthcare, and automotive engineering leverage GPUs for complex data analysis, medical imaging, and autonomous vehicle development, showcasing their versatility beyond traditional graphical applications. With advancements in technology, modern GPUs continue to push the boundaries of computational power, enabling breakthroughs in diverse fields through parallel computing. GPUs also remain integral to the gaming industry, providing immersive and realistic graphics for video games where high-performance GPUs enhance visual experiences and support demanding game graphics. As technology progresses, GPUs are expected to play an even more critical role in shaping the future of computing."

以下是代碼塊中沒有包括它的文本:“圖形處理單元(GPU)的歷史可以追溯到20世紀(jì)80年代初,IBM和德州儀器等公司當(dāng)時開發(fā)了專門的圖形加速器,用于渲染圖像和提高整體圖形性能。然而,直到20世紀(jì)90年代末和21世紀(jì)初GPU才隨著3D游戲和多媒體應(yīng)用的出現(xiàn)而嶄露頭角。NVIDIA公司的GeForce 256于1999年發(fā)布,通常被認為是全球第一款GPU,因為它將2D和3D加速功能都集成在一個芯片上。ATI公司(后來被AMD公司收購)在這一時期的GPU開發(fā)中也發(fā)揮了重要作用。

GPU的并行架構(gòu)有數(shù)千個核心處理器,使它們能夠同時處理多個計算,非常適合需要大規(guī)模并行性的任務(wù)。如今,GPU已經(jīng)遠遠超出了其最初以圖形為中心的用途,現(xiàn)在被廣泛用于各種領(lǐng)域的并行處理任務(wù),例如科學(xué)模擬、人工智能和機器學(xué)習(xí)。金融、醫(yī)療保健和汽車工程等行業(yè)利用GPU進行復(fù)雜的數(shù)據(jù)分析、醫(yī)學(xué)成像和自動駕駛汽車開發(fā),展示了其超越傳統(tǒng)圖形應(yīng)用程序的多功能性。

隨著技術(shù)的進步,現(xiàn)代GPU不斷突破計算能力的極限,通過并行計算在不同領(lǐng)域?qū)崿F(xiàn)突破。GPU仍然是游戲行業(yè)不可或缺的一部分,為視頻游戲提供身臨其境和逼真的圖形。高性能GPU增強了視覺體驗,并支持要求苛刻的游戲圖形。隨著技術(shù)的進步,GPU有望在塑造計算的未來方面發(fā)揮更關(guān)鍵的作用?!?/span>

步驟4:執(zhí)行提取摘要

最后,將執(zhí)行Summary函數(shù)。這需要兩個輸入:需要進行摘要的文本和所需的摘要句子數(shù)。經(jīng)過處理后,它將生成一個提取摘要,然后將顯示該摘要。

# Specifying the number of sentences in the summary   
summary = model(text, num_sentences=4)    
print(summary)

摘要輸出:

圖形處理單元(GPU)的歷史可以追溯到20世紀(jì)80年代早期,IBM和德州儀器等公司當(dāng)時開發(fā)了專門用于渲染圖像和提高整體圖形性能的圖形加速器。NVIDIA公司于1999年發(fā)布的GeForce 256通常被認為是第一款GPU,因為它在單個芯片上集成了2D和3D加速功能。如今,GPU已經(jīng)遠遠超出了其最初以圖形為中心的目的,現(xiàn)在廣泛用于各種領(lǐng)域的并行處理任務(wù),例如科學(xué)模擬、人工智能和機器學(xué)習(xí)。隨著技術(shù)的進步,GPU有望在塑造未來的計算中發(fā)揮更加關(guān)鍵的作用。

該模型從龐大的文本語料庫中提取了4個最重要的句子來生成這個摘要!

使用大型語言模型提取摘要的挑戰(zhàn)

語境理解局限性

雖然大型語言模型(LLM)在處理和生成語言方面很精通,但它們對語境的理解,尤其是對較長的文本的理解是有限的。大型語言模型(LLM)可能會錯過細微差別或無法識別文本的關(guān)鍵方面,從而導(dǎo)致摘要不那么準(zhǔn)確或相關(guān)。語言模型越高級,摘要就越好。

訓(xùn)練數(shù)據(jù)偏差

大型語言模型(LLM)從包括互聯(lián)網(wǎng)在內(nèi)的各種來源匯編的大量數(shù)據(jù)集中學(xué)習(xí)。這些數(shù)據(jù)集可能包含偏差,大型語言模型(LLM)可能會無意中學(xué)習(xí)并在摘要中復(fù)制這些偏差,從而導(dǎo)致扭曲或不公平的表示。

處理專業(yè)或技術(shù)語言

雖然大型語言模型(LLM)通常接受廣泛的一般文本培訓(xùn),但它們可能無法準(zhǔn)確掌握法律、醫(yī)學(xué)或其他高技術(shù)領(lǐng)域的專業(yè)或技術(shù)語言。這可以通過提供更專業(yè)和技術(shù)的文本來緩解。缺乏專業(yè)術(shù)語的培訓(xùn)會影響在這些領(lǐng)域使用摘要的質(zhì)量。

結(jié)論

很明顯,提取摘要不僅僅是一個方便的工具;在信息飽和的時代,其重要性日益增長。通過利用BERT等技術(shù)的力量,可以看到復(fù)雜的文本如何被提煉成易于理解的摘要,這節(jié)省了人們的時間,并幫助他們進一步理解被總結(jié)的文本。

無論是學(xué)術(shù)研究、商業(yè)見解,還是在技術(shù)先進的世界里保持信息靈通,提取摘要都是一種實用的方法,可以在信息海洋中導(dǎo)航。隨著自然語言處理的不斷發(fā)展,像提取摘要這樣的工具將變得更加重要,幫助人們快速找到并理解在這個分秒必爭的世界中最重要的信息。

原文標(biāo)題:Extractive Summarization With LLM Using BERT,作者:Kevin Vu

鏈接:https://dzone.com/articles/extractive-summarization-with-llm-using-bert。

想了解更多AIGC的內(nèi)容,請訪問:

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2024-11-12 16:17:59

PDF提取Python

2023-11-17 22:55:09

量化模型

2024-07-03 09:38:35

LLM人工智能

2020-10-27 14:40:56

架構(gòu)運維技術(shù)

2023-06-30 09:00:00

Falcon LLM開源

2024-07-31 08:00:00

2024-08-06 08:16:05

2023-11-27 09:00:00

GPTQ大型語言模型

2024-07-29 08:09:36

BERT大型語言模型LLM

2024-10-17 08:10:02

2024-03-01 09:00:00

大型語言模型數(shù)據(jù)集LLM

2020-02-07 08:00:00

ExifTool提取文件開源

2024-07-22 08:46:00

2024-06-21 08:42:54

BERTNLP自然語言處理

2024-06-03 07:57:32

LLMLlama 2token

2024-03-25 14:22:07

大型語言模型GaLore

2023-07-10 13:46:58

PythonLlama.cppLLM

2022-06-07 14:47:43

飛書智能問答模型

2025-03-18 08:00:00

大語言模型KubeMQOpenAI

2020-11-12 18:57:14

摘要PythonNLP
點贊
收藏

51CTO技術(shù)棧公眾號