自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="dotm0"></cite>

^{<blockquote id="dotm0"></blockquote>}

<cite id="dotm0"><rp id="dotm0"></rp></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

使用BERT的LLM提取摘要原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2024-4-11 08:50

瀏覽

0收藏

在當今快節(jié)奏的世界里，充斥著太多的信息，并且難以處理。人們越來越習慣于在更短的時間內(nèi)接收更多的信息，當他們不得不閱讀大量的文件或書籍時，可能會感到沮喪。這就該提取摘要發(fā)揮重要作用了。為了提取文章的核心內(nèi)容，這個過程從文章、頁面或段落中提取關(guān)鍵句子，為人們提供一些要點的快照。

對于那些無需逐字閱讀就能理解大型文檔的人來說，提取摘要是游戲規(guī)則的改變者。

本文深入探討了提取摘要的基本原理和應(yīng)用，并將研究大型語言模型的作用，特別是BERT(來自Transformers的雙向編碼器表示)以增強該過程。本文還將包括一個使用BERT進行提取摘要的實踐教程，展示它在將大量文本精簡成信息豐富的摘要方面的實用性。

理解提取摘要

提取摘要是自然語言處理和文本分析領(lǐng)域的一項重要技術(shù)。提取摘要可以從原文中精心挑選出關(guān)鍵的句子或短語，并將其組合起來，形成一個簡潔而翔實的摘要。這包括仔細地篩選文本，以確定所選文章中最關(guān)鍵的元素和中心思想或論點。

在抽象摘要涉及生成源材料中通常不存在的全新句子的情況下，提取摘要則堅持原始文本。它不會改變或改寫句子，而是準確地提取句子原義，保持原來的措辭和結(jié)構(gòu)。這樣，摘要就能與源材料的基調(diào)和內(nèi)容保持一致。在信息的準確性和保留作者的原始意圖成為優(yōu)先事項的情況下，提取摘要技術(shù)是非常有益的。

它有很多不同的用途，例如總結(jié)新聞文章、學術(shù)論文或長篇報告。這個過程有效地傳達了原始內(nèi)容的信息，而不會出現(xiàn)轉(zhuǎn)述時可能出現(xiàn)的潛在偏見或重新解釋。

抽取摘要如何使用大型語言模型（LLM）?

1.文本分析

這個初始步驟包括將文本分解為基本元素，主要是句子和短語。目標是識別基本單元(在這種情況下是句子)，算法稍后將評估并包含在摘要中，例如剖析文本以了解其結(jié)構(gòu)和單個組件。

例如，該模型將分析一個包含四句話的段落，將其分解為以下四個句子。

建于古埃及的吉薩金字塔巍然屹立了數(shù)千年。
它們是為法老建造的陵墓。
大金字塔是最著名的金字塔。
這些金字塔是建筑的智慧象征。

2.特征提取

在這個階段，算法需要分析每個句子，以識別特性（Characteristics）或特征（Features），這些特性或特征可能表明它們對整個文本的重要性。常見的特征包括關(guān)鍵詞與短語的頻率和重復(fù)使用、句子的長度、它們在文本中的位置及其含義，以及對文本主題中心的特定關(guān)鍵詞或短語的存在。

以下是一個大型語言模型（LLM）如何對第一句話進行特征提取的例子：“吉薩金字塔，建于古埃及，巍然屹立了數(shù)千年。”

使用BERT的LLM提取摘要-AI.x社區(qū)

3.對句子進行評分

每個句子都會根據(jù)其內(nèi)容進行評分。這個分數(shù)反映了一個句子在整個文本中的重要性。得分更高的句子被認為更有分量或相關(guān)性。

簡單地說，這個過程對每個句子的潛在意義進行評估，對整個文本進行總結(jié)。

使用BERT的LLM提取摘要-AI.x社區(qū)

4.選擇與聚合

最后一個階段是選擇得分最高的句子，并將它們匯編成摘要。如果認真處理，可以確保摘要保持連貫，并能全面代表原文的主要思想和主題。

為了創(chuàng)建有效的摘要，算法必須平衡包括重要句子的需求，這些句子必須簡潔，避免冗余，并確保所選句子提供對整個原文的清晰和全面的概述。

建于古埃及的吉薩金字塔巍然屹立了數(shù)千年。它們是為法老建造的陵墓。這些金字塔是建筑智慧的象征。

這是一個非常基礎(chǔ)的例子，從總共4個句子提取了3個句子，以獲得最佳的整體概括。多讀一個句子并沒有壞處，但如果文本變長了怎么辦?例如有三個段落的文本?

如何運行BERT LLM提取摘要

步驟1：安裝和導(dǎo)入必要的軟件包

首先，利用預(yù)訓練的BERT模型。不要任意使用一個BERT模型；與其相反，將關(guān)注BERT提取摘要生成器。這個特殊的模型已經(jīng)針對提取摘要中的專門任務(wù)進行了微調(diào)。

!pip install bert-extractive-summarizer  
from summarizer import Summarizer

步驟2

從Python中的摘要器導(dǎo)入的Summarizer()函數(shù)是一個提取文本摘要工具。它使用BERT模型從更大的文本中分析和提取關(guān)鍵句子。該功能的目的是保留最重要的信息，提供原始內(nèi)容的精簡版本。它通常用于高效地總結(jié)冗長的文檔。

model = Summarizer()

步驟3：導(dǎo)入文本?

在這里，將導(dǎo)入想要測試模型的任何文本。為了測試這個提取摘要模型，使用ChatGPT 3.5生成文本，并提示：“提供一個關(guān)于GPU歷史和當今使用方式的三段摘要?！?/undefined>

text = "The history of Graphics Processing Units (GPUs) dates back to the early 1980s when companies like IBM and Texas Instruments developed specialized graphics accelerators for rendering images and improving overall graphical performance. However, it was not until the late 1990s and early 2000s that GPUs gained prominence with the advent of 3D gaming and multimedia applications. NVIDIA's GeForce 256, released in 1999, is often considered the first GPU, as it integrated both 2D and 3D acceleration on a single chip. ATI (later acquired by AMD) also played a significant role in the development of GPUs during this period. The parallel architecture of GPUs, with thousands of cores, allows them to handle multiple computations simultaneously, making them well-suited for tasks that require massive parallelism. Today, GPUs have evolved far beyond their original graphics-centric purpose, now widely used for parallel processing tasks in various fields, such as scientific simulations, artificial intelligence, and machine learning.  Industries like finance, healthcare, and automotive engineering leverage GPUs for complex data analysis, medical imaging, and autonomous vehicle development, showcasing their versatility beyond traditional graphical applications. With advancements in technology, modern GPUs continue to push the boundaries of computational power, enabling breakthroughs in diverse fields through parallel computing. GPUs also remain integral to the gaming industry, providing immersive and realistic graphics for video games where high-performance GPUs enhance visual experiences and support demanding game graphics. As technology progresses, GPUs are expected to play an even more critical role in shaping the future of computing."

以下是代碼塊中沒有包括它的文本：“圖形處理單元(GPU)的歷史可以追溯到20世紀80年代初，IBM和德州儀器等公司當時開發(fā)了專門的圖形加速器，用于渲染圖像和提高整體圖形性能。然而，直到20世紀90年代末和21世紀初GPU才隨著3D游戲和多媒體應(yīng)用的出現(xiàn)而嶄露頭角。NVIDIA公司的GeForce 256于1999年發(fā)布，通常被認為是全球第一款GPU，因為它將2D和3D加速功能都集成在一個芯片上。ATI公司（后來被AMD公司收購）在這一時期的GPU開發(fā)中也發(fā)揮了重要作用。

GPU的并行架構(gòu)有數(shù)千個核心處理器，使它們能夠同時處理多個計算，非常適合需要大規(guī)模并行性的任務(wù)。如今，GPU已經(jīng)遠遠超出了其最初以圖形為中心的用途，現(xiàn)在被廣泛用于各種領(lǐng)域的并行處理任務(wù)，例如科學模擬、人工智能和機器學習。金融、醫(yī)療保健和汽車工程等行業(yè)利用GPU進行復(fù)雜的數(shù)據(jù)分析、醫(yī)學成像和自動駕駛汽車開發(fā)，展示了其超越傳統(tǒng)圖形應(yīng)用程序的多功能性。

隨著技術(shù)的進步，現(xiàn)代GPU不斷突破計算能力的極限，通過并行計算在不同領(lǐng)域?qū)崿F(xiàn)突破。GPU仍然是游戲行業(yè)不可或缺的一部分，為視頻游戲提供身臨其境和逼真的圖形。高性能GPU增強了視覺體驗，并支持要求苛刻的游戲圖形。隨著技術(shù)的進步，GPU有望在塑造計算的未來方面發(fā)揮更關(guān)鍵的作用。”

步驟4：執(zhí)行提取摘要

最后，將執(zhí)行Summary函數(shù)。這需要兩個輸入：需要進行摘要的文本和所需的摘要句子數(shù)。經(jīng)過處理后，它將生成一個提取摘要，然后將顯示該摘要。

# Specifying the number of sentences in the summary   
summary = model(text, num_sentences=4)    
print(summary)

摘要輸出:

圖形處理單元(GPU)的歷史可以追溯到20世紀80年代早期，IBM和德州儀器等公司當時開發(fā)了專門用于渲染圖像和提高整體圖形性能的圖形加速器。NVIDIA公司于1999年發(fā)布的GeForce 256通常被認為是第一款GPU，因為它在單個芯片上集成了2D和3D加速功能。如今，GPU已經(jīng)遠遠超出了其最初以圖形為中心的目的，現(xiàn)在廣泛用于各種領(lǐng)域的并行處理任務(wù)，例如科學模擬、人工智能和機器學習。隨著技術(shù)的進步，GPU有望在塑造未來的計算中發(fā)揮更加關(guān)鍵的作用。

該模型從龐大的文本語料庫中提取了4個最重要的句子來生成這個摘要!

使用大型語言模型提取摘要的挑戰(zhàn)

語境理解局限性

雖然大型語言模型（LLM）在處理和生成語言方面很精通，但它們對語境的理解，尤其是對較長的文本的理解是有限的。大型語言模型（LLM）可能會錯過細微差別或無法識別文本的關(guān)鍵方面，從而導(dǎo)致摘要不那么準確或相關(guān)。語言模型越高級，摘要就越好。

訓練數(shù)據(jù)偏差

大型語言模型（LLM）從包括互聯(lián)網(wǎng)在內(nèi)的各種來源匯編的大量數(shù)據(jù)集中學習。這些數(shù)據(jù)集可能包含偏差，大型語言模型（LLM）可能會無意中學習并在摘要中復(fù)制這些偏差，從而導(dǎo)致扭曲或不公平的表示。

處理專業(yè)或技術(shù)語言

雖然大型語言模型（LLM）通常接受廣泛的一般文本培訓，但它們可能無法準確掌握法律、醫(yī)學或其他高技術(shù)領(lǐng)域的專業(yè)或技術(shù)語言。這可以通過提供更專業(yè)和技術(shù)的文本來緩解。缺乏專業(yè)術(shù)語的培訓會影響在這些領(lǐng)域使用摘要的質(zhì)量。

結(jié)論

很明顯，提取摘要不僅僅是一個方便的工具;在信息飽和的時代，其重要性日益增長。通過利用BERT等技術(shù)的力量，可以看到復(fù)雜的文本如何被提煉成易于理解的摘要，這節(jié)省了人們的時間，并幫助他們進一步理解被總結(jié)的文本。

無論是學術(shù)研究、商業(yè)見解，還是在技術(shù)先進的世界里保持信息靈通，提取摘要都是一種實用的方法，可以在信息海洋中導(dǎo)航。隨著自然語言處理的不斷發(fā)展，像提取摘要這樣的工具將變得更加重要，幫助人們快速找到并理解在這個分秒必爭的世界中最重要的信息。

原文標題：Extractive Summarization With LLM Using BERT，作者：Kevin Vu

鏈接：?https://dzone.com/articles/extractive-summarization-with-llm-using-bert?。

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

大型語言模型

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

FABLES：超長文本自動摘要評估

AIGC最前線 ? 3785瀏覽 ? 0回復(fù)
LLM | SimPO：使用無參考獎勵的簡單偏好優(yōu)化

sbf_2000 ? 4760瀏覽 ? 0回復(fù)
The Annotated BERT注釋加量版，讀懂代碼才算讀懂了BERT

魚蟲子 ? 2342瀏覽 ? 0回復(fù)
如何使用Hugging Face Transformers為情緒分析微調(diào)BERT？

51CTO內(nèi)容精選 ? 3009瀏覽 ? 0回復(fù)
從零實現(xiàn)大模型-BERT微調(diào)

魚蟲子 ? 2819瀏覽 ? 0回復(fù)
使用本地部署的Hermes 2 Pro 構(gòu)建開放的LLM應(yīng)用程序

51CTO內(nèi)容精選 ? 2264瀏覽 ? 0回復(fù)
如何使用HippoRAG增強LLM的記憶

51CTO內(nèi)容精選 ? 3511瀏覽 ? 0回復(fù)
DSARE：當傳統(tǒng)NLP遇到LLM后的關(guān)系提取新思路

大語言模型論文跟蹤 ? 2853瀏覽 ? 0回復(fù)
BERT如何增強NLP的性能

51CTO內(nèi)容精選 ? 2109瀏覽 ? 0回復(fù)
使用Prompty構(gòu)建和管理LLM提示

51CTO內(nèi)容精選 ? 2022瀏覽 ? 0回復(fù)
為什么最新的LLM使用混合專家(MoE)架構(gòu)

51CTO內(nèi)容精選 ? 2919瀏覽 ? 0回復(fù)
支持大模型流式輸出的JSON提取工具

恰似驚鴻 ? 2975瀏覽 ? 0回復(fù)
使用TAG和RAG實現(xiàn)摘要和標簽的自動化來簡化客戶反饋分析

51CTO內(nèi)容精選 ? 2231瀏覽 ? 0回復(fù)
Crawl4AI：AI驅(qū)動的網(wǎng)頁抓取神器，結(jié)合LLM實現(xiàn)自動化數(shù)據(jù)提取與處理

老蛀蟲 ? 4494瀏覽 ? 0回復(fù)
使用MCTS顯著提升LLM在復(fù)雜任務(wù)的推理能力

arnoldzhw ? 5777瀏覽 ? 0回復(fù)
深入解析Transformers、BERT與SBERT：從原理到應(yīng)用

Halo咯咯 ? 3005瀏覽 ? 0回復(fù)
時序Pattern提取+語義對齊增強基于LLM的時序預(yù)測效果

海因斯DK ? 1318瀏覽 ? 0回復(fù)
從零開始微調(diào)Embedding模型：基于BERT的實戰(zhàn)教程

AI悠閑區(qū) ? 791瀏覽 ? 0回復(fù)
騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM

CourseAI ? 739瀏覽 ? 0回復(fù)

51CTO內(nèi)容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

OpenUI：從構(gòu)思到UI僅需數(shù)秒 10h前發(fā)布
MCP安全噩夢終結(jié)者：Agent框架如何重構(gòu)AI防護新范式？? 1天前發(fā)布

熱門推薦

模型上下文協(xié)議（MCP）開發(fā)實戰(zhàn)——構(gòu)建LangChain代理客戶端 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：利用人工智能對文本內(nèi)容進行自動摘要

下一篇：擴散模型如何幫助創(chuàng)建更好的強化學習系統(tǒng)

社區(qū)精華內(nèi)容

目錄

<legend id="oqkc0"><track id="oqkc0"></track></legend>

<blockquote id="oqkc0"></blockquote>