自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="pv8nz"><p id="pv8nz"><li id="pv8nz"></li></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

終于搞懂如何用Java去除HTML標(biāo)簽了

作者：指北君 2022-12-02 08:17:27

開(kāi)發(fā) 前端

在這篇文章中，我們學(xué)習(xí)了幾種去除HTML的方法，我們需要注意的是，正則在文本處理的過(guò)程中并不是萬(wàn)能的。

大家好，我是指北君。

在我平時(shí)的工作中，偶爾會(huì)用 Java 做一些解析HTML的工作。有的時(shí)候我需要?jiǎng)h除所有的HTML標(biāo)簽，只保留純文字內(nèi)容。這個(gè)問(wèn)題在做過(guò)一些爬蟲(chóng)工作的朋友來(lái)說(shuō)很簡(jiǎn)單。下面來(lái)說(shuō)說(shuō)，我們平時(shí)使用到的集中解析的方法。

使用正則表達(dá)式

通過(guò)爬蟲(chóng)爬到的HTML內(nèi)容，從程序角度來(lái)講，就是一個(gè)字符串。我們可以對(duì)其按照純文本處理的方式來(lái)處理。

我們?cè)谧鑫谋咎幚淼臅r(shí)候，第一個(gè)想到的就是正則表達(dá)式。從一個(gè)字符串中刪除HTML，對(duì)于正則來(lái)說(shuō)，還是比較簡(jiǎn)單的。畢竟還是有固定的格式，比如“<...>”。

我們常用的的正則就是 <[^>]>? 或者 <.*?> 。

我們?cè)谑褂谜齽t的時(shí)候，需要注意的是正則默認(rèn)是貪婪匹配。也就是說(shuō)，正則表達(dá)式 <.*> 能夠匹配到更多的HTML內(nèi)容，而不是單個(gè)標(biāo)簽。

現(xiàn)在，讓我們測(cè)試一下它是否能從HTML源中刪除標(biāo)簽。

正則測(cè)試刪除標(biāo)簽1

在我們測(cè)試刪除HTML標(biāo)簽之前，首先讓我們創(chuàng)建一個(gè)HTML例子，例如example1.html。

<!DOCTYPE html>
<html>
<head>
    <title>這是標(biāo)題</title>
</head>
<body>
    <p>
        如果應(yīng)用程序X沒(méi)有啟動(dòng)，可能的原因是<br/>
        1. <a href="https://maven.apache.org">Maven</a>沒(méi)有安裝<br/>
        2. 磁盤(pán)空間不足<br/>
        3. 內(nèi)存不足
    </p>
</body>
</html>

現(xiàn)在，讓我們寫(xiě)一個(gè)測(cè)試，用String.replaceAll()來(lái)刪除HTML標(biāo)簽。

String html = ... // load example1.html
String result = html.replaceAll("<[^>]`>", "");
System.out.println(result);

如果我們運(yùn)行這個(gè)測(cè)試方法，我們會(huì)看到結(jié)果。

這是標(biāo)題



        如果應(yīng)用程序X沒(méi)有啟動(dòng)，可能的原因是
        1.Maven沒(méi)有安裝
        2.磁盤(pán)空間不足
        3.沒(méi)有足夠的內(nèi)存

輸出結(jié)果保留了剝離后的HTML的空白處。我們?cè)谔幚硖崛〉奈谋緯r(shí)，可以很容易地刪除或跳過(guò)這些空行或空白處。

正則測(cè)試刪除標(biāo)簽2

我們剛才已經(jīng)看到了，通過(guò)使用Regex來(lái)刪除HTML標(biāo)簽是非常簡(jiǎn)單。但是粗暴的使用這種方法會(huì)有很多問(wèn)題，我們不能預(yù)測(cè)最終的結(jié)果會(huì)是怎么樣的。

例如，一個(gè)HTML文檔可能有<script>?或<style>標(biāo)簽，而我們可能不希望在結(jié)果中出現(xiàn)它們的內(nèi)容。

此外，<script>?、<style>?、甚至是<body>?標(biāo)簽中的文本可能包含 <?或 >字符。如果是這種情況，我們的正則方法可能會(huì)出錯(cuò)。

現(xiàn)在，讓我們看看另一個(gè)例子，比如example2.html。

<!DOCTYPE HTML>
<html>
<head>
    <title>這是標(biāo)題</title>
</head>
<script>
    // some js function
</script>
<body>
    <p>
        如果應(yīng)用程序X沒(méi)有啟動(dòng)，可能的原因是<br/>
        1. <a
            id="link"
            href="http://maven.apache.org/">
            Maven
            </a> 沒(méi)有安裝<br/>
        2. 磁盤(pán)空間不足 (<1G) <br/>
        3. 內(nèi)存不足(<64MB)<br/>
    </p>
</body>
</html>

現(xiàn)在我們有一個(gè)<script>?標(biāo)簽和 <?字符在<body>標(biāo)簽內(nèi)。

如果我們對(duì)example2.html使用同樣的方法，我們會(huì)得到如下內(nèi)容。

這是標(biāo)題
    // some js function
        如果應(yīng)用程序X沒(méi)有啟動(dòng)，可能的原因是
        1. 
            Maven
             沒(méi)有安裝
        2. 磁盤(pán)空間不足 (
        3. 內(nèi)存不足(

顯然，由于"<"字符的存在，我們丟失了一些文本。所以正則在處理文本的時(shí)候并不是萬(wàn)能的。我們可以使用一些 HTML 解析器來(lái)做這些比較復(fù)雜的場(chǎng)景。

使用Jsoup

Jsoup 是一個(gè)流行的HTML解析庫(kù)，如果想要從一個(gè)HTML文檔中提取文本，我們可以簡(jiǎn)單地調(diào)用??Jsoup.parse(htmlString).text()??。

在項(xiàng)目中使用的時(shí)候，我們首先需要添加 jsoup 的依賴庫(kù)，我們這里就通過(guò)maven的方式引入。

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version>
</dependency>

我們用 example2.html來(lái)測(cè)試一下。

String html = ... // load example2.html
System.out.println(Jsoup.parse(html).text());

如果我們讓這個(gè)方法運(yùn)行，它就會(huì)打印出來(lái)。

這是標(biāo)題 如果應(yīng)用程序X沒(méi)有啟動(dòng)，可能的原因是 1.Maven沒(méi)有安裝 2.沒(méi)有足夠的（<1G）磁盤(pán)空間 3.沒(méi)有足夠的（<64MB）內(nèi)存

從輸出結(jié)果可知，Jsoup已經(jīng)成功地從HTML文檔中提取了文本。另外，??<script>??元素中的文本已經(jīng)被忽略了。

此外，默認(rèn)情況下，Jsoup會(huì)刪除所有的文本格式和空白處，比如換行符。

使用HTMLCleaner

HTMLCleaner 也是一個(gè)HTML解析庫(kù)。

首先，我們需要在pom.xml中添加HTMLCleaner 依賴。

<dependency>
    <groupId>net.sourceforge.htmlcleaner</groupId>
    <artifactId>htmlcleaner</artifactId>
    <version>2.25</version>
</dependency>

我們可以設(shè)置[各種參數(shù)]（http://htmlcleaner.sourceforge.net/parameters.php）來(lái)控制HTMLCleaner的解析行為。我們?cè)谶@里使用HTMLCleaner在解析example2.html?時(shí)跳過(guò)<script>元素。

String html = ... // load example2.html
CleanerProperties props = new CleanerProperties();
props.setPruneTags("script");
String result = new HtmlCleaner(props).clean(html).getText().toString();
System.out.println(result);

運(yùn)行一下，HTMLCleaner將產(chǎn)生這樣的輸出。

這是標(biāo)題



        如果應(yīng)用程序X沒(méi)有啟動(dòng)，可能的原因是：
        1.Maven沒(méi)有安裝
        2.沒(méi)有足夠的（<1G）磁盤(pán)空間
        3.內(nèi)存不足（<64MB）

我們可以看到，??<script>???元素中的內(nèi)容被忽略了， ??<br/>??標(biāo)簽轉(zhuǎn)換為提取的文本中的換行符。另外， HTMLCleaner 保留了HTML的空白內(nèi)容。

總結(jié)

在這篇文章中，我們學(xué)習(xí)了幾種去除HTML的方法，我們需要注意的是，正則在文本處理的過(guò)程中并不是萬(wàn)能的。

責(zé)任編輯：武曉燕來(lái)源： Java技術(shù)指北

Java HTML 標(biāo)簽

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)