終于搞懂如何用Java去除HTML標(biāo)簽了
大家好,我是指北君。
在我平時(shí)的工作中,偶爾會(huì)用 Java 做一些解析HTML的工作。有的時(shí)候我需要?jiǎng)h除所有的HTML標(biāo)簽,只保留純文字內(nèi)容。這個(gè)問(wèn)題在做過(guò)一些爬蟲(chóng)工作的朋友來(lái)說(shuō)很簡(jiǎn)單。下面來(lái)說(shuō)說(shuō),我們平時(shí)使用到的集中解析的方法。
使用正則表達(dá)式
通過(guò)爬蟲(chóng)爬到的HTML內(nèi)容,從程序角度來(lái)講,就是一個(gè)字符串。我們可以對(duì)其按照純文本處理的方式來(lái)處理。
我們?cè)谧鑫谋咎幚淼臅r(shí)候,第一個(gè)想到的就是正則表達(dá)式。從一個(gè)字符串中刪除HTML,對(duì)于正則來(lái)說(shuō),還是比較簡(jiǎn)單的。畢竟還是有固定的格式,比如“<...>”。
我們常用的的正則就是 <[^>]>? 或者 <.*?> 。
我們?cè)谑褂谜齽t的時(shí)候,需要注意的是正則默認(rèn)是貪婪匹配。也就是說(shuō),正則表達(dá)式 <.*> 能夠匹配到更多的HTML內(nèi)容,而不是單個(gè)標(biāo)簽。
現(xiàn)在,讓我們測(cè)試一下它是否能從HTML源中刪除標(biāo)簽。
正則測(cè)試刪除標(biāo)簽1
在我們測(cè)試刪除HTML標(biāo)簽之前,首先讓我們創(chuàng)建一個(gè)HTML例子,例如example1.html。
現(xiàn)在,讓我們寫(xiě)一個(gè)測(cè)試,用String.replaceAll()來(lái)刪除HTML標(biāo)簽。
如果我們運(yùn)行這個(gè)測(cè)試方法,我們會(huì)看到結(jié)果。
輸出結(jié)果保留了剝離后的HTML的空白處。我們?cè)谔幚硖崛〉奈谋緯r(shí),可以很容易地刪除或跳過(guò)這些空行或空白處。
正則測(cè)試刪除標(biāo)簽2
我們剛才已經(jīng)看到了,通過(guò)使用Regex來(lái)刪除HTML標(biāo)簽是非常簡(jiǎn)單。但是粗暴的使用這種方法會(huì)有很多問(wèn)題,我們不能預(yù)測(cè)最終的結(jié)果會(huì)是怎么樣的。
例如,一個(gè)HTML文檔可能有<script>?或<style>標(biāo)簽,而我們可能不希望在結(jié)果中出現(xiàn)它們的內(nèi)容。
此外,<script>?、<style>?、甚至是<body>?標(biāo)簽中的文本可能包含 <?或 >字符。如果是這種情況,我們的正則方法可能會(huì)出錯(cuò)。
現(xiàn)在,讓我們看看另一個(gè)例子,比如example2.html。
現(xiàn)在我們有一個(gè)<script>?標(biāo)簽和 <?字符在<body>標(biāo)簽內(nèi)。
如果我們對(duì)example2.html使用同樣的方法,我們會(huì)得到如下內(nèi)容。
顯然,由于"<"字符的存在,我們丟失了一些文本。所以正則在處理文本的時(shí)候并不是萬(wàn)能的。我們可以使用一些 HTML 解析器來(lái)做這些比較復(fù)雜的場(chǎng)景。
使用Jsoup
Jsoup 是一個(gè)流行的HTML解析庫(kù),如果想要從一個(gè)HTML文檔中提取文本,我們可以簡(jiǎn)單地調(diào)用??Jsoup.parse(htmlString).text()?
?。
在項(xiàng)目中使用的時(shí)候,我們首先需要添加 jsoup 的依賴庫(kù),我們這里就通過(guò)maven的方式引入。
我們用 example2.html來(lái)測(cè)試一下。
如果我們讓這個(gè)方法運(yùn)行,它就會(huì)打印出來(lái)。
從輸出結(jié)果可知,Jsoup已經(jīng)成功地從HTML文檔中提取了文本。另外,??<script>?
?元素中的文本已經(jīng)被忽略了。
此外,默認(rèn)情況下,Jsoup會(huì)刪除所有的文本格式和空白處,比如換行符。
使用HTMLCleaner
HTMLCleaner 也是一個(gè)HTML解析庫(kù)。
首先,我們需要在pom.xml中添加HTMLCleaner 依賴。
我們可以設(shè)置[各種參數(shù)](http://htmlcleaner.sourceforge.net/parameters.php)來(lái)控制HTMLCleaner的解析行為。我們?cè)谶@里使用HTMLCleaner在解析example2.html?時(shí)跳過(guò)<script>元素。
運(yùn)行一下,HTMLCleaner將產(chǎn)生這樣的輸出。
我們可以看到,??<script>?
??元素中的內(nèi)容被忽略了, ??<br/>?
?標(biāo)簽轉(zhuǎn)換為提取的文本中的換行符。另外, HTMLCleaner 保留了HTML的空白內(nèi)容。
總結(jié)
在這篇文章中,我們學(xué)習(xí)了幾種去除HTML的方法,我們需要注意的是,正則在文本處理的過(guò)程中并不是萬(wàn)能的。