自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="7m99l"></cite>

<sub id="7m99l"><p id="7m99l"></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Apache Tika 輕松實(shí)現(xiàn)各種文檔內(nèi)容解析

作者：一安 2025-01-02 11:01:13

開發(fā) 開發(fā)工具

Apache Tika可以解析和提取一千多種不同的文件類型(如PPT、XLS和PDF)的內(nèi)容和格式，并且Apache Tika提供了多種使用方式，既可以使用圖形化操作頁(yè)面（tika-app），又可以獨(dú)立部署（tika-server）通過(guò)接口調(diào)用，還可以引入到項(xiàng)目中使用。

Apache tika是Apache開源的一個(gè)文檔解析工具。Apache Tika可以解析和提取一千多種不同的文件類型(如PPT、XLS和PDF)的內(nèi)容和格式，并且Apache Tika提供了多種使用方式，既可以使用圖形化操作頁(yè)面（tika-app），又可以獨(dú)立部署（tika-server）通過(guò)接口調(diào)用，還可以引入到項(xiàng)目中使用。

本文演示在spring boot 中引入tika的方式解析文檔。如下：

引入依賴

在spring boot 項(xiàng)目中引入如下依賴:

<dependencyManagement>
    <dependencies>
      <dependency>
        <groupId>org.apache.tika</groupId>
        <artifactId>tika-bom</artifactId>
        <version>2.8.0</version>
        <type>pom</type>
        <scope>import</scope>
      </dependency>
    </dependencies>
  </dependencyManagement>

    <dependency>
      <groupId>org.apache.tika</groupId>
      <artifactId>tika-core</artifactId>
    </dependency>
    <dependency>
      <groupId>org.apache.tika</groupId>
      <artifactId>tika-parsers-standard-package</artifactId>
    </dependency>

創(chuàng)建配置

將tika-config.xml文件放在resources目錄下。tika-config.xml文件的內(nèi)容如下：

<?xml version="1.0" encoding="UTF-8"?>
<properties>
    <encodingDetectors>
        <encodingDetector class="org.apache.tika.parser.html.HtmlEncodingDetector">
            <params>
                <param name="markLimit" type="int">64000</param>
            </params>
        </encodingDetector>
        <encodingDetector class="org.apache.tika.parser.txt.UniversalEncodingDetector">
            <params>
                <param name="markLimit" type="int">64001</param>
            </params>
        </encodingDetector>
        <encodingDetector class="org.apache.tika.parser.txt.Icu4jEncodingDetector">
            <params>
                <param name="markLimit" type="int">64002</param>
            </params>
        </encodingDetector>
    </encodingDetectors>
</properties>

創(chuàng)建配置類MyTikaConfig

import java.io.IOException;
import java.io.InputStream;
import org.apache.tika.Tika;
import org.apache.tika.config.TikaConfig;
import org.apache.tika.detect.Detector;
import org.apache.tika.exception.TikaException;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.Parser;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
import org.springframework.core.io.Resource;
import org.springframework.core.io.ResourceLoader;
import org.xml.sax.SAXException;

/**
 * tika配置類
 */
@Configuration
public class MyTikaConfig {

    @Autowired
    private ResourceLoader resourceLoader;

    @Bean
    public Tika tika() throws TikaException, IOException, SAXException {

        Resource resource = resourceLoader.getResource("classpath:tika-config.xml");
        InputStream inputStream = resource.getInputStream();

        TikaConfig config = new TikaConfig(inputStream);
        Detector detector = config.getDetector();
        Parser autoDetectParser = new AutoDetectParser(config);

        return new Tika(detector, autoDetectParser);
    }
}

Tika類中提供了文芳detect、translate和parse功能，在項(xiàng)目中通過(guò)注入TIka, 就可以使用了

在項(xiàng)目使用

配置完成后在項(xiàng)目中可以通過(guò)注入TIka即可完成文檔的解析。如下圖所示：

圖片

責(zé)任編輯：武曉燕來(lái)源：一安未來(lái)

Apache 文件類型部署

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<sub id="sxcem"></sub>}