65.9K
CodeProject 正在变化。 阅读更多。
Home

使用 Eclipse 构建 Apache-tika 项目

starIconstarIconstarIconstarIconstarIcon

5.00/5 (2投票s)

2019年1月25日

CPOL

4分钟阅读

viewsIcon

10004

基本了解如何编写/使用 Apache-tika facade 函数并在 Eclipse 中调试它

引言

本教程提供了如何编写/使用 Apache-tika facade 函数并在 Eclipse 中调试它的基本了解。

背景

Apache Tika 是一个库,用于文档类型检测以及从各种文件格式中提取内容。 参考https://tutorialspoint.org.cn/tika/tika_overview.htm

Using the Code

在本文中,我将举例说明如何在 Eclipse 中创建一个新项目,并尝试运行一个示例来使用 Apache tika 库检测文件类型。

步骤

  1. 我正在使用 Apache-tika 1.20 版本。 可以从 http://tika.apache.org/download.html 下载。 下载 jar 文件并将其保存在您的机器上。
  2. 打开 Eclipse 并创建一个新的 Java 项目,如下所示

  3. 给项目一个名称;比如“DetectType”,并设置您正在使用的 JRE 版本。 如果列表中没有兼容的版本,请安装它。

  4. 右键单击 'src' 并选择 新建->。 给它一个名称,比如 'DetectType'。 刷新项目,您将看到新文件已添加到 src 中。
  5. body 添加到新添加的文件
    public class DetectType 
    { 
        public static void main(String[] args) throws Exception
        { 
            }
        } 
    }
  6. 在与上述相同的 workspace 下创建一个文件夹 'lib',并将 jar 文件复制到该 lib 文件夹中。
  7. jar 文件添加到您的 DetectType 项目中。 右键单击您的项目并选择 属性 -> Java 构建路径 -> 添加 JAR。
  8. 选择您项目中的新复制的 jar 文件。 如果您没有看到 jar 文件,请刷新您的项目并重试。 您的属性窗口现在应该如下所示

  9. 刷新您的项目,在项目资源管理器中,您现在可以看到已添加的 jar 文件。
  10. 更新您的代码 body 以包含 Tika 类并检测文件类型。
    import org.apache.tika.Tika;
    
    public class DetectType 
    { 
        public static void main(String[] args) throws Exception
        { 
            // Create a Tika instance with the default configuration
            Tika tika = new Tika();
            // Parse all given files and print out the extracted
            // text content
            for (String file : args) {
                String fileType = tika.detect(file);
                System.out.println("File type of '" + file + "' is : " + fileType);
            }
        } 
    }
  11. 项目层次结构应如下所示(请注意,您可以将您的包名称设置为“default package”。我将其保留为“org.apache.tika”。 正如在下一节中,我将导入整个 tika 源代码,这有助于进行调试)。

  12. 上面的程序期望输入参数作为文件名。 这可以作为参数传入。 像这样

  13. 现在运行程序,您应该在控制台中得到结果。 像这样

    'format\1.vsd' 的文件类型是 application/vnd.visio

    上面的示例是一个检测文件类型的小示例。 有许多公开的 API 可用于提取更多的元数据,甚至文件类型的内容。 有关完整列表,请参见 https://tika.apache.org/1.20/api/

Tika 支持以下各种功能

  • 文档类型检测
  • 内容提取
  • 元数据提取
  • 语言检测

调试 Apache Tika Facade

如果您希望将整个 Apache tika 源代码添加到您的 Eclipse 项目并调试您的 facade 类/函数,请按照以下步骤操作。

  1. 在您的 src 中创建一个新包 'org.apache.tika'(如上一节中的第 11 点所示)
  2. 在 'org.apache.tika' 下创建一个新类。 右键单击 'org.apache.tika'->新建->类。 给它一个您选择的名称,比如 'DetectType'。
  3. http://tika.apache.org/download.html 下载源代码 'tika-1.20-src.zip 的镜像'。
  4. 解压缩上述文件将为您提供可用于我们调试上述代码中的 facade 类的包。

  5. 从上面进入 tika-core,并将文件夹“tika-core\src\main\java\org\apache\tika”中的内容复制到您的 workspace 文件夹“DetectType\src\org\apache\tika”中。 刷新您在 Eclipse 中的项目,您将看到所有这些作为包。 我有一些截图,但不是全部

  6. 如果您在项目中看到任何错误,那是因为 'package-info.java'。 删除此文件,因为此文件的唯一目的是为包级别文档和包级别注释提供一个家。
  7. 开始调试,如果在任何级别您都找不到源代码,请进入第 4 点中的文件结构,并将其复制到 org/apache/tika 中的相应 workspace 结构中。

对于使用 'org.osgi.framework'、'org.osgi.util' 时出现的错误,请转到 http://www.java2s.com/Code/Jar/o/Downloadorgosgicore500jar.htm 并下载 jar 文件。 像在第 8 步中添加 tika-app.jar 一样,将其添加到您的项目中。

同样,您可以在同一站点上找到更多包,因为它们可能会给您带来麻烦,例如 'org.sqlite.SQLiteConfig'。

关注点

这是我第一次尝试调试 tika facade 类并找到了执行此操作的步骤。 如果您觉得缺少某些部分,请提供反馈,我们将改进本文。

历史

  • 2019年1月25日:初始版本
© . All rights reserved.