使用 Eclipse 构建 Apache-tika 项目





5.00/5 (2投票s)
基本了解如何编写/使用 Apache-tika facade 函数并在 Eclipse 中调试它
引言
本教程提供了如何编写/使用 Apache-tika facade 函数并在 Eclipse 中调试它的基本了解。
背景
Apache Tika 是一个库,用于文档类型检测以及从各种文件格式中提取内容。 参考: https://tutorialspoint.org.cn/tika/tika_overview.htm
Using the Code
在本文中,我将举例说明如何在 Eclipse 中创建一个新项目,并尝试运行一个示例来使用 Apache tika 库检测文件类型。
步骤
- 我正在使用 Apache-tika 1.20 版本。 可以从 http://tika.apache.org/download.html 下载。 下载 jar 文件并将其保存在您的机器上。
- 打开 Eclipse 并创建一个新的 Java 项目,如下所示
- 给项目一个名称;比如“
DetectType
”,并设置您正在使用的 JRE 版本。 如果列表中没有兼容的版本,请安装它。 - 右键单击 'src' 并选择 新建->类。 给它一个名称,比如 '
DetectType
'。 刷新项目,您将看到新文件已添加到 src 中。 - 将
body
添加到新添加的文件public class DetectType { public static void main(String[] args) throws Exception { } } }
- 在与上述相同的 workspace 下创建一个文件夹 'lib',并将 jar 文件复制到该 lib 文件夹中。
- 将 jar 文件添加到您的
DetectType
项目中。 右键单击您的项目并选择 属性 -> Java 构建路径 -> 添加 JAR。 - 选择您项目中的新复制的 jar 文件。 如果您没有看到 jar 文件,请刷新您的项目并重试。 您的属性窗口现在应该如下所示
- 刷新您的项目,在项目资源管理器中,您现在可以看到已添加的 jar 文件。
- 更新您的代码 body 以包含
Tika
类并检测文件类型。import org.apache.tika.Tika; public class DetectType { public static void main(String[] args) throws Exception { // Create a Tika instance with the default configuration Tika tika = new Tika(); // Parse all given files and print out the extracted // text content for (String file : args) { String fileType = tika.detect(file); System.out.println("File type of '" + file + "' is : " + fileType); } } }
- 项目层次结构应如下所示(请注意,您可以将您的包名称设置为“default package”。我将其保留为“
org.apache.tika
”。 正如在下一节中,我将导入整个 tika 源代码,这有助于进行调试)。 - 上面的程序期望输入参数作为文件名。 这可以作为参数传入。 像这样
- 现在运行程序,您应该在控制台中得到结果。 像这样
'format\1.vsd' 的文件类型是 application/vnd.visio。
上面的示例是一个检测文件类型的小示例。 有许多公开的 API 可用于提取更多的元数据,甚至文件类型的内容。 有关完整列表,请参见 https://tika.apache.org/1.20/api/。
Tika 支持以下各种功能
- 文档类型检测
- 内容提取
- 元数据提取
- 语言检测
调试 Apache Tika Facade
如果您希望将整个 Apache tika 源代码添加到您的 Eclipse 项目并调试您的 facade 类/函数,请按照以下步骤操作。
- 在您的 src 中创建一个新包 '
org.apache.tika
'(如上一节中的第 11 点所示) - 在 '
org.apache.tika
' 下创建一个新类。 右键单击 'org.apache.tika
'->新建->类。 给它一个您选择的名称,比如 'DetectType
'。 - 从 http://tika.apache.org/download.html 下载源代码 'tika-1.20-src.zip 的镜像'。
- 解压缩上述文件将为您提供可用于我们调试上述代码中的 facade 类的包。
- 从上面进入
tika-core
,并将文件夹“tika-core\src\main\java\org\apache\tika”中的内容复制到您的 workspace 文件夹“DetectType\src\org\apache\tika”中。 刷新您在 Eclipse 中的项目,您将看到所有这些作为包。 我有一些截图,但不是全部 - 如果您在项目中看到任何错误,那是因为 '
package-info.java
'。 删除此文件,因为此文件的唯一目的是为包级别文档和包级别注释提供一个家。 - 开始调试,如果在任何级别您都找不到源代码,请进入第 4 点中的文件结构,并将其复制到 org/apache/tika 中的相应 workspace 结构中。
对于使用 'org.osgi.framework
'、'org.osgi.util
' 时出现的错误,请转到 http://www.java2s.com/Code/Jar/o/Downloadorgosgicore500jar.htm 并下载 jar 文件。 像在第 8 步中添加 tika-app.jar 一样,将其添加到您的项目中。
同样,您可以在同一站点上找到更多包,因为它们可能会给您带来麻烦,例如 'org.sqlite.SQLiteConfig
'。
关注点
这是我第一次尝试调试 tika facade 类并找到了执行此操作的步骤。 如果您觉得缺少某些部分,请提供反馈,我们将改进本文。
历史
- 2019年1月25日:初始版本