apache-tika 相关问题

Apache Tika™工具包使用现有的解析器库检测和提取各种文档中的元数据和结构化文本内容。

如何从 Java 中的 Excel 工作表单元格获取 html 格式

我们正在尝试从Excel单元格中获取html格式(基本上是html格式的单元格文本),包括项目符号、斜体、换行符、突出显示、超链接等。 我们正在使用 Apache POI,但是...

回答 1 投票 0

如何在.Net Core 上使用 Apache Tika?

我需要使用 .Net Core 并创建一个使用 Apache Tika 的 .NET 绑定的控制台应用程序。你们知道如何继续吗? 我找到了一个名为“TikaOnDotNet”的包装器,但它似乎只是......

回答 2 投票 0

XLSX 的日期格式 Tika 输出

我有一个包含此内容的 XLSX 文件 我已经下载了 tika-app 进行测试: java -jar tika-app-2.9.2.jar --元数据测试.xlsx 内容长度:9217 内容类型:application/vnd.openxmlformats-

回答 1 投票 0

可以使用maven和javafx在单个jar中部署apache-tika吗?

我已经在使用 Maven 的项目构建中使用 IntelliJ、OpenJDK17、JavaFX17 完成了桌面应用程序。 该项目在 IDE 中运行良好,当我尝试在

回答 1 投票 0

Apache Tika - NoSuchMethodError TarArchiveInputStream.getNextEntry()

我正在使用的版本: SpringBoot:3.2.4 Java:JDK 17 Pom 与文档中一样使用并基于我的依赖树: org.apache.tika ...

回答 1 投票 0

从 tesseract 上获取 osd 输出(需要脚本值拉丁语、西里尔语...)tika-server

我是一名初学者,目前使用 Tika 2.9.1 服务器版本,需要元数据中 OSD 的输出,特别是脚本的值(拉丁语、西里尔语等)。所以我的问题是

回答 1 投票 0

如何为 apache/tika:2.9.1.0-full 安装新的 tesseract ocr 语言?

我尝试过以下命令,但它显示我没有权限 apt-get 更新 apt-get 安装 tesseract-ocr-chi-sim 我可以在 apache/tika:1.24-full 中运行相同的命令,但在 n...

回答 1 投票 0

使用 apache-tika 和 python 从 PDF 中提取内联图像

我需要将 PDF 文档转换为 XML 或 JSON 格式,包括内嵌图像。 到目前为止,我可以使用 python-tika 库生成 XML。 要重现,请使用带有内嵌图像的测试 PDF 文档,...

回答 3 投票 0

Tika 从 PDF 文件返回乱码文本

我正在将 PDF 文件解析为 TXT。大多数 PDF 工作正常,但其中之一仅返回乱码文本,如下所示: �. LEZI E TVSZIR XVEGO VIGSVH SJ PIEHMRK ERH QIR。 XSVMRK XIEQW SJ WM\ QIQ...

回答 1 投票 0

如何将从 PDF 中使用 Tika 提取的文本放入 JSON 中?

我想知道是否可以将从PDF中使用Tika Python提取的文本放入JSON中,以便将来我可以将它们导入到系统的相应记录中。下面是...

回答 2 投票 0

Apache Tika 检测返回不一致的结果

我正在尝试使用 apache tika 找出文件的内容类型。 同时我发现这种不一致的行为。 最终蒂卡蒂卡=新蒂卡(); 字符串文件类型 = tika.detect(uploadedInputSt...

回答 2 投票 0

Apache Tika 无法检测输入流的文件类型,但它可以归档

我可以使用 Apache Tika 检测 aac 文件的文件类型(音频/x-aac),如下所示: 文件 file = new File("/path/to/file"); 提卡提卡 = 新提卡(); System.out.println(tika.detect(菲尔...

回答 1 投票 0

如何从 Java 中的 MIME 类型确定适当的文件扩展名

我正在将文件上传到 Amazon s3 存储桶,并有权访问 InputStream 和包含文件 MIME 类型但不包含原始文件名的字符串。由我来实际创建......

回答 2 投票 0

Apache Tika 编译错误

我正在尝试遵循 Apache TikaJAXRS 看似非常简单的编译指令。我在 Windows 8.1 64 位上运行。 从 Apache Tika dow 下载最新的稳定源...

回答 3 投票 0

Apache Tika 解析器无法在 fat jar 中工作

我创建空的 Maven 应用程序,然后添加依赖项 蒂卡核心 tika-解析器-标准包 slf4j-api slf4j-简单 和 maven-assemble-plugin 来制作一个胖罐子。 生成的 47M 文件有 102 行 mvn

回答 1 投票 0

如何使用 APACHE TIKA 将 PDF 文件转换为带有样式的 HTML

正在使用apache tika将PDF文件转换为HTML,我需要提取具有粗体、斜体、顶部、左侧、高度、宽度和元素字体系列等样式的html,但我过去只获取原始html标签

回答 1 投票 0

如何处理大pdf?

我正在尝试使用此代码从大型 pdf 中提取文本(我的文件来自 azure 上的 blob,pdf 需要 7.3mb,它有 140 页,它们都是图像)并且它总是达到 ti ...

回答 2 投票 0

导致“无法读取 GoogleSans-Regular 字体中的 ToUnicode CMap”的原因

不确定问题是否出在文件中,可能是PDFBox或我正在做的事情。我认为文件。 我越来越: “无法读取 GoogleSans-Regular 字体中的 ToUnicode CMap” java.io.IOExc...

回答 1 投票 0

如何使用 Apche Tika Server 进行 NER

我正在检查 Tika 的 NER 任务并运行 NER 示例。我可以通过点击记录的元端点来获取文件元数据: curl -T test.txt http://localhost:9998/meta --header "...

回答 1 投票 0

java.lang.UnsatisfiedLinkError:java.library.path中没有lcms:[/usr/lib/jvm/java-11-openjdk/lib/server

我正在使用 apache tika 解析器 jar 中的 PDF 解析器类,该类与 openjdk 8 一起工作正常,但当我将 openjdk 更新到 11 时,相同的代码失败。我尝试更新 tika 解析器...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.