apache-tika 相关问题

Apache Tika™工具包使用现有的解析器库检测和提取各种文档中的元数据和结构化文本内容。

Apache Tika Server v2 未公开异步或管道端点

我的目标是使用 Tika 服务器获取 S3 源/目标 url 来异步解析各种文件类型。使用本指南作为起点，我在我们本地运行了 Tika 服务器（2.9.2）...

java parsing apache-tika tika-server

回答 1 投票 0

Apache Tika：在 Kotlin 中将 Excel 转换为 HTML

我想编写一个应用程序，将 Excel 电子表格转换为 HTML 并保留样式。 Apache Tika 是迄今为止我发现的最好的免费解决方案。我在命令行中测试了一些转换...

html kotlin spreadsheet apache-tika

回答 1 投票 0

HSEARCH000151：无法从字节类型的对象获取输入流

我尝试通过 Hibernate Search @TikaBridge 索引 pdf 文件。根据文档，TikaBridge 的注释字段应该是以下任何类型：字符串 - 字符串值为

java hibernate wildfly hibernate-search apache-tika

回答 1 投票 0

对二进制文件建立索引并使用 contains 进行搜索，找不到结果

我想请求您帮助理解我在构建一个工作示例时出错的地方，在该示例中我用二进制数据填充存储库，为其建立索引并运行包含查询。我有日志要...

java lucene apache-tika jcr jackrabbit-oak

回答 1 投票 0

验证传入的 MultipartFile 是否受密码保护，适用于 java 中的文件类型（.docx、.doc、.ppt、.pptx、.xls、.xlsx）

我有一个Java应用程序，其中我的用例是检测上传的文件，其类型（.docx、.doc、.ppt、.pptx、.xls、.xlsx）是否受密码保护。我找到了验证 m 的解决方案...

java file validation apache-poi apache-tika

回答 1 投票 0

是否可以使用java中的apache tika从excel表（从列或行）中获取特定数据？

有一种简单的提取数据的方法，我认为只能将其作为文本获取（使用 toSting() 方法），但我想根据指定的列或行的名称来获取数据。以下是示例...

java excel apache apache-tika

回答 1 投票 0

Tika python 不保留 pdf 中文本的顺序

我正在使用 tika-python 从 pdf 中提取文本。但是当一个pdf页面中有多个表格时，文本的顺序不会保留。就我而言，页面顶部的表格位于 en...

python apache-tika tika-server

回答 1 投票 0

如何从 PDF 中提取 ALT 文本和图像

我有一个包含文本和图像的 PDF。所有图像都有可供辅助读者使用的 ALT 文本。有人可以告诉我如何提取值对，其中 BufferedIma...

java pdfbox apache-tika

回答 1 投票 0

如何使上传的 PDF 文本可在 Apache Sling 中搜索

我正在探索 Apache Sling 11 来构建一个更多内容驱动的 Web 应用程序。我有一个页面，其中文件（pdf/txt/doc）可以作为 nt 文件上传到路径 /content/company/uploads。正在搜索

aem apache-tika sling jackrabbit-oak

回答 2 投票 0

如何从 Java 中的 Excel 工作表单元格获取 html 格式

我们正在尝试从Excel单元格中获取html格式（基本上是html格式的单元格文本），包括项目符号、斜体、换行符、突出显示、超链接等。我们正在使用 Apache POI，但是...

java spring-boot apache-poi apache-tika aspose-cells

回答 1 投票 0

如何在.Net Core 上使用 Apache Tika？

我需要使用 .Net Core 并创建一个使用 Apache Tika 的 .NET 绑定的控制台应用程序。你们知道如何继续吗？我找到了一个名为“TikaOnDotNet”的包装器，但它似乎只是......

.net .net-core apache-tika

回答 2 投票 0

XLSX 的日期格式 Tika 输出

我有一个包含此内容的 XLSX 文件我已经下载了 tika-app 进行测试： java -jar tika-app-2.9.2.jar --元数据测试.xlsx 内容长度：9217 内容类型：application/vnd.openxmlformats-

apache-tika tika-python

回答 1 投票 0

可以使用maven和javafx在单个jar中部署apache-tika吗？

我已经在使用 Maven 的项目构建中使用 IntelliJ、OpenJDK17、JavaFX17 完成了桌面应用程序。该项目在 IDE 中运行良好，当我尝试在

javafx bouncycastle apache-tika launch4j meta-inf

回答 1 投票 0

Apache Tika - NoSuchMethodError TarArchiveInputStream.getNextEntry()

我正在使用的版本： SpringBoot：3.2.4 Java：JDK 17 Pom 与文档中一样使用并基于我的依赖树： org.apache.tika ...

java apache-tika spring-boot-3

回答 1 投票 0

从 tesseract 上获取 osd 输出（需要脚本值拉丁语、西里尔语...）tika-server

我是一名初学者，目前使用 Tika 2.9.1 服务器版本，需要元数据中 OSD 的输出，特别是脚本的值（拉丁语、西里尔语等）。所以我的问题是

dockerfile tesseract apache-tika

回答 1 投票 0

如何为 apache/tika:2.9.1.0-full 安装新的 tesseract ocr 语言？

我尝试过以下命令，但它显示我没有权限 apt-get 更新 apt-get 安装 tesseract-ocr-chi-sim 我可以在 apache/tika:1.24-full 中运行相同的命令，但在 n...

docker apache-tika tika-server

回答 1 投票 0

使用 apache-tika 和 python 从 PDF 中提取内联图像

我需要将 PDF 文档转换为 XML 或 JSON 格式，包括内嵌图像。到目前为止，我可以使用 python-tika 库生成 XML。要重现，请使用带有内嵌图像的测试 PDF 文档，...

python xml xml-parsing apache-tika

回答 3 投票 0

Tika 从 PDF 文件返回乱码文本

我正在将 PDF 文件解析为 TXT。大多数 PDF 工作正常，但其中之一仅返回乱码文本，如下所示： �. LEZI E TVSZIR XVEGO VIGSVH SJ PIEHMRK ERH QIR。 XSVMRK XIEQW SJ WM\ QIQ...

java pdf apache-tika

回答 1 投票 0

如何将从 PDF 中使用 Tika 提取的文本放入 JSON 中？

我想知道是否可以将从PDF中使用Tika Python提取的文本放入JSON中，以便将来我可以将它们导入到系统的相应记录中。下面是...

python json pdf ocr apache-tika

回答 2 投票 0

Apache Tika 检测返回不一致的结果

我正在尝试使用 apache tika 找出文件的内容类型。同时我发现这种不一致的行为。最终蒂卡蒂卡=新蒂卡（）；字符串文件类型 = tika.detect(uploadedInputSt...

java file-type apache-tika

回答 2 投票 0

apache-tika 相关问题

最新问题