Apache Tika™工具包使用现有的解析器库检测和提取各种文档中的元数据和结构化文本内容。
Apache Tika Server v2 未公开异步或管道端点
我的目标是使用 Tika 服务器获取 S3 源/目标 url 来异步解析各种文件类型。使用本指南作为起点,我在我们本地运行了 Tika 服务器(2.9.2)...
Apache Tika:在 Kotlin 中将 Excel 转换为 HTML
我想编写一个应用程序,将 Excel 电子表格转换为 HTML 并保留样式。 Apache Tika 是迄今为止我发现的最好的免费解决方案。我在命令行中测试了一些转换...
我尝试通过 Hibernate Search @TikaBridge 索引 pdf 文件。根据文档,TikaBridge 的注释字段应该是以下任何类型: 字符串 - 字符串值为
对二进制文件建立索引并使用 contains 进行搜索,找不到结果
我想请求您帮助理解我在构建一个工作示例时出错的地方,在该示例中我用二进制数据填充存储库,为其建立索引并运行包含查询。 我有日志要...
验证传入的 MultipartFile 是否受密码保护,适用于 java 中的文件类型(.docx、.doc、.ppt、.pptx、.xls、.xlsx)
我有一个Java应用程序,其中我的用例是检测上传的文件,其类型(.docx、.doc、.ppt、.pptx、.xls、.xlsx)是否受密码保护。 我找到了验证 m 的解决方案...
是否可以使用java中的apache tika从excel表(从列或行)中获取特定数据?
有一种简单的提取数据的方法,我认为只能将其作为文本获取(使用 toSting() 方法),但我想根据指定的列或行的名称来获取数据。 以下是示例...
我正在使用 tika-python 从 pdf 中提取文本。但是当一个pdf页面中有多个表格时,文本的顺序不会保留。就我而言,页面顶部的表格位于 en...
我有一个包含文本和图像的 PDF。所有图像都有可供辅助读者使用的 ALT 文本。 有人可以告诉我如何提取值对,其中 BufferedIma...
如何使上传的 PDF 文本可在 Apache Sling 中搜索
我正在探索 Apache Sling 11 来构建一个更多内容驱动的 Web 应用程序。我有一个页面,其中文件(pdf/txt/doc)可以作为 nt 文件上传到路径 /content/company/uploads。正在搜索
如何从 Java 中的 Excel 工作表单元格获取 html 格式
我们正在尝试从Excel单元格中获取html格式(基本上是html格式的单元格文本),包括项目符号、斜体、换行符、突出显示、超链接等。 我们正在使用 Apache POI,但是...
我需要使用 .Net Core 并创建一个使用 Apache Tika 的 .NET 绑定的控制台应用程序。你们知道如何继续吗? 我找到了一个名为“TikaOnDotNet”的包装器,但它似乎只是......
我有一个包含此内容的 XLSX 文件 我已经下载了 tika-app 进行测试: java -jar tika-app-2.9.2.jar --元数据测试.xlsx 内容长度:9217 内容类型:application/vnd.openxmlformats-
可以使用maven和javafx在单个jar中部署apache-tika吗?
我已经在使用 Maven 的项目构建中使用 IntelliJ、OpenJDK17、JavaFX17 完成了桌面应用程序。 该项目在 IDE 中运行良好,当我尝试在
Apache Tika - NoSuchMethodError TarArchiveInputStream.getNextEntry()
我正在使用的版本: SpringBoot:3.2.4 Java:JDK 17 Pom 与文档中一样使用并基于我的依赖树: org.apache.tika ...
从 tesseract 上获取 osd 输出(需要脚本值拉丁语、西里尔语...)tika-server
我是一名初学者,目前使用 Tika 2.9.1 服务器版本,需要元数据中 OSD 的输出,特别是脚本的值(拉丁语、西里尔语等)。所以我的问题是
如何为 apache/tika:2.9.1.0-full 安装新的 tesseract ocr 语言?
我尝试过以下命令,但它显示我没有权限 apt-get 更新 apt-get 安装 tesseract-ocr-chi-sim 我可以在 apache/tika:1.24-full 中运行相同的命令,但在 n...
使用 apache-tika 和 python 从 PDF 中提取内联图像
我需要将 PDF 文档转换为 XML 或 JSON 格式,包括内嵌图像。 到目前为止,我可以使用 python-tika 库生成 XML。 要重现,请使用带有内嵌图像的测试 PDF 文档,...
我正在将 PDF 文件解析为 TXT。大多数 PDF 工作正常,但其中之一仅返回乱码文本,如下所示: �. LEZI E TVSZIR XVEGO VIGSVH SJ PIEHMRK ERH QIR。 XSVMRK XIEQW SJ WM\ QIQ...
如何将从 PDF 中使用 Tika 提取的文本放入 JSON 中?
我想知道是否可以将从PDF中使用Tika Python提取的文本放入JSON中,以便将来我可以将它们导入到系统的相应记录中。下面是...
我正在尝试使用 apache tika 找出文件的内容类型。 同时我发现这种不一致的行为。 最终蒂卡蒂卡=新蒂卡(); 字符串文件类型 = tika.detect(uploadedInputSt...