提取 PDF 内容,包括 RAG 的图像

问题描述 投票:0回答:1

我正在尝试在我的应用程序中为 RAG 构建 PDF 内容提取和分块系统。 我需要将 pdf 中的图像作为 url 包含在内,以便 llm 可以在响应中使用该图像 我见过的大多数解决方案都只能从pdf中提取文本内容。有什么方法可以从pdf中提取图像和文本吗?

pdf pdf-generation information-retrieval large-language-model retrieval-augmented-generation
1个回答
0
投票

PyMuPDF 允许您对图像和表格执行此操作

© www.soinside.com 2019 - 2024. All rights reserved.