使用 Langchain NodeJS 将 PDF 文本从 GoogleCloudStorage 下载到内存中

问题描述 投票:0回答:1

我正在尝试从 GCS 存储桶下载 PDF 文件并将内容读入内存。

当使用 Langchain 和 python 时,我可以使用 GCSDirectoryLoader 来读取存储桶中的所有文件和 pdf 文本。

Langchain for NodeJs 没有 GCSDirectoryLoader 或 PDF 文件的网络加载器。 下载文件时,我得到一个以二进制表示形式作为内容的文档。

将 pdf 内容从 GCS 存储桶下载到内存的最佳方法是什么?

node.js pdf google-cloud-storage langchain-js
1个回答
0
投票

将此作为社区维基共享以造福他人

正如@K J 所提到的

任何内容都可以加载到内存中,但是要对 PDF 处理下载有任何用途,需要是十进制寻址文件(从位置 0 到 FILE 末尾的全长),因此在 /Length 处以十进制表示的 FILE 结尾标记写入字节数(这就是 PDF 在工作时如何进行文件查找),因此您需要拥有或构建一个内存文件系统。然后下一步就可以从filetype.pdf读取文件进行转换

© www.soinside.com 2019 - 2024. All rights reserved.