您好,我正在尝试不同的方法从 pdf 文件中提取内容,但对我来说没有任何效果,例如 pdf.js,当我尝试使用 pdf.js 时,它也显示错误,我不知道为什么。我正在尝试这种方法
var loadingTask = window.pdfjsLib.getDocument('dummy.pdf');
loadingTask.promise.then(function(pdf) {
console.log(pdf)
});
但它显示错误无法读取未定义 getDocument 的属性。 请大家帮助我使用 pdf.js 或任何可能的方式从 pdf 中提取内容
如果正确导入它应该可以工作。
pdfjsLib.GlobalWorkerOptions.workerSrc = "https://cdnjs.cloudflare.com/ajax/libs/pdf.js/2.6.347/pdf.worker.min.js";
var loadingTask = window.pdfjsLib.getDocument("dummy.pdf");
loadingTask.promise.then(function(pdf) {
console.log(pdf);
});
<script src="https://cdnjs.cloudflare.com/ajax/libs/pdf.js/2.6.347/pdf.min.js"></script>
在 React 中应该是这样的:
import * as pdfjsLib from "pdfjs-dist";
pdfjsLib.GlobalWorkerOptions.workerSrc = `https://cdnjs.cloudflare.com/ajax/libs/pdf.js/${pdfjsLib.version}/pdf.worker.min.js`;
const loadingTask = pdfjsLib.getDocument("dummy.pdf");
loadingTask.promise.then(function(pdf) {
console.log(pdf);
});