从 PHP 中的特定 pdf 区域提取文本

问题描述 投票:0回答:1

有没有办法提取pdf文档的一部分并导出为文本文件? 我有一张通过 pdf 发送给我的发票,我希望有一种方法来“检测”该区域以转换为文本并将该值存储到我的数据库中。

我发现一些脚本可以将所有文档转换为文本文件,但它是整个文档,而不是特定部分。

有什么想法吗?

我附上pdf样本区域sample

我想要的只是黄色的部分。可能吗?

php parsing pdf data-conversion
1个回答
0
投票

我发现parsio.com使用api通过ai提取文本。 我有api但是不知道怎么用。

我在文档中发现的是:

<?php

$apikey = '<API_KEY>';
$url = 'https://api.parsio.io/mailboxes/<MAILBOX_ID>/upload';
$filepath = './invoice.pdf';

$curl = curl_init();

curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_HTTPHEADER, array(
    'X-API-Key: ' . $apikey
));
curl_setopt($curl, CURLOPT_POST, true);

$meta = array(
  'foo' => 'bar',
  'my_id' => 42,
);
$metaJson = json_encode($meta);

curl_setopt($curl, CURLOPT_POSTFIELDS, array(
    'file' => curl_file_create($filepath, 'application/pdf', 'invoice.pdf'),
    'meta' => $metaJson
));

$response = curl_exec($curl);
curl_close($curl);

echo $response;

我有 API 和 id...但是当我尝试将此代码添加到 .php 文件中,并且我尝试调用 url 时没有任何反应。 你能帮我创建一个可行的例子吗? 非常感谢

© www.soinside.com 2019 - 2024. All rights reserved.