text-extraction 相关问题

文本提取是从非结构化和/或半结构化机器可读文档(文本)中自动提取结构化信息的任务。

Pdf2text 无法在 Azure 函数应用程序中工作

我使用 textract 构建了一个脚本,它读取 pdf 文件的内容。其中包含以下函数: 导入文本 导入临时文件 def read_file(字节): 与 tempfile.NamedTemporar...

回答 1 投票 0

Javascript:从 PDF 中提取选定的文本到 JavaScript 中的输入文本框

我正在开发一个项目,其中应将选定的 PDF 文本复制到光标所在的输入文本框。 有2个窗户。 1:输入文本框在哪里 2:PDF 是...

回答 1 投票 0

pypdf 文本提取在某些 PDF 上抛出 IndexError

我正在使用Python(v 3.10.11)和pypdf(v 3.17.0)从多个PDF中提取文本。 最近,我遇到了一种特殊类型的文件,我无法从中提取文本,因为库抛出了一个

回答 1 投票 0

如何从 PDF 中提取表格作为文本

我有一个 PDF,其中包含表格、文本和一些图像。我想在 PDF 中任何有表格的地方提取表格。 现在正在手动从页面中查找表。从那里我...

回答 4 投票 0

为什么从 PDF 文件中提取表格数据很困难?

我有一个关于从 PDF 文件中提取文本(精确的表格数据)的一般性问题。 PDF 查看器如何阅读和显示表格?为什么我们不能获得必要的专栏

回答 2 投票 0

无法使用端点和密钥访问天蓝色文档智能

我正在尝试使用azure的文档智能从pdf中提取文本, 我正在使用的代码: 从 azure.ai.formrecognizer 导入 DocumentAnalysisClient 从 azure.core.credentials 导入

回答 1 投票 0

从包含严格格式、分隔值的文本块中提取电子邮件地址

我有一个 ICS 文件,当在谷歌日历、雅虎日历等中创建会议时,该文件将上传到我的服务器中。我已经解析了日期、组织者等。来自 ics 文件。但我不能...

回答 4 投票 0

从 XML 文件中提取 CDATA 内容

我正在尝试使用 XML 的正则表达式根据输入的 URL 解析 PHPIDS 的 XML 规则列表(可在其网站 http://phpids.org/ 下载)。 现在,我对正则表达式知之甚少,但我已经

回答 2 投票 0

有没有一种方法可以以编程方式从自由文本中提取条款(合同长度)

我想从文本中提取合同长度到期限(以月为单位)。自由文本字段的范围包括: “2 x 5 年期限”, “另外 3 x 4 年”, “另外两(2)个五(5)年任期

回答 1 投票 0

VBA - 从扫描的 PDF 中获取文本并将其保存在 Excel 中

我有一个非常具体的问题。我有一个从 PDF 文件中提取文本并将其保存在 Excel 中的代码。问题是由于文本阅读问题,它不适用于扫描的 pdf 文件。 我的代码

回答 1 投票 0

将文本中的方括号子字符串转换为关联数组

我有一个 PHP 脚本,可以解析 argv[] 中的信息片段,但对于如何从长字符串中获取信息有点困惑。我只想要 [msg“某事某事”] 和 [uri“

回答 2 投票 0

匹配连字符的正则表达式(kebab-case)

如何从此字符串行中提取连字符的字符串? ADW-CFS-WE CI SLA Def 无 SLANAME CI 最大中断服务 我只是想从中提取“ADW-CFS-WE”,但一直很不成功......

回答 4 投票 0

从表单提交数组中获取最高合格键后缀

我们有一个动态添加输入的表单。从表单提交页面,我们将得到以下结果 打印_r($_POST) ['wind_1']=hk ['wind_2']=流行音乐 等等等等 ['wind_25']=另一个 我们在这里...

回答 4 投票 0

如何在Python中从字符串中提取单词? [重复]

我有一个以下形式的字符串: 发送=“软件开发=1831”。 我只想从字符串中提取单词,即“软件开发”。 我如何在 Python 中提取它。

回答 3 投票 0

波斯语文本的正则表达式

我对easyocr检测到的一些文本使用了正则表达式。应用正则表达式时它不会返回任何内容。 代码示例: 进口再 导入unicode数据 # 标准化

回答 1 投票 0

如何从 pdf 中提取文本框并将其转换为图像

我正在尝试从包含文本的pdf中获取裁剪框,这对于收集我的模型之一的训练数据非常有用,这就是我需要它的原因。这是一个 pdf 样本: https://github.com/

回答 1 投票 0

从列中提取第一个单词并插入到现有列中

我有一个 tibble,想要根据 N/A 标准从列中提取第一个单词并将其插入到现有列中,我的代码不起作用任何人都可以帮忙: 第二列有状态 n...

回答 1 投票 0

将严格格式为大写字母和数字的字符串分成两半

我有几个格式的字符串 AA11 AAAAAA1111111 AA1111111 我需要分离字符串的字母和数字部分。

回答 6 投票 0

获取第一个非字母之前的子字符串

如何获取字符串从开头到第一个非字母字符的一部分? 示例字符串: 你好世界 你好世界 你好5世界 我想从...那里得到“你好”

回答 5 投票 0

从两个特定字符之间的字符串中间获取短语

我想提取字符串中两点之间的字符串部分。 我的输入字符串是 {you: Awesome;感觉很好} 我想让文字之间感觉良好;和 } 使用 PHP。

回答 4 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.