text-extraction 相关问题

文本提取是从非结构化和/或半结构化机器可读文档(文本)中自动提取结构化信息的任务。

在Excel中提取不同长度的文本

我有一个地址数据列表如下。但他们不遵循任何模式。逗号、点或空格用于分隔单词。我应用了公式“=TRIM(RIGHT(A1,FIND(" ",A1,FIND(&quo...

回答 1 投票 0

用于信息提取的 PDF 到 HTML 和 OCR 解决方案

我正在寻找云端或 SDK 格式的 PDF 到 HTML 和 OCR 服务的解决方案。经过搜索,我发现互联网上有很多服务。我尝试了一些...

回答 1 投票 0

以正确的视觉顺序从 PDF 中提取文本

使用 Python 库从 PDF 中提取文本时,所选文本的顺序与您在屏幕上看到的内容不匹配?例如,当我在页面顶部复制一些文本时,然后...

回答 1 投票 0

如何查找文本中的坐标?

这是我的一些文字: `巴勒斯坦帕尔希伯伦省31°31′27″N 35°6′32″E / 31.52417°N 35.10889°E // 31.52417; 35.10889(希伯伦/哈利勒旧城区) 文化:(ii)、(iv)、(vi) 20.6 (51) 2017年 2...

回答 1 投票 0

使用 Tesseract 无法识别图像中的单个字符

我尝试从附图中提取号码 [ 但我没有得到数字 8 作为输出。我也尝试过使用不同的 PSM 值,例如 6、10 等。 这是我到目前为止所拥有的: 图片=...

回答 1 投票 0

在python中从htm中提取标签不一致的文本

我需要摘录 SEC 文件的一部分。不幸的是,不同的公司提交的文件不同,因此每个页面的源代码都不同,看起来我无法提取...

回答 1 投票 0

AWS Textract DetectDocumentText 和AnalyzeDocument 函数有什么区别?

我正在对 AWS Textract 功能进行一些研究。我发现有两种主要方法可以(同步)从 PDF 文件中获取信息:DetectDocumentText 和AnalyzeDocument。我已经...

回答 1 投票 0

使用 C# 将 PDF 转换为可用文本 [已关闭]

是否有一个库有一个类可以从c#.net中的pdf文件中提取文本?我已经尝试了一些,但文档很糟糕,所以我无法将其付诸实践。另外,如果它提供...

回答 4 投票 0

使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是什么? [已关闭]

有没有一个好的库可以从PDF中提取文本?如果需要的话我愿意付出代价。 与 C# 或经典 ASP (VBScript) 一起使用的东西将是理想的,我还需要能够

回答 5 投票 0

OCR 不再是问题了吗?

根据维基百科,“对于拉丁文字、打字文本的准确识别现在被认为很大程度上是在可以提供清晰成像的应用程序中解决的问题,例如扫描 p...

回答 3 投票 0

从 Google Doc Python 中提取文本和评论

我需要帮助从我的一份谷歌文档中提取评论。基本上我想获取评论的文本以及评论框中的内容。例如,如果我评论...

回答 1 投票 0

有没有办法用JS从渲染页面获取所有文本?

有没有一种(对用户来说不显眼的)方法来使用 Javascript 获取页面中的所有文本?我可以获取 HTML、解析它、删除所有标签等,但我想知道是否有办法获取文本…

回答 4 投票 0

将管道分隔值数组打印为 HTML 列表项标签

数据来自Wordpress元框,以单个长数组的形式。 我在元框中插入的数据如下所示: 莱茵雷司令1|0,75升|9,50欧元 莱茵雷司令2|0,75升|9,50欧元 铑...

回答 4 投票 0

如何使用 python 及其库从段落中提取带有缩写的名称?

我目前正在开发一个项目,我必须根据每个段落包含的主题给每个段落一个标签。 为了做到这一点,我从许多单词文档中提取每个段落......

回答 1 投票 0

从自述文本中提取特定于版本的升级通知

我目前正在编写一个 PHP 函数,它应该可以帮助我从给定的自述文本中提取升级通知。 这是我的源文本: 在此通知之前的一些内容,例如带有版本的变更日志...

回答 4 投票 0

从每个单行日志条目中获取日期和白名单关键字

我需要从下面提供的字符串立即返回匹配项的帮助。我需要一个日期(括号之间)和状态(已注册/可联系): [2 月 28 日 13:22:37] 详细 [1111] chan_sip.c: --

回答 1 投票 0

提取 AWS 授权标头字符串的重要部分

我的输入字符串: AWS-HMAC-SHA256 凭证=eyJhbGciOiJIUzI1NiIsIngtc3MiOjEy/20160911/cn/user-service/request,SignedHeaders=主机;x-aws-date,签名=

回答 2 投票 0

使用 PDFBox 提取印地语 PDF 文本

所以我试图从 PDF 文件中提取英语和印地语文本。英文文本已正确提取。但是当我尝试提取印地语文本时,一些字符被圆形/正方形替换。 我

回答 1 投票 0

从单元格中提取正好 10 个字符长且包含数字和字母的单词

寻找专家,希望有人能够帮助我。 我有一个很长的联想产品清单,我正在寻找一种方法从中提取其产品编号。 问题是

回答 2 投票 0

com.google.firebase.functions.FirebaseFunctionsException:不存在图像

当我从 kotlin 代码调用函数注释图像时,我得到了 firebase Exception 的响应。 异常消息是===>“com.google.firebase.functions.FirebaseFunctionsException:没有图像

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.