text-extraction 相关问题

文本提取是从非结构化和/或半结构化机器可读文档(文本)中自动提取结构化信息的任务。

在解析pdf文件时使用pdfminer.six时遇到问题

我正在尝试使用pdfminer.six从pdf中提取文本,我按照下面提到的代码导入pdfminer import io def extract_raw_text(pdf_filename):output = io.StringIO()laparams ...

回答 1 投票 1

如何仅从提取的文本中打印特定数据?

我已经提取了文本,但我已经需要了一段文字。我如何只从文本中打印出想要的部分而忽略所有其他部分? BZN SEA作为LYS VIE OS B部分......

回答 1 投票 0

有没有办法在R中进行部分字符串匹配?

我有2个数据帧。首先有更多行和一个ID列“ALP23456”和其他相关列。第二行的行数较少,ID值作为注释“ALP23456完成...

回答 1 投票 -3

将流程自动化为OCR PDF并使其可搜索

正如标题所示,我正在试图确定是否有可能通过pdf OCR来使其可搜索导出相同(现在可搜索)PDF根据我的研究,第1步和第2步不应该......

回答 1 投票 1

python pdfpage.extract_words抛出错误

我在我的项目中有这个代码来获取pdf中的所有单词。 words = pdfPage.extract_words(0.5,0.5)抛出以下错误:无法转换为十进制。提前致谢。

回答 1 投票 0

如何从一系列文本条目中提取常用/重要短语

我有一系列文本项 - 来自MySQL数据库的原始HTML。我想找到这些条目中最常见的短语(不是单一最常用的短语,理想情况下,不是逐字执行......

回答 4 投票 60

如何在NodeJs中使用Regex从字符串中查找名称

这是我的代码,我为正则表达式编写了单独的函数来提取名称模式,将带有两个字符串的正则表达式传递给函数,函数匹配来自两个输入字符串的一个模式...

回答 1 投票 0

Microsoft计算机视觉OCR - 从区域拼凑线

我正在尝试使用Microsoft的计算机视觉OCR API从图像上的表中获取信息。我遇到的麻烦是返回的数据通常有各种各样的qwerky区域......

回答 1 投票 2

从PowerPoint(.ppt或.pptx)文件中提取文本?

我目前正在使用OpenOffice宏和pdf2text程序的组合来提取文本,并希望找到一种更简单,更有效的方法来从PowerPoint文件中获取文本。我有 ...

回答 3 投票 1

将200K + txt文件中的数据解析/提取到Excel

我有超过200,000个txt文件包含我需要提取的数据,例如地址,名称和支付金额。随着项目的规模和我需要提取的数据的复杂性,什么是......

回答 1 投票 0

我如何删除从python中使用pypdf2提取的条形码中提取的整个非ascii字符串? mantion不是条形码下面的文字[重复]

我在python中使用pyPDF2包将pdf转换为文本,我想从这个文本中提取特定的单词,但是当我将句子传递给代码时会因为pypdf2包而导致错误...

回答 1 投票 -1

如何使用pdfminer.six

我试图在python 3.x中使用pdfminer从pdf中提取文本。当我尝试使用以下命令提取文本时,我使用以下命令pip3 install pdfminer.six安装它,我...

回答 1 投票 1

Python在文本文件中搜索关键字并打印多个关键字的关联行

我正在尝试搜索包含大量无关信息的.txt文件,仅包含一些包含最重要信息的关键字。我想找到这些字并打印出......

回答 2 投票 -1

如何使用正则表达式(RegEx)在某些模式之间提取文本?

我的文字:27/07/18,下午12:02 - user_a:https://www.youtube.com/观看此27/07 / 18,12:15 PM - user_b: 27/07/18,下午12:52 - user_b:完全阅读一些文字。一些......

回答 2 投票 4

从Excel中的字符串中提取年份

我有一个没有重复模式的覆盖日期列表。例如,我有以下字符串:从1951年到1984年;可用于1964年卷:2期:1至2002年卷:20 ...

回答 1 投票 0

在regex OR组中指定一个组

我想匹配字母数字字符,它必须强制包含数字。基本上,我想提取一个订单号,它是字母,数字和一些特殊的组合......

回答 1 投票 1

从pdf文件中提取特定数据

有人可以提供一些解决方案,想法或只是说明如何从pdf文件中提取某些特定数据,我使用pdfbox和PDfTextStripper来提取pdf文件中的所有文本,它是......

回答 1 投票 -1

Bash - 提取2个字符之间的子字符串

字符串可能如下:1cd9f3e7d ... 7b486fef4 lineage-15.1-caf-8952 - > github / lineage-15.1-caf-8952(强制更新)8648766e0..6e7faf655 lineage-15.1-caf-8952 - > github / lineage- 15.1-CAF -...

回答 4 投票 0

需要仅使用imacros在html页面上提取部分文本

我正在尝试在Html页面中提取一部分文本,其中充满了令人困惑的标签。我将尝试更好地解释我的问题:这是html页面的源文件HTML SOURCE IMAGE这是......

回答 1 投票 1

使用BeautifulSoup在HTML注释中的标签内提取文本

我想在没有list标签的注释中的list元素中提取文本。但是我不能用下面的代码来完成它。来自bs4 import BeautifulSoup,评论html =“”“

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.