text-extraction 相关问题

文本提取是从非结构化和/或半结构化机器可读文档(文本)中自动提取结构化信息的任务。

为什么Tesseract OCR无法捕获正确的输出?如何解决?

下面是我正在使用的代码,但它给了我奇怪的输出,而不是实际的文本。向经验丰富的OCR寻求帮助的人。这是我得到的输出-预期的输出-导入...

回答 1 投票 0

textract已成功安装-ModuleNotFoundError:没有名为'textract'的模块

textract已成功安装到我的系统中-请查看屏幕截图。运行程序时出现以下错误,ModuleNotFoundError:名为'textract'的模块没有导入textract textract...。

回答 1 投票 0

从一个循环中的多个字符串中提取数字

我是python和python社区的新手,我希望平台上的某人可以为我提供以下帮助。我正在尝试从Python学习Beautiful beautiful package来抓取一些数据...

回答 1 投票 0

从列中提取不在列表中的单词并创建新列

我想从列中的字符串值中提取特定的子字符串。在下面的代码中,您将看到我已经成功提取了年份,品牌和型号。导入大熊猫作为pd数据= [['...

回答 1 投票 0

从字符对之间的文本剥离字符串(使用正则表达式或其他方式)

我有长文本文件(实际上是.srt字幕文件)-不幸的是,其中包含许多无关紧要的信息。所有无关的文本都包含在相同的pilcrow对中(...

回答 1 投票 0

我如何正确提取以下文本?

im试图从以下文本中提取标题,其他信息和地址。但是,当附加项不存在时,我似乎无法确定由什么决定标题。我目前...

回答 1 投票 0

[使用Python3从日志文件中提取所有JavaScript文件名

我是Python3的新手,正在使用文本文件。我试图从以JavaScript(.js)扩展名结尾的日志文件中提取所有文件名。该文件还包含其他文件扩展名。我想...

回答 2 投票 0

R-用2个字符串将多行定界文本的每个实例提取并解析为单独的行(从.txt到data.frame)

我相信这是一个循环和gregexpr()问题。我正在尝试从i个标准化的.txt格式中的i个标准化实例中提取/导出多行文本到一个数据帧中,其中...

回答 1 投票 1

R-将提取的文本数据(每个实例作为行)导出为data.frame格式

我正在尝试从i个标准化.txt格式中的i个标准化实例中提取文本/将文本导出到数据帧中,其中每个实例都是单独的一行。然后,我想导出该...

回答 1 投票 1

Regex,查找所有均为大写字母的句子

我需要你的帮助。目前,我正在使用此代码段进行工作; altbaslik = []用于句子索引中的行:找到= re.match(r“ \ w * [AZ] \ w * [AZ] \ w * | [Ö|Ç|Ş|Ü|Ğ|İ]”,行) ...

回答 1 投票 0

如何从表示坐标集合的字符串中提取数据?

我有一个长字符串,看起来像这样:[(1,1.89),(1,3.93),(4,8.65),(4,9.35),(1,2.4),(1,2.37),( 1,2.14),(1,2.35),(4,7.46),(4,9.21),(4,9.21),(1,1.48),(1,2.96),(4,10.39),(。 。

回答 4 投票 0

如何使用重影脚本从pdf提取文本并将其放入EXCEL文件(而非文本文件)?

我知道我们可以使用PyPDF2和所有不同的python库。但是我想特别使用幽灵脚本。

回答 1 投票 -3

从多个PDF提取文本并写入单个CSV

我想遍历目录中的所有PDF,使用PDFminer从每个PDF中提取文本,然后将输出写入单个CSV文件。我可以从每个PDF中提取文本...

回答 1 投票 -1

从javascript生成的输出中提取html源代码

我目前正在一个项目中,该项目可在我们的学校实时找到空教室。为此,我需要提取在学校页面(https://ssnovohradska.edupage ....

回答 1 投票 -2

仅从熊猫数据框中提取数字和仅字符串

我正在尝试仅提取两个不同数据框中的数字和字符串。我正在使用正则表达式提取数字和字符串。以pd df_num = pd.DataFrame({'...

回答 1 投票 0

从pdf提取矩形中的文本-Python

我要求从Pdf中提取矩形的文本。我测试了几种方法。但没有得到具体的文字。例如,我用PyMuPDF,pdfplumber,tabula ......] >>

回答 1 投票 -1

我如何使用XPath提取此列表?

我正在尝试从过滤器区域获取文本列表。我应该使用什么XPath?抱歉,我不擅长XPath。其中一个页面的网址:etstur.com/Antalya-Otelleri在此先感谢任何...

回答 1 投票 0

使用C#visual studio从txt文件中提取数据

我以前从未使用过C#。我需要一些帮助。我有一个包含很多行的txt文件,其格式为:30/11/2017 18.09.47 [R] 2211300001 2.5 77.9 2.4 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 ......>

回答 1 投票 1

[使用C#提取txt文件中的数据

我以前从未使用过C#。我需要一些帮助。我有一个包含很多行的txt文件,其格式为:30/11/2017 18.09.47 [R] 2211300001 2.5 77.9 2.4 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 ......>

回答 1 投票 1

通过排除导航和镶边内容从HTML页面提取纯内容/文本

我正在爬新闻网站,并希望提取新闻标题,新闻摘要(第一段)等,因此我将其插入到Webkit解析器代码中,以便像树一样轻松地浏览网页。消除导航...

回答 4 投票 4

© www.soinside.com 2019 - 2024. All rights reserved.