text-extraction 相关问题

文本提取是从非结构化和/或半结构化机器可读文档(文本)中自动提取结构化信息的任务。

从文本Python中提取带有某些词的句子

我是 ML 的绝对新手,确实遇到了以下问题。如果这个句子包含信息,我需要训练一个可以从文本中提取句子(或其中的一段)的模型......

回答 0 投票 0

从 PDF 文件中提取印地文文本

我正在执行一项任务,从 pdf 文件中提取一些信息(印地语)并将其转换为数据框。 我尝试了很多东西并关注了很多文章,关于堆栈溢出的答案是......

回答 3 投票 0

我需要对网站进行数据抓取,但我的代码无法正常工作

使用 jupyter notebook 我正在尝试构建一个程序,该程序将进入该网站“https://npiprofile.com/clia/”,并在列名称“CLIA Numbe ...

回答 0 投票 0

OCR处理步骤和边界框是否被深度学习模型取代?

我正在做一个关于从文档和 OCR 中提取文本的项目,首先我研究了一些关于这个主题的文献。 我看到网上有很多关于 OCR 和文本提取的东西......

回答 0 投票 0

在不使用 grep 或 split 的情况下从 Java 中提取特定字符串

我正在尝试从一个大文件中提取变量及其值。 该文件有数千行,可能包含也可能不包含某些值。这是一个示例文件 学生姓名=james 年龄=13 city=tor...

回答 2 投票 0

C# 使用 PdfSharp 从 PDF 中提取文本

是否可以使用 PdfSharp 从 PDF 文件中提取纯文本? 我不想使用 iTextSharp,因为它的许可证。

回答 4 投票 0

我们如何从图像中提取某些文本?

我想从图像中提取文本。该图像可能有很多文字和/或背景图像,并且模型可能会将其他东西误认为是主要主题。 比如我有一个cos的形象...

回答 0 投票 0

我无法使用 python 有效地将数据与此文本分离(不同字符“:,|”)

我有一个带有表格的 txt,其中包含文本变量中的内容,我想将元素分成列(AREA、NUMBER、VALUE、VALIDITY、ZONE),如果区域和区域重复则无关紧要。 .

回答 0 投票 0

OCR 工具用于多个不同的倾斜/倾斜文本?

有谁知道可以将此类图像转换为可搜索的 PDF 的工具?例子 那里有很多 OCR 工具,但我还没有找到一个可以在文本为

回答 1 投票 0

你会如何从jpg中提取图像和文本[关闭]

我目前正在做一个项目,你可以用手机拍一张菜单的照片,然后提取所有数据并将其存储在数据库中。 我在后端使用 PHP,我正在努力......

回答 0 投票 0

检测 pdf 中的数字列表并为每个点创建一个新图像,周围有一个矩形

首先这是我第一次使用 Python。 我有一个像这样的白色背景的pdf: 对于这个数字列表的每个点,我想创建一个像这样的新图像: 还有其他文字……

回答 0 投票 0

只提取谷歌表格中每个单元格的第一行

我只想提取每个单元格中的第一行文本。 (抱歉,我想不出另一种方式来说明屏幕截图)。 我在 Company 列中使用这个公式来查找新行

回答 3 投票 0

策略性地追踪各种模式 - python 正则表达式

我必须从PDF文档中提取信息,所有文档都具有相同的结构。我使用以下正则表达式: regex_objetivos = r"Objetivo([\s\S]*)(?=3\s*\.\s*Justi)"

回答 0 投票 0

Python - 按像素位置分割pdf或powerpoint?

我将首先解释我的困境:我有几千个powerpoint文件(.ppt),我需要提取文本。问题是文本是混乱的文件,当阅读作为一个完整的......

回答 1 投票 0

需要帮助将数据从pdfplumber导入到.csv文件中。

我使用pdfplumber从pdfs中提取文本,但当我试图导入数据使用to_csv扔#我一个错误。需要帮助导入数据到csv导入pdfplumber导入pandas作为pd... ...

回答 1 投票 0

PDFBox在Android Studio上提取文本连接符 "fi"、"fl "的问题。

我正在使用这个https:/github.comTomRoushPdfBox-Android Studio上的PDFBox库从一个PDF文档中提取文本。下面是我正在做的事情。File pdf_file = new File(file_path); 创建...

回答 1 投票 1

从txt文件中提取字符串并添加到列表中 - Python3

我在一个文件夹里有多个文本文件,其中包含很多随机数据和代码。我试图提取特定字符串的开始和结束之间的文本(我猜测有一个 ...

回答 1 投票 0

从分析的图像中提取医学标志物名称、数值和单位?

我正在使用Amazon Textract来分析匿名血液测试。它由标志物、它们的值、单位、参考区间组成。我想把它们提取到一个像这样的字典中。{"球蛋白": {"球蛋白": [2. 8, gidL, [...

回答 1 投票 0

在PHP中如何从一个字符串中提取标题标签?

从一个包含了大量HTML的字符串中,我怎样才能从

回答 7 投票 5

如何提取长度不变的单词形成一个段落?

我想把单词提取出来形成一个段落串。我搜索了很多地方,但没有找到相对的材料。我想从 "I want to have a lot of money's "中提取长度为4的单词。

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.