文本提取是从非结构化和/或半结构化机器可读文档(文本)中自动提取结构化信息的任务。
我是 ML 的绝对新手,确实遇到了以下问题。如果这个句子包含信息,我需要训练一个可以从文本中提取句子(或其中的一段)的模型......
我正在执行一项任务,从 pdf 文件中提取一些信息(印地语)并将其转换为数据框。 我尝试了很多东西并关注了很多文章,关于堆栈溢出的答案是......
使用 jupyter notebook 我正在尝试构建一个程序,该程序将进入该网站“https://npiprofile.com/clia/”,并在列名称“CLIA Numbe ...
我正在做一个关于从文档和 OCR 中提取文本的项目,首先我研究了一些关于这个主题的文献。 我看到网上有很多关于 OCR 和文本提取的东西......
在不使用 grep 或 split 的情况下从 Java 中提取特定字符串
我正在尝试从一个大文件中提取变量及其值。 该文件有数千行,可能包含也可能不包含某些值。这是一个示例文件 学生姓名=james 年龄=13 city=tor...
是否可以使用 PdfSharp 从 PDF 文件中提取纯文本? 我不想使用 iTextSharp,因为它的许可证。
我想从图像中提取文本。该图像可能有很多文字和/或背景图像,并且模型可能会将其他东西误认为是主要主题。 比如我有一个cos的形象...
我无法使用 python 有效地将数据与此文本分离(不同字符“:,|”)
我有一个带有表格的 txt,其中包含文本变量中的内容,我想将元素分成列(AREA、NUMBER、VALUE、VALIDITY、ZONE),如果区域和区域重复则无关紧要。 .
有谁知道可以将此类图像转换为可搜索的 PDF 的工具?例子 那里有很多 OCR 工具,但我还没有找到一个可以在文本为
我目前正在做一个项目,你可以用手机拍一张菜单的照片,然后提取所有数据并将其存储在数据库中。 我在后端使用 PHP,我正在努力......
检测 pdf 中的数字列表并为每个点创建一个新图像,周围有一个矩形
首先这是我第一次使用 Python。 我有一个像这样的白色背景的pdf: 对于这个数字列表的每个点,我想创建一个像这样的新图像: 还有其他文字……
我只想提取每个单元格中的第一行文本。 (抱歉,我想不出另一种方式来说明屏幕截图)。 我在 Company 列中使用这个公式来查找新行
我必须从PDF文档中提取信息,所有文档都具有相同的结构。我使用以下正则表达式: regex_objetivos = r"Objetivo([\s\S]*)(?=3\s*\.\s*Justi)"
Python - 按像素位置分割pdf或powerpoint?
我将首先解释我的困境:我有几千个powerpoint文件(.ppt),我需要提取文本。问题是文本是混乱的文件,当阅读作为一个完整的......
我使用pdfplumber从pdfs中提取文本,但当我试图导入数据使用to_csv扔#我一个错误。需要帮助导入数据到csv导入pdfplumber导入pandas作为pd... ...
PDFBox在Android Studio上提取文本连接符 "fi"、"fl "的问题。
我正在使用这个https:/github.comTomRoushPdfBox-Android Studio上的PDFBox库从一个PDF文档中提取文本。下面是我正在做的事情。File pdf_file = new File(file_path); 创建...
我在一个文件夹里有多个文本文件,其中包含很多随机数据和代码。我试图提取特定字符串的开始和结束之间的文本(我猜测有一个 ...
我正在使用Amazon Textract来分析匿名血液测试。它由标志物、它们的值、单位、参考区间组成。我想把它们提取到一个像这样的字典中。{"球蛋白": {"球蛋白": [2. 8, gidL, [...
我想把单词提取出来形成一个段落串。我搜索了很多地方,但没有找到相对的材料。我想从 "I want to have a lot of money's "中提取长度为4的单词。