text-extraction 相关问题

文本提取是从非结构化和/或半结构化机器可读文档(文本)中自动提取结构化信息的任务。

如何使用 Linux 脚本提取和替换文本

活跃 活跃 角色 默认 <Property> <Name>ACTIVE</Name> <ColumnHeader>Active&#xD; Role</ColumnHeader> </Property> <Property> <Name>DEFAULT</Name> <ColumnHeader>Default&#xD; Role</ColumnHeader> </Property> 我需要提取 <ColumnHeader> 和 </ColumnHeader> 之间的所有文本,然后我需要替换该文本并创建一个新文件。 &#xD; 有问题,我不知道如何应用命令。 假设您的输入存储在文件 input_file.xml 中,要提取 xml/txt 文件中 和 标记之间的值,您可以运行如下 shell 命令: grep -oP '<ColumnHeader>\K.*?(?=<\/ColumnHeader>)' input_file.xml > extracted_text.txt 将提取的值存储在同一脚本中的变量中以便稍后重用: extracted_text=$(grep -oP '<ColumnHeader>\K.*?(?=<\/ColumnHeader>)' input_file.xml) 如果您需要用一些新文本替换原始文件并创建一个新文件(我认为这是您的用例): sed -E 's/<ColumnHeader>.*<\/ColumnHeader>/REPLACEMENT_TEXT/' input_file.xml > replaced_file.xml 在上面的命令中当然你可以使用 REPLACMENT_TEXT 变量: sed -E 's/<ColumnHeader>.*<\/ColumnHeader>/$replacement_text/' input_file.xml > replaced_file.xml 如果您需要替换原始文件中的文本,请执行以下操作: sed -E -i 's/<ColumnHeader>.*<\/ColumnHeader>/REPLACEMENT_TEXT/' input_file.xml 希望这有帮助。 这可能是您想要的,但没有完整的示例输入和预期输出,这只是一个猜测。无论如何,使用任何 awk: $ awk -v beg='<ColumnHeader>' -v end='</ColumnHeader>' -v new='some new text' ' s=index($0,beg) { head = substr($0,1,s+length(beg)-1); next } s=index($0,end) { $0 = head new substr($0,s); head = "" } !head ' file <Property> <Name>ACTIVE</Name> <ColumnHeader>some new text</ColumnHeader> </Property> <Property> <Name>DEFAULT</Name> <ColumnHeader>some new text</ColumnHeader> </Property>

回答 2 投票 0

如何使用 Python 从 PDF 表格的特定列中提取文本?

我尝试过文本/表格提取,但无法隔离特定列。有什么建议吗?该表如下所示: A栏 B栏 细胞1 细胞2 细胞 3 4号牢房 我该怎么办?

回答 1 投票 0

如何仅提取子元素中特定值的父元素条件?

我想提取所有在子元素中具有特定值的父级。例如: 蛇 ...

回答 1 投票 0

Perl/XML:如何仅提取子元素中特定值的父元素条件

我想提取所有在子元素中具有特定值的父级。例如: 蛇 ...

回答 0 投票 0

使用texttract.process使用pdfminer方法提取文本的问题

以下是 Jupyter Notebook 中的代码,它获取数据文件夹中的 pdf 文件,并使用行 text = textract.process(pdf_path, method='pdfminer') 提取文本。 分词器 = tiktoken。

回答 0 投票 0

如何在不更改 PATH 的情况下将程序与 auto-py-to-exe 捆绑在一起?

我想在我的 Python 程序中包含一个外部程序,我将把它转换成 .exe。该程序是 Antiword,texttract 使用它来解析 .doc 文件。如果我的机器上有 Antiword...

回答 0 投票 0

无法使用selenium webdriver从ag-grid读取数据

我正在尝试自动化一个应用程序,其中有多个服务正在运行并显示在 Angular 的 ag 网格中。问题陈述是我无法从中读取数据。 谁都可以吗

回答 0 投票 0

从 Pdf 文件中提取阿拉伯文本(作为图像添加)[已关闭]

我这里有一个pdf文件,我正在尝试从中获取文本,包括英语和阿拉伯语 我尝试过使用超正方体来提取阿拉伯语文本,并设法从主要内容中提取一些内容......

回答 0 投票 0

从多个 HTML 标签中提取文本

我正在尝试完成这项工作,但我不能: $str = "123"; $匹配=数组(); preg_match_all("(?<= 我正在尝试完成这项工作,但我做不到: $str = "<html>1</html><html>2</html><html>3</html>"; $matches = array(); preg_match_all("(?<=<html>)(.*?)(?=</html>)", $str, $matches); foreach ($matches as $d) { echo $d; } 我做错了什么?输出必须是: 123 这应该对你有用: $str = "<html>1</html><html>2</html><html>3</html>"; preg_match_all("~(?<=<html>).*?(?=</html>)~", $str, $matches); foreach ($matches[0] as $d) { echo $d; } 输出: 123 变化是: 在~函数模式中使用缺失的正则表达式分隔符preg_match_all 删除捕获组,因为您已经在使用前瞻和后视,因此整个匹配可以用于进一步处理 在 $matches[0] 循环中使用 foreach 而不是 $matches 在$matches调用之前不需要声明/初始化preg_match_all 您需要添加分隔符(我已经使用了!)并且您可以跳过前瞻/后视。只需围绕您想要的数字创建一个捕获组。没有其他的。 然后在第二个matches元素中查找具有各个值的数组。 例子: preg_match_all("!<html>(.*?)</html>!", $str, $matches); foreach ($matches[1] as $d) { echo $d; }

回答 2 投票 0

如何从链接中提取经度和纬度

从以下链接,我正在尝试提取经度和纬度。我找到了类似的帖子,但没有找到格式相同的帖子。我是正则表达式/文本操作的新手,非常感谢任何指导...

回答 3 投票 0

从 HTML 中提取文本,像浏览器一样处理空格和 <p> 和 <br> 标签

我正在尝试从 XHTML 表格中提取文本作为纯文本,但保留在 HTML 呈现器中呈现文档时会出现的换行符。我不想保留这条线

回答 1 投票 0

如何在电子表格中提取带有特定文本的句子?

在这里输入图片描述 我有一个看起来像这样的电子表格。我想保留文件列,但只提取带有“印度”一词的句子。有没有办法做到这一点?

回答 1 投票 0

改进嘈杂背景的文本检测

我正在使用 opencv 对杂志封面图像进行文本检测。我正在使用基于此处答案的脚本:Extracting text OpenCV。然而,我的图像有更嘈杂的背景。我有...

回答 0 投票 0

获取字符串中数字后出现的文本

我有: $string = "Some minimal or large text 820 some minimal or large descr"; 我需要: 一些最小或大的描述

回答 3 投票 0

如何提取项目符号中的文本

我是编程新手,我不得不承认这有点困难。 我正在尝试从多个 pdf 文件中提取信息。我已经在 R 中收集了所有信息以及我需要...

回答 1 投票 0

构建 Javascript API 以使用 AI 解析和回答有关任何文件的问题 [关闭]

从“pdfjs-dist/legacy/build/pdf.js”导入 pdfjsLib; 异步函数 extractTextFromPDF(pdfBuffer) { const loadingTask = pdfjsLib.getDocument({ data: pdfBuffer }); const pdfDocument = 等待

回答 0 投票 0

NameError:不推荐使用的参数:改为使用 output_format,例如output_format="xml"

我正在尝试从一般新闻报道中提取文本,但我不熟悉网络爬虫,所以不确定如何找出这个 NameError: Deprecated argument: use output_format instead, e.g.

回答 0 投票 0

如何从具有印地语数据的字符串中提取文本

我正在努力从 pdf 页面中提取印地语文本。我能够得到如下所示的字符串形式的结果:- :2-गंगएवंगगगग

回答 0 投票 0

不使用日期时间函数/方法将日期时间字符串拆分为其单独的组件

我有一个字符串 $string = "2012-1-12 51:00:00.5"; 如何在不使用日期函数的情况下将此日期分解为年、月、日、小时、分钟、秒。 我正在尝试多次通话......

回答 4 投票 0

如何从给定的字符串中提取相乘的数字?

我需要从给定的字符串中提取乘数。 乘法参数(作为字符串)是“x”或“*”(星号)。 数字本身可能包含...

回答 4 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.