text-extraction 相关问题

文本提取是从非结构化和/或半结构化机器可读文档(文本)中自动提取结构化信息的任务。

从单元格中提取正好 10 个字符长且包含数字和字母的单词

寻找专家,希望有人能够帮助我。 我有一个很长的联想产品清单,我正在寻找一种方法从中提取其产品编号。 问题是

回答 2 投票 0

com.google.firebase.functions.FirebaseFunctionsException:不存在图像

当我从 kotlin 代码调用函数注释图像时,我得到了 firebase Exception 的响应。 异常消息是===>“com.google.firebase.functions.FirebaseFunctionsException:没有图像

回答 2 投票 0

使用 PyPDF2 从 PDF 中提取阿拉伯语数据

我想用python3编写一个函数,从有235页、大小为13.6mb的阿拉伯语pdf文件中提取数据,重点是从第51页到第67页(含)提取数据,然后过滤提取的数据...

回答 1 投票 0

从多行 CSS 字符串中提取所有十六进制颜色

我正在尝试编写从 CSS 代码中提取所有十六进制颜色的正则表达式。 这就是我现在所拥有的: 代码: $css = << 我正在尝试编写从 CSS 代码中提取所有十六进制颜色的正则表达式。 这就是我现在拥有的: 代码: $css = <<<CSS /* Do not match me: #abcdefgh; I am longer than needed. */ .foo { color: #cccaaa; background-color:#ababab; } #bar { background-color:#123456 } CSS; preg_match_all('/#(?:[0-9a-fA-F]{6})/', $css, $matches); 输出: Array ( [0] => Array ( [0] => #abcdef [1] => #cccaaa [2] => #ababab [3] => #123456 ) ) 我不知道如何指定只匹配那些以标点符号、空格或换行符结尾的颜色。 由于十六进制颜色代码也可能由 3 个字符组成,因此您可以定义一个强制组和一组可选的字母和数字,因此长而详细的表示法将是: /#([a-f]|[A-F]|[0-9]){3}(([a-f]|[A-F]|[0-9]){3})?\b/ 或者,如果您想要一个漂亮而简短的版本,您可以说您想要 1 组或 2 组 3 个字母数字字符,并且它们应该不区分大小写地匹配 (/i)。 /#([a-f0-9]{3}){1,2}\b/i 如果正则表达式引擎支持此 posix 字符类,您也可以编写 [a-f0-9],而不是 [[:xdigit:]]。在这种情况下,您可以跳过末尾的 /i,整个公式仅多了两个字符,但可以说更具描述性。 /#([[:xdigit:]]{3}){1,2}\b/ 接受的答案向您展示了如何使用正则表达式提取十六进制代码,因为这是提出的问题。 如果您想要验证隔离字符串是否是十六进制代码,则可以使用两个非正则表达式函数。 if (ctype_xdigit($color) && strlen($color)==6) { // yay, it's a hex color! } GolezTrol 的答案的简短版本,避免两次写入字符集: /#([a-fA-F0-9]{3}){1,2}\b/ 尽管这个问题已经很久了,我还是想修改以下内容: ^#([[:xdigit:]]{3}){1,2}$,其中 [[:xdigit:]] 是 [a-fA-F0-9] 的简写。 所以: <?php preg_match_all("/^#(?>[[:xdigit:]]{3}){1,2}$/", $css, $matches) ?> 这里还值得注意的是非捕获组的使用(?>...),以确保我们不会将数据存储在我们本来不想存储的内存中。 在线尝试 我不完全确定我是否正确,但如果你只想在 CSS 行末尾匹配十六进制颜色: preg_match_all('/#(?:[0-9a-fA-F]{6}|[0-9a-fA-F]{3})[\s;]*\n/',$css,$matches); 应该可以,我所做的就是添加可选的 \s; 字符组(可选的分号和空格)和换行符(不是可选的),它似乎可以工作。正如 @GolezTrol 指出的那样 #FFF;也有效。 对此进行测试时: $css = '/* Do not match me: #abcdefgh; I am longer than needed. */ .foo { color: #CAB; background-color:#ababab; }'; preg_match_all('/#(?:[0-9a-fA-F]{6}|[0-9a-fA-F]{3})[\s;]*\n/',$css,$matches); var_dump($matches); 输出是: array (array('#CAB;','#ababab;')) 如果您还想支持十六进制颜色的 Alpha 通道,例如#FF0000AA(9位数字),您可以使用: // make sure it is a valid hexcolor value if (preg_match("/(#[0-9A-Fa-f]{8})|(#[0-9A-Fa-f]{3,6})/", $color)) { // valid hexcolor value } 这对于 4 位数字(例如“#F00”)、7 位数字(例如“#FF0000”)和 9 位数字(例如“#FF0055AA”)的十六进制颜色有效。

回答 6 投票 0

使用 SQL 从字符串中提取这些整数的最有效方法是什么?

我有一个工程数据表,我需要报告描述字段中提到的螺栓长度,以粗体标记: 双头螺栓套件,SANS 1700,GR 8.8,SANS 1700,GR 8,镀锌 (8...

回答 1 投票 0

获取指定子串之前的子串

$title = 'the.test.hd.part12'; 我需要保持角色的状态,直到找到“部分”这个词。 应该返回 - the.test.hd.

回答 3 投票 0

使用 pdfminer 将 PDF 转换为 HTML?

我正在开发一个项目,将多个 PDF 文件转换为基本 HTML 以放入网站。我想从 PDF 中提取文本和字体大小以直接解析为 HTML 标签。 我已经尝试过...

回答 1 投票 0

从一串逗号分隔的短语中,获取每个短语的第一个单词

我有一个字符串,例如: “abc b、bcd vr、cd deb” 我想取这个字符串的第一个单词,直到这种情况下的每个点都会产生“abc bcd cd”。我的...

回答 5 投票 0

解析 HTML 并隔离在具有 id 属性的合格标签的已知前缀之后找到的整数

简单来说, 我有一个前缀为“msg”的字符串,后跟一些用作列表项 ID 的数字 例如 ........................<... 简单来说, 我有一个前缀为“msg”的字符串,后跟一些用作列表项 ID 的数字 例如 <li id="msg1"></li>..............<li id="msg1234567890"></li> 获取数字的最有效方法是什么? 在 VB 中,我会执行以下操作: str = "msg1" str = right(str,len(str)-3) 我如何在 PHP 中做类似(或更高效)的事情? 在 php 中也是一样(使用 substr): $str = "msg1"; $str = substr($str,3); 只需使用预浸料: preg_match_all('%<li id="msg(\d+)"></li>%i', $subject, $result, PREG_PATTERN_ORDER); substr( $string, 3 ); 参见 https://www.php.net/manual/en/function.substr.php 解析有效的 HTML 时,请使用 HTML 解析器。 下面演示了如何使用 DomDocument 和 XPath 查询来专门定位带有 li 前缀的 msg 值的 id 元素,然后在推送之前使用 sscanf() 隔离 msg 之后的整数(转换为整数)进入结果数组。 代码:(演示) $html = <<<HTML <ul> <li id="msg1"></li> <li id="msg1234567890"></li> </ul> HTML; $dom = new DomDocument(); $dom->loadHTML($html); $xpath = new DOMXPath($dom); $result = []; foreach ($xpath->evaluate("//li[starts-with(@id, 'msg')]/@id") as $id) { sscanf($id->nodeValue, 'msg%d', $result[]); } var_export($result); 输出: array ( 0 => 1, 1 => 1234567890, )

回答 4 投票 0

从 PDF 中提取文本和字体大小?

我正在尝试创建一个Python脚本,通过提取文本和字体大小并将它们解析为HTML,使用pdfplumber将PDF转换为HTML,但是,我遇到了一些困难。 我是

回答 1 投票 0

使用 pymupdf (fitz) 以自然阅读顺序提取文本

我尝试通过应用本教程使用 pymupdf 或 fitz 提取文本 https://towardsdatascience.com/extracting-headers-and-paragraphs-from-pdf-using-pymupdf-676e8421c467 代替 块...

回答 1 投票 0

从 PDF 中提取时从文本中排除页码

我想使用 pypdf 包从实际文本中排除 PDF 的页码 从 pypdf 导入 PdfReader reader = PdfReader(“pdf-examples/kurdish-sample-2.pdf”) 全文=“...

回答 1 投票 0

尝试使用python从word中提取文本时出错?

我目前正在尝试用 Python 编写一个函数,该函数允许我从 .docx 文件中提取文本。为此,我使用 python-docx 库。我的程序也做了它应该做的事情,至少

回答 1 投票 0

获取XML字符串中二级标签的名称

我正在尝试从 XML 文件获取数据并将其转换为 JSON。 $xml = simplexml_load_file('types.xml','SimpleXMLElement',LIBXML_NOCDATA); $json = json_encode($xml); $array = json_decode(...

回答 2 投票 0

Excel - 在字符串中的特定文本后提取 2 个字符

我希望有人可以帮助我使用 Excel 公式来提取字符串中特定文本后的两个字符。 具体来说,该单元格包含以下文本“每 2 小时功率:1 航程:0...

回答 1 投票 0

从块文本中获取子字符串对并形成关联数组

如何过滤我的内容并在其他地方一起显示这些值。内容通过 XML 加载,并由我们的客户端填充。因此我无法更改这些值。问题是

回答 4 投票 0

从键中获取以特定子字符串开头的数字后缀

我有一个数组,在该数组中我有一个数组键,看起来像,show_me_160,这个数组键可能会稍微改变,所以有时页面可能会加载,数组键可能是show_me_120,我想...

回答 8 投票 0

正则表达式从 pdf 中提取段落并扩展到另一页

我是从 PDF 文件中提取数据的新手。我需要有关提取包含特定关键字的段落内容的帮助。我面临的问题是关键字是的段落,

回答 1 投票 0

获取字符串中最后一次出现空格后的子字符串[重复]

回显$cookie[4]; 结果: #HttpOnly_bacohuracm 假/真 0 PHPSESSID 3A8DB8BE067954EE327A56F7F8D8B19C 我想删除这部分: #HttpOnly_bacohuracm FALSE / TRUE 0 PHPSESSID 并且只得到...

回答 2 投票 0

获取最后一个正斜杠之后的字符串剩余部分

如何收集最后一个/之后的所有内容? 我正在提取 Google GData 使用的 ID。 我的示例字符串是 http://spreadsheets.google.com/feeds/spreadsheets/p1f3JYcCu_cb0i0JYuCu123 哪里...

回答 8 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.