与从(通常是最低结构化的)数据源检索特定信息有关的问题,例如网站,媒体文件,源代码集合或压缩存档(在这种情况下,所需信息是一个或多个原始的未压缩文件)。使用此标记时,请添加其他标记以阐明您的问题所涉及的特定环境/语言/方案。
C++:PDF解析-->提取文本-->podofo-0.10.3
我已经在 Visual Studio 2022 中成功编译了 PoDoFo 0.10.3。 现在我想使用这个库从 PDF 文档中提取文本,但我在 API 上遇到了困难。 即使我找不到任何考试...
推荐提取api/库,以便更好地使用Nodejs提取pdf中的所有信息
在 Nodejs 中,哪个库或 api 最适合提取 pdf 文件中的信息。 像文本(它们如何正确地构造)、图像(加上图像上的信息,比如文本,如果它去的话......
如何解决 pyodbc 中的[错误]错误:('HY000','驱动程序未提供错误!')
我正在致力于通过 DataDirect 混合数据管道 ODBC 驱动程序从外部基于云的源中提取数据。实际的提取是通过 AWS Lambda 函数运行的,该函数通过以下方式调用:
在 Windows 11 上从命令行使用 7z.exe (v19.00 x64) 我已经尝试过这些语法: "C:\Program Files -Zip z" x -bb3 -x"Www.WebAddress.Net - 我的网站.url" -o_Extracted -
如何使用 bs4 在 HTML 中查找包含 : 且不包含 = 的数据
嗨,我目前在使用 bs4 和正则表达式查找 html 中的信息时遇到问题,因为它们包含在 : 中,而不是像我习惯的 = 中。 您好,我目前在使用 bs4 和正则表达式在 html 中查找信息时遇到问题,因为它们包含在 : 中,而不是像我习惯的 = 中。 <div data-react-cache-id="ListItemSale-0" data-react-class="ListItemSale" data-react-props='{"imageUrl":"https://laced.imgix.net/products/aa0ff81c-ec3b-4275-82b3-549c819d1404.jpg?w=196","title":{"label":"Air Jordan 1 Mid Madder Root GS","href":"/products/air-jordan-1-mid-madder-root-gs"},"contentCount":3,"info":"UK 4.5 | EU 37.5 | US 5","subInfo":"DM9077-108","hasStatus":true,"isBuyer":false,"status":"pending_shipment","statusOverride":null,"statusMessage":"Pending","statusMods":["red"],"price":"£125","priceAction":null,"subPrice":null,"actions":[{"label":"View","href":"/account/selling/M2RO1DNV"},{"label":"Re-Print Postage","href":"/account/selling/M2RO1DNV/shipping-label","options":{"disabled":false}},{"label":"View Postage","href":"/account/selling/M2RO1DNV/shipping-label.pdf","options":{"target":"_blank","disabled":false}}]}'></div> 我正在尝试提取中的href链接 {"label":"Re-Print Postage","href":"/account/selling/M2RO1DNV/shipping-label" 我该怎么做?我尝试过正则表达式、find_all 但无济于事。谢谢 我的代码如下供参考,我将#放在我尝试过的解决方案旁边 account_soup = bs(my_account.text, 'lxml') links = account_soup.find_all('div', {'data-react-class': 'ListItemSale'}) #for links in download_link['actions']: #print(links['href']) #for i in links: #link_main = i.find('title') #link = re.findall('^/account*shipping-label$', link_main) #print(link) 您需要获取每个 data-react-props 的 div 属性,然后将其解析为 JSON。然后,您可以迭代 actions 属性并获取与您的描述匹配的 href 属性: actions = [] for l in links: props = json.loads(l['data-react-props']) for a in props['actions']: m = re.match(r'^/account.*shipping-label$', a['href']) if m is not None: actions.append(m[0]) print(actions) 样本数据的输出: ['/account/selling/M2RO1DNV/shipping-label']
请检查此链接 https://maroof.sa/businesses。 这是我想从中提取链接的网站的链接。 例如,如果您向下滚动,您会找到商店名称“Marwa store&qu...
我有一个项目,要求我使用Python从一堆pdf文件中提取内容,包括文本、图像和表格,按照它们在原始文件中出现的顺序,我的专业人士...
我有一个包含许多表格的pdf文件。这是一个很长的文件(35页).. 我尝试通过excel导入表格,但没有成功。网上的一些工具也试过了,还是不行。有什么建议吗...
我正在使用 Hec-Ras 对河流三角洲进行二维非稳态建模。我的模型模拟了一年。我需要提取速度和/或放电并将它们与已经存在的速度进行比较
我有一个.NET 7版本的.NET控制台应用程序项目,并且我已经发布了这个项目,导致只有一个.exe文件用于运行该项目。我向该项目添加了一个 .xml 文件并想要...
我有一个.NET 7版本的.NET控制台应用程序项目,并且我已经发布了这个项目,导致只有一个.exe文件用于运行该项目。我向该项目添加了一个 .xml 文件并想要...
我正在尝试查找某种类型的文件是否包含字符串并希望从文件中提取整个匹配行 为了获取包含文本的文件列表,我正在尝试使用 find mod...
我想从网站中提取特定链接。 链接看起来像这样: /主题/有趣/G1pdeJm 链接始终相同 - 除了最后一个随机字符。 我很难将它们结合起来...
我想在一个充满Word文档的文件夹上运行一个脚本,该脚本读取文档并提取图像及其标题(图像正下方的文本)。根据我所做的研究,我
我需要通过正则表达式从字符串中提取数值,但我遇到了字符问题。 这是我得到的字符串样式: XC.qca955x.v7.2.4.31259.160714.1715 目标是获得:7.24...
我在VB.NET中有这段代码: MessageBox.Show(Regex.Replace("示例 4.12.0.12", "\d", "")) 它删除/提取数字 我也想删除点 所以我尝试了 MessageBox.Show(Regex.Replace("Ex...
我有数据表dt.data,其中begTime列是具有特殊日期格式的字符列。日期格式如下:01-MON-YY。 这是我的数据表的样子: dt.数据...
如果我知道的是这个文本:8039089332,我该如何提取文本:mytr161 如果我所知道的文本是:8039089332,我该如何提取文本:mytr161 <tr bgcolor="#dcdcdc" id="mytr161"> <td align="right" bgcolor="#BDB9B4"><input type="checkbox" id="ck161" name="ck161" value="1" onclick="javascript:changebgcolor('161');"></td> <td align="center" nowrap=""><small><font size="2"> <a href="MfSchOpen850PODetail.asp?lpo=8039089332&litem=hidingit&Plant=hidingitaswell&lsimplifyordertype=hidden" target="Podetail">8039089332</a> </font></small> </td> 我有一个数字列表,如文本:8039089332。我想单击它旁边的复选标记。为此,我正在考虑如何编写一段javascript代码来循环遍历数字列表,然后单击复选标记,我认为,首先需要找到文本的id:8039089332。然后可能找到一种方法来修剪id删除文本“mytr”并将其替换为“ck”。 这是我第一次尝试 javascript,我现在不知道该怎么做,因为我无法提取我拥有的数字列表的 id。 //获取距离按钮最近的元素 varclosestTR=button.closest('tr'); //获取最近的id属性 var trId = 最接近的TR.id; // 用提取的 id 做一些事情(例如,将其记录到控制台) console.log('TR ID:', trId);
我有一个 .pkg 文件,当我使用 7z 解压它时,它会给我一个包含文件的文件夹,其中一些是压缩的 gzip 文件。现在,我想从终端提取以下存档 它...
我有供应商发送的.sql 文件,我正在尝试从中提取数据,因为我的公司正在与供应商关闭帐户。 我相信我需要创建与供应商数据库的连接...