web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

Selenium 抓取不断返回 ValueError:以 10 为基数的 int() 的无效文字:''

当尝试抓取网站时,他们无法在我的页面索引变量中找到文本。用于分页的 len() 显示了正确的数字,所以我知道它找到了我想要的元素。只需 n...

回答 1 投票 0

使用 Beautifulsoup 解析 HTML - Print 可以工作,但 Return 不行

为什么 print() 返回这些标签下的所有文本,而 return 却没有? 这是我正在使用的功能- def parse_html(数据): ls = [] htmlParse = BeautifulSoup(data, 'html.parser') ...

回答 1 投票 0

Python - 在浏览器上将 PDF 特定页面上的表格列读取为 NumPy 数组

任务 本 PDF 第 10 页有表 1。我想将“WHO World Standard*”列作为 NumPy 数组来阅读。 (失败)尝试 Tabula 引发 urllib.error.HTTPError: HTTP 错误...

回答 2 投票 0

如何使用selenium for aparat 像视频一样点击

我已经开始网络抓取。我想喜欢使用 selenium 和 python 的 https://www.aparat.com/v/T8gqi?playlist=1869949 的视频,但我的代码中存在问题,无法找到正确的

回答 1 投票 0

尝试将 json 数据作为多行文本嵌入到 json 数据列表中的键中,并将该列表保存为缩进良好的 json 文件

我有一个名为 mylist 的 json 数据列表,其中包含网站的数据。我想将站点的网络日志作为值附加到键值对的列表中。由于网络日志是一个大数据,我...

回答 2 投票 0

BeautifulSoup4 和 Pandas 返回空 DataFrame 列:更新:现在在 Google-Colab 上使用 Selenium

我正在寻找世界银行的公开名单 我不需要分支机构和完整地址,只需要名称和网站。我想到数据... XML、CSV ... 具有这些字段: 银行名称、国家/地区...

回答 1 投票 0

无法从亚马逊抓取Buybox价格

我正在尝试通过 selenium chrome Web 驱动程序从 Amazon PDP https://www.amazon.co.uk/SheaMoisture-Treatment-silicone-sulfate-transitioning/dp/B01HOD3ZVQ/ 中提取价格。 尝试过: X路径 CSS 选择器...

回答 1 投票 0

如何从 wiki 页面抓取和存储多个表?

我正在尝试从幸存者维基页面上的三个特定表中提取数据。主要是常量表、赛季总结表和投票历史表。我可以让它为参赛者很好地工作......

回答 1 投票 0

使用 Selenium 抓取网页

我想使用 Selenium 抓取网页,我无法绕过 cloudflare 机器人检查。以前我使用下面的代码从这里获取数据表。由于云耀斑机器人,下面的代码失败了......

回答 1 投票 0

使用 python playwright 获取 href 链接

我正在尝试提取 href 内的链接,但我发现它只是元素内的文本 网站代码如下: 我正在尝试提取 href 内的链接,但我发现它只是元素内的文本 网站代码如下: <div class="item-info-container "> <a href="/imovel/32600863/" role="heading" aria-level="2" class="item-link xh-highlight" title="Apartamento T3 na avenida da Liberdade, São José de São Lázaro e São João do Souto, Braga"> Apartamento T3 na avenida da Liberdade, São José de São Lázaro e São João do Souto, Braga </a> 我使用的代码是: element_handle = page.locator('//div[@class="item-info-container "]//a').all_inner_texts() 无论我是否指定//a[@href],我的输出始终是标题文本: Apartamento T3 na avenida da Liberdade, São José de São Lázaro e São João do Souto, Braga 当我真正想要实现的是: /imovel/32600863/ 我的逻辑在哪里失败了,有什么想法吗? 使用get_attribute: link = page.locator('.item-info-container ').get_by_role('link').get_attribute('href') 多个定位器: link_locators = page.locator('.item-info-container ').get_by_role('link').all() for _ in link_locators: print(_.get_attribute('href')) 只需省略 // 并使用以下 XPath-1.0 表达式: //div[@class="item-info-container "]/a/@href 这将为您提供 @href 属性的值:“/imovel/32600863/”。 整个命令可能是 element_handle = page.locator('//div[@class="item-info-container "]/a/@href').all_inner_texts() 但是表达式的结果不是元素,而是属性,所以这可能会失败。 设法通过查找所有元素,然后在处理所有元素后获取属性来做到这一点。 handleLinks = page.locator('//div[@class="item-info-container "]/a') for links in handleLinks.element_handles(): linkF = links.get_attribute('href') print(linkF) 结果将是: /imovel/32611494/ /imovel/32642523/ /imovel/32633771/ /imovel/32527162/ /imovel/30344934/ /imovel/31221488/ /imovel/32477875/ /imovel/31221480/ /imovel/32450120/ /imovel/32515628/ /imovel/32299064/

回答 3 投票 0

Symfony/panther web 抓取不适用于登录后的内容(云功能)

使用 \Symfony\Component\Panther\Client; 需要 __DIR__ 。 '/vendor/autoload.php'; $选项= [ '--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, 如 Gecko) Chr...

回答 1 投票 0

用于工作站点的 Selenium Webscraper 在进度的特定点中断。该怎么办?问题出在哪里?

我构建了这个网络爬虫来监控足球俱乐部的工作职位。我几个月前写的,直到一周前才有效。现在,它有多个问题。 无论哪种方式。我尝试修复它,改变了

回答 1 投票 0

Symfony HttpClient 和简单 HTML DOM?

我使用 Symfony\Component\HttpClient\HttpClient 来检索页面内容,因为我使用代理。 // 自定义客户端 $this->httpClient = HttpClient::create( [ '亲...

回答 1 投票 0

使用请求抓取亚马逊时出现问题:即使使用 cookie 和 headers,我也会被阻止。我只能用浏览器抓取。有什么解决办法吗?

当我尝试抓取亚马逊时,请求模块不再为我工作,我尝试过使用cookie、标头、更改IP,但除了通过浏览器抓取之外,没有什么真正有效的。是否...

回答 2 投票 0

使用 Python 脚本运行 WebDriver 时出错

我在使用库 selenium 在 python 中使用脚本运行执行 Webdriver 时遇到问题。我已经发布了示例代码场景以及执行时抛出的相应错误。

回答 2 投票 0

雅虎财经网络抓取 - 财务表格

大家晚上好! 我正在尝试从雅虎财经(https://finance.yahoo.com/quote/AMZN/financials)获取资产负债表、损益表和现金流量。 这是我已经拥有的代码: #

回答 1 投票 0

从网站上抓取表格仅返回空表格

我尝试从链接中删除表格:https://archive.twitter-trending.com/united-states/16-11-2023。 我的目标是从此链接获取所有表格。我使用以下代码: 图书馆(rvest) 图书馆(dplyr) 链接...

回答 1 投票 0

无法使用请求模块从网页中抓取一些产品的名称

我正在尝试使用请求模块从该网页中抓取沙发的名称,如下所示。当我观察该请求的网络活动时,我看到那里应用了与我相同的逻辑......

回答 1 投票 0

Scrapy 请求出现 403 错误,尽管 python 'get' 请求工作正常

尝试使用Scrapy获取少数网站的内容,但它们都返回403(禁止)响应代码。尽管当我使用“get”函数发出请求时,相同的网站工作正常,如下所示: 小鬼...

回答 1 投票 0

page.setRequestInterceptionEnabled(true) 阻止页面完全加载 puppeteer 中的所有组件

重现步骤 创建一个页面 将请求拦截设置为 true 使用 waitUntil 转到 https://google.com/maps/search/google: 'networkidle0' 左侧的位置列表不可见(在

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.