web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

为什么我的 chrome.storage.session 对象从未更新过?

我需要一些帮助来改进我的 scraper chrome 扩展。 我尝试总结一下该扩展的作用: 单击 popup.html 中的按钮会打开 10 个选项卡: 弹出窗口.js scrapeRiassunto.addEventListener(&q...

回答 1 投票 0

初学者问题网页抓取(需要帮助)

我只是想问你是否可以告诉我这个网站是否可以废弃。 我尝试了很多方法但没有结果。 所以我只是想知道。 https://www.enterprise.com/en/car-rental.html?icid=header.

回答 1 投票 0

使用 python 在 Barchart.com 上自动下载文件

我想从此链接自动下载表格: https://www.barchart.com/options/iv-rank-percentile/stocks 为了做到这一点,在一些教程的帮助下,我写了这篇

回答 2 投票 0

bs4 中的 Soup.find 无法从 h1 标签中抓取,但适用于所有其他 HTML 标签

我在使用 BeautifulSoup 4 时遇到问题。我的代码运行良好,然后开始出错,无法再从 h1 标签收集内部文本。奇怪的是,它与所有功能都完美配合

回答 1 投票 0

如何在Python中使用selenium迭代项目列表并提取img?

我正在尝试使用 Selenium 从网站上抓取数据。该网站包含一个项目列表,每个项目都具有具有特定 data-aut-id 属性的各种属性。我正在使用循环来迭代...

回答 1 投票 0

使用 python 在 facebook 上提取有关特定 # 的帖子

我想找到有关特定#的帖子,无论它在哪里使用,并将所有数据保存到 csv 文件中我是网络抓取新手,任何人都可以指导我如何开始 提取数据的过程...

回答 1 投票 0

无法让我的脚本仅从顽固的网站获取下一页的链接

我用 python 创建了一个脚本,用于从遍历多个页面的网站中仅抓取到不同餐厅的链接。我可以通过查看某个文本位置来查看有多少个链接...

回答 3 投票 0

为什么scrapy shell没有返回输出?

我遵循本教程是因为我想学习网络抓取。 https://www.datacamp.com/tutorial/making-web-crawlers-scrapy-python 当我开始使用 CSS 选择器进行提取时,我...

回答 1 投票 0

如何在 Python 中发出 API 请求

我正在尝试向 CloudScrape 上的在线网站抓取工具发出 API 请求,文档显示了以下示例。 POST /api/runs/{runId}/execute/inputs/wait HTTP/1.1 X-CloudScrape-Ac...

回答 2 投票 0

如何在selenium(python)中排除类名?

我正在尝试从博彩公司网站上抓取数据,但我只需要非现场活动。非实时事件块元素如下所示: 我正在尝试从博彩公司网站上抓取数据,但我只需要非现场活动。非实时事件块元素如下所示:<div class="card ng-star-inserted"。但现场活动元素看起来像这样:<div class="card card--live ng-star-inserted。 我用来获取参赛队伍名称的代码: website = 'https://winline.ru/stavki/sport/futbol' driver.get(website) team1 = [] team2 = [] driver.implicitly_wait(3) table_winline_1 = driver.find_elements(By.CLASS_NAME, "card.ng-star-inserted") for match in table_winline_1: team1.append(match.find_element(By.XPATH, './div[1]/a/div/div[1]').text) team2.append(match.find_element(By.XPATH, './div[1]/a/div/div[2]').text) print(team1) print(team2) 它为我提供了团队列表,从现场活动的团队开始。 如何排除div class="card card--live ng-star-inserted? 我还尝试使用 xpath 和 css 选择器定位器,但由于某种原因它们返回空列表 英语不是我的母语,所以如果我的信息中有任何错误,我很抱歉。 我认为 XPath 中的 not contains 可以帮助你。 match.find_element(By.XPATH, '//*[not(contains(@class,"card--live"))]')

回答 1 投票 0

从新闻网站提取的文本数据应该存储在哪种数据类型中以进行 NLP?

我使用 beautifulsoup 提取了以下文本数据 对于 soup2.find_all(class_="td-post-content") 中的数据: data.get_text() 我应该将上面提取的数据类型存储在哪种类型中

回答 1 投票 0

使用 Selenium 进行网页抓取(不起作用)

我是使用 Selenium 进行网页抓取的初学者。我正在尝试打开特定的谷歌个人资料(因为所有网站都已经登录)。我很高兴代码能够打开特定的...

回答 1 投票 0

requests_html render() 抛出 OSError: [WinError 14001]

您好,我正在尝试使用 python 模块 requests-html 进行网页抓取,以处理页面 https://www.monster.com/jobs/search?q=Software+Engineer&where= 上的动态内容。我的代码是: 来自

回答 2 投票 0

我如何使用请求获取网站html代码?

我重复了教程中的所有步骤,但我没有得到代码。虽然几天前一切正常 我写了一个简单的代码: 导入请求 url = 'https://i-teka.kz/almaty/spisokap...

回答 1 投票 0

我有一个多级<IFRAMES>脚本;如何访问另一个 IFRAME 内的 IFRAME 内的特定文本框

我正在尝试使用 Selenium 访问嵌套 IFRAME 结构内的文本框。 下面是结构。 我正在尝试使用 Selenium 访问嵌套 IFRAME 结构内的文本框。 下面是结构。 <frameset border="0" framespacing="0" frameborder="0" rows="120,*"> <frame name="start_main" scrolling="no" noresize target="contents" src="start_main"> <frameset cols="139,*"> <frame name="start_sub" scrolling="no" target="main" src="start_sub"> <frame name="start_body" src="start_body"> </frameset> <noframes> <body> <p>This page uses frames, but your browser doesn't support them.</p> </body> </noframes> </frameset> 我需要访问的文本框位于“start_body”中 <input type="integer" name="part_num" size="14" style="font-size: 8pt" value=""> 我已经使用 Selenium 登录并在非 IFRAME 页面中输入文本,但这让我难住了。 这是我到目前为止所尝试过的。 这是我到目前为止尝试过的代码。 driver.switch_to.frame('start_body') sleeptime = random.uniform(time_min, time_max) time.sleep(sleeptime) # # enter the part number # part_num = "394914008" # switch to the frame containing the input fields # driver.switch_to.frame('start_body') ascen_field = driver.find_element(By.XPATH,"/html/body/div/center/form/table/tbody/tr[1]/td[2]/font/small/input") ascen_field.send_keys(inst_value);` 抱歉,我在代码中发现了导致问题的错误。 问题解决了。 感谢所有查看我的代码的人。

回答 1 投票 0

哪种数据类型应存储从新闻网站提取的用于 nlp 的文本数据

我使用 beautifulsoup 提取了以下文本数据 对于 soup2.find_all(class_="td-post-content") 中的数据: data.get_text() 我应该将提取的数据存储在哪种类型的数据类型中 我是...

回答 1 投票 0

用于创建一个列,其子区域与现有列中的区域相对应

有一个列表 bareas = ['Hosa 路', 'Agara', 'Koramangala 4th block', 'Ali Asker 路', 'Singasandra'] (它是一个相当长的列表,因此仅在此处添加一些项目)。我想创建一个名为“

回答 1 投票 0

Instagram 响应 HTTP 错误“429 - 请求过多”

我不确定如何修复以下代码以克服速率限制。另外,我不确定为什么它会停在 10 个帖子,即使我将 max_count 设置为 100。 代码: 导入安装程序 加载...

回答 1 投票 0

如何在没有浏览器自动化框架的情况下浏览页面进行网页抓取

这是网站的网址 https://www.enterprise.com/en/car-rental.html?icid=header.reservations.car.rental-_-start.a.res-_-ENUS.NULL 所以我想在没有浏览器自动的情况下用 python 抓取这个网站...

回答 1 投票 0

网络抓取功能可通过搜索栏循环项目并返回特定关键字作为答案

有一个列表 bareas = ['Hosa 路', 'Koramangala 第四街区', 'Ali Asker 路', 'Singasandra'] (它是一个相当长的列表,所以只在这里添加一些项目)。我想创建一个函数,以便每个项目......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.