web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

在python中使用selenium循环下降

我正在尝试模拟点击在线数据工具上的多个选项,最后在给定过滤器的情况下下载excel表。我目前正在使用selenium并识别xpath。 ...

回答 1 投票 0

如果数据是通过Javascript加载的,如何使用php Goutte和Guzzle进行爬网?

很多时候,当我们遇到问题时,我们会遇到使用Javascript生成页面上呈现的内容的问题,因此scrapy无法为其抓取(例如,ajax请求,jQuery)

回答 4 投票 5

Scrapy和可能性

我正在研究网络报废/爬行的可能性,并一直在阅读Scrapy计划。我想知道是否有人知道是否可以在脚本中输入指令以便......

回答 1 投票 1

如何使用Python Crawler来抓取第二行文本

我试图从这个网站的第二行抓取网址:https://www.cwb.gov.tw/V7/js/HDRadar_1000_n_val.js。我使用python爬行但不确定我是否应该使用beautifulsoup或常规...

回答 2 投票 0

使用selenium和python,我如何从HTML中获取Var,它在JS元素中声明

我想在htm中的JS中声明var。但没有ids,元素。我怎样才能获得这些数据?因为没有地址,只有var名称,我不知道怎么做网站HTML:...

回答 1 投票 0

如何使用Simple HTML Dom Parser抓取Bing图像?

我正在构建一个PHP搜索引擎。我想要有不同的搜索类型。像用户可以搜索图像,网站,视频等。现在我正在尝试两件事:1:仅搜索视频。 2和 ...

回答 1 投票 1

如何仅在python中使用请求模块来刮取数据

我实际上是尝试使用请求模块解析网站,并从中提取一些文本。在点击Cp中的网址后,网址:https://www.icsi.in/student/Members/MemberSearch.aspx

回答 1 投票 1

如何在响应状态中检测到代码500时自动增加scrapy的DOWNLOAD_DELAY

我将编写数百个蜘蛛来抓取不同的静态网页,所以我选择Scrapy来帮助我完成我的工作。在工作期间,我发现大多数网站都很简单,不...

回答 1 投票 1

如何从Python中的HTML页面中提取URL [关闭]

我必须用Python编写一个Web爬虫。我不知道如何解析页面并从HTML中提取URL。我应该去哪里学习编写这样的程序?换句话说,有一个简单的python ......

回答 5 投票 13

使用线程进行多处理?

当我尝试使我的脚本多线程时,我发现了多处理,我想知道是否有办法使多线程处理与线程一起工作? cpu 1 - > 3个线程(worker A,B,C)cpu 2 - > 3 ...

回答 2 投票 4

如何从任何网址页面获取数据来抓取评论

假设您有一个游戏商店评论页面,其中有数百人定期评论。我的想法是不仅在同一页面上从Play商店评论页面获取数据,而且当你...

回答 1 投票 -4

Scrapy - 通过循环JSON文件进行多次resquest

我想要获得不同城市的经纬度。城市名称存储在JSON文件中。这是我的代码:import scrapy import json with open('C:/ Users / coppe / tutorial / cities ....

回答 1 投票 0

提取网页中的所有链接

我想从我的调查中提取印度所有政府网站的列表。列表可以在这里找到:http://goidirectory.nic.in/index.php这里的问题是列表不是......的形式

回答 1 投票 -1

字符串格式 - 法语口音

我在从维基百科中抓取一些字符串数据时遇到了问题。这是我的代码:import scrapy import json class communes_spider(scrapy.Spider):name =“city”start_urls = ['https:// fr ....

回答 2 投票 0

如何配置crawler扩展以从tt_news中排除隐藏字段?

我将此配置用于tt_news的爬虫配置:tx_crawler.crawlerCfg.paramSets {items =&tx_ttnews [tt_news] = [_ TABLE:tt_news; _PID:6;] items {baseUrl = http://www.example ....

回答 1 投票 1

通过JavaScript检测搜索爬虫

我想知道如何检测搜索爬虫?我问的原因是因为如果用户代理是机器人,我想要禁止某些JavaScript调用。我找到了一个如何......的例子

回答 5 投票 36

Scrapy - 请求表单后缺少数据

我正在使用这个网站获取不同城市的经纬度:https://www.latlong.net/。这是我的代码:import scrapy import json with open('C:/Users/coppe/tutorial/cities.json')as ...

回答 1 投票 1

Crawler4j与Jsoup一起用于Java中的页面爬行和解析

我想获取页面的内容并提取其中的特定部分。据我所知,这个任务至少有两个解决方案:Crawler4j和Jsoup。他们两个都有能力检索......

回答 1 投票 8

抓取通过JavaScript呈现的网页。 PhtantomJs还是其他任何工具?

我正在构建一个工具来抓取页面并在本地存储其html。还可以使用iframe在网页上加载HTML。所以我在已抓取的页面上取消绑定并绑定事件。我正在使用PhantomJS来获得......

回答 1 投票 2

我如何在python 3.6中转换字符?

我对如何在python中转换角色感到困惑。我正在使用BeautifulSoup解析一些HTML,当我检索文本内容时,它看起来像这样:\ u00a0 \ n \ n \ n \ r \ n \ n最先进的......

回答 2 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.