web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

脸谱网开放图谱纵横比

我想在我的网站上添加一张Facebook Open Graph图片,由于我知道可能有多种布局,所以我选择了方形的。问题是,如果我只是简单地添加一个元标签,像这样。

回答 1 投票 2

如何在VBA中重置XMLHTTP连接

我想用一个VBA宏程序来收集印度停电的数据。这个宏应该是循环浏览我excel文件中生成的几百个URL,并创建一个XMLHTTP ...

回答 1 投票 0

美丽汤在解析URL时输出无。

我写了一个函数来解析NDTV新闻档案中的文章URLs。它返回的是None输出,而不是一个URLs列表。为什么它返回None? def parse_ndtv_archive_links(): ...

回答 1 投票 0

禁用硒

想要解析网站是有问题的。如果我通过chrome中的代理(用手),那么一切正常,可以启动。用get请求收集数据是不可能的,甚至 ...

回答 1 投票 0

Apache Nutch Crawler - 只在现有表格中抓取新注入的URLs

我必须通过Nutch抓取一些URLs。为此,我必须每次都提供种子URLs。因此,他们每次都会被注入到同一个表中。现在,随着时间的流逝,数据库将增加......。

回答 1 投票 0

如何迭代页面,获取每篇新闻文章的链接和标题。

我从这个网站https:/nypost.comsearchChina+COVID-19page1?orderby=relevance(及其下面的页面)中刮取了10个页面,我预计总共有100个链接应该存储在pagelinks中。...

回答 1 投票 0

有什么方法可以提取一个网页的浏览量吗?

寻找任何工具(最好是python)来提取特定网页的浏览量。如果没有,也很方便知道是否有任何其他网页的具体分析方法, ...

回答 1 投票 2

如何让perl网络爬虫像wget一样做 "宽度优先 "检索?

我已经用perl写了一个基本的网络爬虫。我怎样才能使它更复杂,让它像wget一样以 "宽度优先 "的方式进行检索?这是wget文档中的内容: ...

回答 2 投票 0

如何迭代页面搜刮网络新闻?

我一直在想如何通过迭代页面来搜索多篇新闻文章。这是我想搜刮的页面。(及其以下页面) https:/www.startribune.comsearch?page=1&q=...

回答 1 投票 0

网络爬虫在收集了2页数据后崩溃。

我在搜刮一个iPhone手机壳的网站。该网站的搜刮器应该收集产品的名称和价格。当我运行程序时,我的代码崩溃,我得到这个错误。回溯(最...

回答 1 投票 0

从交互式地图中提取数据

我想知道是否可以从下面的交互式地图中刮取数据:https:/map.910ths.sa我试图按照这里的说明刮取它,但是,在点击网络后,...

回答 1 投票 1

具体的一个href爬行由美丽的汤在python中。

我正在努力学习beautifulsoup。在网站上,它有相同的一个href,不同的结果。例如,我的代码的结果是: 0001545654 6798 HI 0001459640 TX 0001269765 CA ...。

回答 1 投票 0

在Scrapy中使用process_value进行链接提取。

我试图使用scrapy从myntra.com中提取数据,我的代码到现在为止 - # -*编码:utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spotor。我的代码到现在为止 - # -*- 编码:utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import ...。

回答 1 投票 0

不想处理所有404错误,如何在Scrapy中返回404错误?

我想在Scrapy中处理404错误,但不是所有的404错误情况。当我不想处理404错误时,我怎么能提出404错误呢?

回答 1 投票 0

如何人为制造ConnectionRefusedError?

我想调试Scrapy中的ConnectionRefusedError处理。我不能在没有模拟错误的情况下进行调试,请问如何模拟ConnectionRefusedError?如何模拟ConnectionRefusedError?

回答 1 投票 0

openpyxl.utils.exceptions.IllegalCharacterError在哪里修复?

import requests import html2text import openpyxl with open('crawlingweb.csv')as f: content=f.readlines() content=[x.strip()for x in content] excel_file=openpyxl.Workbook() excel_sheet=...

回答 1 投票 0

回答 1 投票 -1

我想从html中只提取文本,但当我使用html2text函数时,我得到了一个输出错误信息

import urllib.request import requests from bs4 import BeautifulSoup import html2text with open('crawlingweb.csv')as f: content=f.readlines() content=[x.strip()for x in content] for i in ...

回答 1 投票 -1

在同一网站的多个部分进行刮擦

我试图从一个网站的不同部分刮取数据,我试图刮,但问题是我得到的是,当我分页它只是去不同的页码,以随机顺序不...

回答 1 投票 0

我怎样才能写入原始数据?

我在测试一些东西,我一直得到错误 "write()参数必须是str,而不是HTTPResponse "下面是我的代码: import requests image="http:/www.casperdenhaan.nlwp-contentuploads202003...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.