web-crawler 相关问题

Web爬虫（也称为Web爬虫）是一种以有条不紊，自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁，自动索引器，僵尸程序，Web蜘蛛，Web机器人，或者 - 尤其是在FOAF社区中 - Web scutters。

脸谱网开放图谱纵横比

我想在我的网站上添加一张Facebook Open Graph图片，由于我知道可能有多种布局，所以我选择了方形的。问题是，如果我只是简单地添加一个元标签，像这样。

html image facebook web-crawler meta-tags

回答 1 投票 2

如何在VBA中重置XMLHTTP连接

我想用一个VBA宏程序来收集印度停电的数据。这个宏应该是循环浏览我excel文件中生成的几百个URL，并创建一个XMLHTTP ...

excel vba xmlhttprequest web-crawler serverxmlhttp

回答 1 投票 0

美丽汤在解析URL时输出无。

我写了一个函数来解析NDTV新闻档案中的文章URLs。它返回的是None输出，而不是一个URLs列表。为什么它返回None？ def parse_ndtv_archive_links(): ...

python html beautifulsoup web-crawler

回答 1 投票 0

想要解析网站是有问题的。如果我通过chrome中的代理（用手），那么一切正常，可以启动。用get请求收集数据是不可能的，甚至 ...

selenium parsing web-crawler

回答 1 投票 0

Apache Nutch Crawler - 只在现有表格中抓取新注入的URLs

我必须通过Nutch抓取一些URLs。为此，我必须每次都提供种子URLs。因此，他们每次都会被注入到同一个表中。现在，随着时间的流逝，数据库将增加......。

web-crawler nutch stormcrawler

回答 1 投票 0

如何迭代页面，获取每篇新闻文章的链接和标题。

我从这个网站https:/nypost.comsearchChina+COVID-19page1?orderby=relevance(及其下面的页面)中刮取了10个页面，我预计总共有100个链接应该存储在pagelinks中。...

python loops web-scraping beautifulsoup web-crawler

回答 1 投票 0

有什么方法可以提取一个网页的浏览量吗？

寻找任何工具（最好是python）来提取特定网页的浏览量。如果没有，也很方便知道是否有任何其他网页的具体分析方法， ...

web-scraping beautifulsoup web-crawler

回答 1 投票 2

如何让perl网络爬虫像wget一样做 "宽度优先 "检索？

我已经用perl写了一个基本的网络爬虫。我怎样才能使它更复杂，让它像wget一样以 "宽度优先 "的方式进行检索？这是wget文档中的内容： ...

perl web-crawler wget

回答 2 投票 0

如何迭代页面搜刮网络新闻？

我一直在想如何通过迭代页面来搜索多篇新闻文章。这是我想搜刮的页面。(及其以下页面) https:/www.startribune.comsearch?page=1&q=...

python web-scraping iterator web-crawler

回答 1 投票 0

网络爬虫在收集了2页数据后崩溃。

我在搜刮一个iPhone手机壳的网站。该网站的搜刮器应该收集产品的名称和价格。当我运行程序时，我的代码崩溃，我得到这个错误。回溯（最...

python web-scraping beautifulsoup web-crawler

回答 1 投票 0

从交互式地图中提取数据

我想知道是否可以从下面的交互式地图中刮取数据：https:/map.910ths.sa我试图按照这里的说明刮取它，但是，在点击网络后，...

python web-scraping beautifulsoup web-crawler maps

回答 1 投票 1

具体的一个href爬行由美丽的汤在python中。

我正在努力学习beautifulsoup。在网站上，它有相同的一个href，不同的结果。例如,我的代码的结果是: 0001545654 6798 HI 0001459640 TX 0001269765 CA ...。

python url beautifulsoup web-crawler google-crawlers

回答 1 投票 0

在Scrapy中使用process_value进行链接提取。

我试图使用scrapy从myntra.com中提取数据，我的代码到现在为止 - # -*编码：utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spotor。我的代码到现在为止 - # -*- 编码：utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import ...。

python web-scraping lambda scrapy web-crawler

回答 1 投票 0

不想处理所有404错误，如何在Scrapy中返回404错误？

我想在Scrapy中处理404错误，但不是所有的404错误情况。当我不想处理404错误时，我怎么能提出404错误呢？

web-scraping error-handling scrapy web-crawler

回答 1 投票 0

如何人为制造ConnectionRefusedError？

我想调试Scrapy中的ConnectionRefusedError处理。我不能在没有模拟错误的情况下进行调试，请问如何模拟ConnectionRefusedError？如何模拟ConnectionRefusedError？

web-scraping error-handling scrapy web-crawler connection-refused

回答 1 投票 0

openpyxl.utils.exceptions.IllegalCharacterError在哪里修复？

import requests import html2text import openpyxl with open('crawlingweb.csv')as f: content=f.readlines() content=[x.strip()for x in content] excel_file=openpyxl.Workbook() excel_sheet=...

python web-crawler

回答 1 投票 0

python beautifulsoup web-crawler

回答 1 投票 -1

我想从html中只提取文本，但当我使用html2text函数时，我得到了一个输出错误信息

import urllib.request import requests from bs4 import BeautifulSoup import html2text with open('crawlingweb.csv')as f: content=f.readlines() content=[x.strip()for x in content] for i in ...

python web-crawler

回答 1 投票 -1

在同一网站的多个部分进行刮擦

我试图从一个网站的不同部分刮取数据，我试图刮，但问题是我得到的是，当我分页它只是去不同的页码，以随机顺序不...

python python-3.x web-scraping scrapy web-crawler

回答 1 投票 0

我怎样才能写入原始数据？

我在测试一些东西，我一直得到错误 "write()参数必须是str，而不是HTTPResponse "下面是我的代码： import requests image="http:/www.casperdenhaan.nlwp-contentuploads202003...

python python-requests web-crawler

回答 2 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.