我正在学习爬行器,经过一些基本的尝试后,我尝试从github下载google scholar crawler master以查看它是如何运行的,在我可以解决的一些错误之后,我遇到了ModuleNotFoundError: No module named 'proxy'
错误(middleware.py
文件,from proxy import PROXIES
行是问题)。
这段代码有一些问题包含python 3.x版本不再支持/建议的解决方案,包括已经重命名/移动的模块,但是我也无法知道这是否也是如此,会很感激帮助。
假设你在谈论这个https://github.com/geekan/google-scholar-crawler爬虫:
我只是尝试在Python 2.7上运行它并且没有问题。简要介绍一下misc模块告诉我,相对导入可能存在问题(有关它的一些信息可以在这个问题Relative imports in Python 3中找到)。
所以,简短的回答就是使用python 2.7,因为它可以集中精力理解scrapy爬虫的工作方式而不是理解语言版本的差异。
UPD:还要确保删除代码中的所有import pdb; pdb.set_trace()
断点