寻找一种比写csv更快的方法

问题描述 投票:0回答:3

我正在抓取一堆数据(可能最终将得到大约10万行数据)

当前,我的抓取器循环浏览网页并将每页的数据写入到csv行中

我已经注意到我的刮板起步非常快,但是随着刮刮越来越多的页面而变慢

我怀疑这是因为它经常不得不重新打开一个大型的csv并向其添加数据。

说起来快一点,将其写入列表,然后在抓取结束时将该列表写入csv吗?

或者也许将每一行附加到熊猫数据框?

您认为最快的方法是什么?

谢谢

python pandas selenium screen-scraping
3个回答
0
投票

我不知道您写入csv文件的实现,但是您可能无需不断重新打开它就可以做到。请参阅:Scraping tables and writing rows to CSV


0
投票

就像上面的用户说的:很难知道没有更多信息的最有效/最快的解决方案。正如您提到的那样,您不必每次都重新打开csv:


0
投票

我已经创建了运行竞赛条件所需的抓取工具,它所提供的不仅仅是您写信的地方。 CSV可能很快,但是取决于保存到的驱动器。在一种情况下,我将获得一个包含约500个结果的页面,并为每个页面创建一个新的CSV。一个单独的过程将采用无数的CSV,并将它们推到更有用的位置。

© www.soinside.com 2019 - 2024. All rights reserved.