如何在Python中加载非常大的时间序列文件进行分析？

Question

我有一些 .gz 文件，它们包含一些时间序列的数据。当然，我想对此做一些时间序列分析。

我尝试过这个：

import gzip f=gzip.open('data.csv.gz','r') file_content=f.read() print(file_content)

但是加载了 20 分钟，我手动停止了它。

我的问题是，我应该如何阅读这篇文章？我对使用 Dask、Spark 有一些想法，还是应该直接放弃这些行？

尝试查找互联网行业标准。

Answer 1

您可以按如下方式使用Dask：

import dask.dataframe as dd

df = dd.read_csv('data.csv.gz', compression='gzip')