如何在Python中加载非常大的时间序列文件进行分析?

问题描述 投票:0回答:1

我有一些 .gz 文件,它们包含一些时间序列的数据。当然,我想对此做一些时间序列分析。

我尝试过这个:

import gzip f=gzip.open('data.csv.gz','r') file_content=f.read() print(file_content)

但是加载了 20 分钟,我手动停止了它。

我的问题是,我应该如何阅读这篇文章?我对使用 Dask、Spark 有一些想法,还是应该直接放弃这些行?

尝试查找互联网行业标准。

python csv time-series
1个回答
0
投票
  1. 您可以按如下方式使用Dask:

    import dask.dataframe as dd
    
    df = dd.read_csv('data.csv.gz', compression='gzip')
    
  2. Apache Spark 还支持读取 .gz 文件。 (这可能有点过分了 对于小数据集。

  3. 生成行:如果您正在编写一个函数来处理文件,则可以使用生成器逐行生成行。这是一种节省内存的方式,因为一次仅将一行加载到内存中。

© www.soinside.com 2019 - 2024. All rights reserved.