我有一些 .gz 文件,它们包含一些时间序列的数据。当然,我想对此做一些时间序列分析。
我尝试过这个:
import gzip f=gzip.open('data.csv.gz','r') file_content=f.read() print(file_content)
但是加载了 20 分钟,我手动停止了它。
我的问题是,我应该如何阅读这篇文章?我对使用 Dask、Spark 有一些想法,还是应该直接放弃这些行?
尝试查找互联网行业标准。
您可以按如下方式使用Dask:
import dask.dataframe as dd
df = dd.read_csv('data.csv.gz', compression='gzip')
Apache Spark 还支持读取 .gz 文件。 (这可能有点过分了 对于小数据集。
生成行:如果您正在编写一个函数来处理文件,则可以使用生成器逐行生成行。这是一种节省内存的方式,因为一次仅将一行加载到内存中。