将较大的csv转换为用于sklearn的稀疏矩阵

问题描述 投票:0回答:1

我有一个以csv格式保存的〜30GB(〜1.7 GB压缩| 180K行x 32K列)矩阵。我想将此矩阵转换为稀疏格式,以便能够将完整的数据集加载到内存中,以便使用sklearn进行机器学习。填充的单元格包含小于1的浮点数。大矩阵的警告是目标变量存储为最后一列。允许在sklearn中使用这种大矩阵的最佳方法是什么?即如何在不将原始矩阵加载到内存的情况下将〜30GB的csv转换为稀疏格式?

伪代码

  1. 删除目标变量(保留订单原样)
  2. 将约30 GB的矩阵转换为稀疏格式(Help !!
  3. 将稀疏格式加载到内存和目标变量中以运行机器学习管道(我该怎么做?)

我有一个以csv格式保存的〜30GB(〜1.7 GB压缩| 180K行x 32K列)矩阵。我想将此矩阵转换为稀疏格式,以便能够将完整的数据集加载到内存中,以用于...

python matrix scikit-learn sparse-matrix large-data
1个回答
0
投票

这将按行将csv / tsv转换为mtx文件(这只是COO样式的平面文件)。

© www.soinside.com 2019 - 2024. All rights reserved.