大型稀疏矩阵,带火花的svd,python

问题描述 投票:5回答:1

我想分析火花数据。如果python不起作用我需要svd矩阵来实现使用python或scala的推荐算法。但数据庞大且稀疏。

数据中有两列。一个是用户名,另一个是项名。如果用户和项目在一行中,则表示用户喜欢此项目。有700k项目和20k用户。所以它是case memoryerror。

如何处理它

apache-spark svd
1个回答
0
投票

我建议你加载scipy csr matrix下的数据。

存储稀疏矩阵比使用numpy更有效。

最好。

© www.soinside.com 2019 - 2024. All rights reserved.