大型稀疏矩阵，带火花的svd，python

问题描述投票：5回答：1

我想分析火花数据。如果python不起作用我需要svd矩阵来实现使用python或scala的推荐算法。但数据庞大且稀疏。

数据中有两列。一个是用户名，另一个是项名。如果用户和项目在一行中，则表示用户喜欢此项目。有700k项目和20k用户。所以它是case memoryerror。

如何处理它

apache-spark svd

1个回答

0
投票

我建议你加载scipy csr matrix下的数据。

存储稀疏矩阵比使用numpy更有效。

最好。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.