我想分析火花数据。如果python不起作用我需要svd矩阵来实现使用python或scala的推荐算法。但数据庞大且稀疏。
数据中有两列。一个是用户名,另一个是项名。如果用户和项目在一行中,则表示用户喜欢此项目。有700k项目和20k用户。所以它是case memoryerror。
如何处理它
我建议你加载scipy csr matrix下的数据。
存储稀疏矩阵比使用numpy更有效。
最好。