使用带有spark 2+ pyspark的.take()函数的问题

问题描述 投票:0回答:1

这是我正在使用的代码。在没有data.take的情况下,它可以正常运行,但是在pyspark python中使用它时会出现错误]

from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating
data = sc.textFile("re_u.data")
pData=data.take(2000)
ratings = pData.map(lambda l: l.split(','))\
.map(lambda l: Rating(int(l[0]), int(l[1]), float(l[2])))

给出错误

AttributeError                            Traceback (most recent call last)
<ipython-input-12-c9c51af1b2e9> in <module>
      2 data = sc.textFile("re_u.data")
      3 pData=data.take(2000)
----> 4 ratings = pData.map(lambda l: l.split(','))\
      5  .map(lambda l: Rating(int(l[0]), int(l[1]), float(l[2])))

AttributeError: 'list' object has no attribute 'map'

请帮助!

这是我正在使用的代码。在这里,它无需data.take即可正常运行,但在pyspark.mllib.recommendation import ALS,MatrixFactorizationModel,Rating data = ...

python-3.x apache-spark pyspark jupyter-notebook rdd
1个回答
0
投票
© www.soinside.com 2019 - 2024. All rights reserved.