如何将Spark RDD / DataFrame用于循环问题

Question

我有一个名为问题的txt文件，该文件有7000行。每行是一个字符串句子。例如

“您好，请问美国运通金卡新会员资格优惠]

我想检查这7000行之间的相似性得分。在python中，我可以将结果存储到新的数据框中。假设在Pandas数据框中索引为0-6999，列为0-6999。我可以做

result = pd.DataFrame(data=result, index=index, columns=columns)

for i in index:
    for j in columns:
        result[j].loc[i] = SequenceMatcher(None, questions['sentence'].loc[i], questions['sentence'].loc[j]).ratio()

如果我使用SPARK将txt文件读入RDD。是否有使用RDD或Spark DF创建结果的更有效方法？

谢谢，

Answer 1

您可以使用Word2Vector模型-https://spark.apache.org/docs/latest/mllib-feature-extraction.html

函数org.apache.spark.mllib.feature.Word2VecModel.findSynonyms可用于确定相似性。

如何将Spark RDD / DataFrame用于循环问题

问题描述投票：-1回答：1

1个回答

最新问题

如何将Spark RDD / DataFrame用于循环问题

问题描述 投票：-1回答：1

1个回答

最新问题

问题描述投票：-1回答：1