如何将Spark RDD / DataFrame用于循环问题

问题描述 投票:-1回答:1

我有一个名为问题的txt文件,该文件有7000行。每行是一个字符串句子。例如

“您好,请问美国运通金卡新会员资格优惠]

我想检查这7000行之间的相似性得分。在python中,我可以将结果存储到新的数据框中。假设在Pandas数据框中索引为0-6999,列为0-6999。我可以做

result = pd.DataFrame(data=result, index=index, columns=columns)

for i in index:
    for j in columns:
        result[j].loc[i] = SequenceMatcher(None, questions['sentence'].loc[i], questions['sentence'].loc[j]).ratio()

如果我使用SPARK将txt文件读入RDD。是否有使用RDD或Spark DF创建结果的更有效方法?

谢谢,

python apache-spark rdd
1个回答
0
投票

您可以使用Word2Vector模型-https://spark.apache.org/docs/latest/mllib-feature-extraction.html

函数org.apache.spark.mllib.feature.Word2VecModel.findSynonyms可用于确定相似性。

© www.soinside.com 2019 - 2024. All rights reserved.