我有一个名为问题的txt文件,该文件有7000行。每行是一个字符串句子。例如
“您好,请问美国运通金卡新会员资格优惠]
我想检查这7000行之间的相似性得分。在python中,我可以将结果存储到新的数据框中。假设在Pandas数据框中索引为0-6999,列为0-6999。我可以做
result = pd.DataFrame(data=result, index=index, columns=columns)
for i in index:
for j in columns:
result[j].loc[i] = SequenceMatcher(None, questions['sentence'].loc[i], questions['sentence'].loc[j]).ratio()
如果我使用SPARK将txt文件读入RDD。是否有使用RDD或Spark DF创建结果的更有效方法?
谢谢,
您可以使用Word2Vector模型-https://spark.apache.org/docs/latest/mllib-feature-extraction.html
函数org.apache.spark.mllib.feature.Word2VecModel.findSynonyms
可用于确定相似性。