是否有用于比较两个文本数据集的Python函数?

问题描述 投票:0回答:1

数据集:我有两个不同的文本数据集(用于训练和测试),每个数据集包含30,000个句子。部分数据如下所示:“富尔顿县大陪审团说,星期五对亚特兰大最近的初选进行的调查产生了“没有证据”,表明没有任何违规行为发生。“

问题:如何用Python中的“ unk”替换训练中未看到的测试数据中的每个单词?

我的解决方案:我是否应该使用“嵌套循环”将火车数据的所有单词与测试数据的所有单词以及“ if语句”进行比较,以判断测试数据中是否有任何单词不在火车数据中,然后替换为“ unk”?

python text nlp text-processing
1个回答
0
投票

请尝试以下操作:

1)将练习集转换为dict,并以工作为关键,并计算为值。例如:

{"Hello":1,
"World":2}

2)对于测试集中的每个单词,如果不存在,请尝试访问dict中的单词,然后替换为'unk'。

def fun(testset):
    newtestset= testset
    for word in testset:
     try:
      Count = word_dict['Hello']
     except:
      newtestset.replace(word,'unk')
    return newtestset
© www.soinside.com 2019 - 2024. All rights reserved.