数据集:我有两个不同的文本数据集(用于训练和测试),每个数据集包含30,000个句子。部分数据如下所示:“富尔顿县大陪审团说,星期五对亚特兰大最近的初选进行的调查产生了“没有证据”,表明没有任何违规行为发生。“
问题:如何用Python中的“ unk”替换训练中未看到的测试数据中的每个单词?
我的解决方案:我是否应该使用“嵌套循环”将火车数据的所有单词与测试数据的所有单词以及“ if语句”进行比较,以判断测试数据中是否有任何单词不在火车数据中,然后替换为“ unk”?
请尝试以下操作:
1)将练习集转换为dict,并以工作为关键,并计算为值。例如:
{"Hello":1,
"World":2}
2)对于测试集中的每个单词,如果不存在,请尝试访问dict中的单词,然后替换为'unk'。
def fun(testset):
newtestset= testset
for word in testset:
try:
Count = word_dict['Hello']
except:
newtestset.replace(word,'unk')
return newtestset