是否有用于比较两个文本数据集的Python函数？

Question

数据集：我有两个不同的文本数据集（用于训练和测试），每个数据集包含30,000个句子。部分数据如下所示：“富尔顿县大陪审团说，星期五对亚特兰大最近的初选进行的调查产生了“没有证据”，表明没有任何违规行为发生。“

问题：如何用Python中的“ unk”替换训练中未看到的测试数据中的每个单词？

我的解决方案：我是否应该使用“嵌套循环”将火车数据的所有单词与测试数据的所有单词以及“ if语句”进行比较，以判断测试数据中是否有任何单词不在火车数据中，然后替换为“ unk”？

Answer 1

请尝试以下操作：

1）将练习集转换为dict，并以工作为关键，并计算为值。例如：

{"Hello":1,
"World":2}

2）对于测试集中的每个单词，如果不存在，请尝试访问dict中的单词，然后替换为'unk'。

def fun(testset):
    newtestset= testset
    for word in testset:
     try:
      Count = word_dict['Hello']
     except:
      newtestset.replace(word,'unk')
    return newtestset

是否有用于比较两个文本数据集的Python函数？

问题描述投票：0回答：1

1个回答

最新问题

是否有用于比较两个文本数据集的Python函数？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1