我有一个至少500万行的数据框,我正在尝试删除“纯”非英语推文。
但是,我的问题是,当我尝试删除它们时,所有推文都消失了,因为它们都提到了一个非英语单词,这是这些推文的主题。这是一个部落名称,非英语。
[我想做的是将它们纯粹是非英语推文删除,但保留那些英文但只提到部落名称的推文。部落名称== Volse
我曾尝试使用pyTweetcleaner和Guessing游戏,但我想让程序忽略部落名称或将其视为英语。
我的建议
检查消息中至少50%是否包含英文单词?似乎很简单。如果一半的单词在英语词典中,则该推文很可能是英语的。
您的建议
但是我的想法是使程序忽略部落的名称,或者将其视为英语。
通常最好在寻求帮助之前尝试这种类型的东西。如果可行,那就没问题了:/ ....不幸的是,我们不能为您尝试做到这一点¯\ _(ツ)_ /¯