PYTHON:删除推文中的非英文文本

问题描述 投票:0回答:1

我有一个至少500万行的数据框,我正在尝试删除“纯”非英语推文。

但是,我的问题是,当我尝试删除它们时,所有推文都消失了,因为它们都提到了一个非英语单词,这是这些推文的主题。这是一个部落名称,非英语。

[我想做的是将它们纯粹是非英语推文删除,但保留那些英文但只提到部落名称的推文。部落名称== Volse

我曾尝试使用pyTweetcleaner和Guessing游戏,但我想让程序忽略部落名称或将其视为英语。

python nltk tweets non-english nltk-trainer
1个回答
0
投票

我的建议

检查消息中至少50%是否包含英文单词?似乎很简单。如果一半的单词在英语词典中,则该推文很可能是英语的。

您的建议

但是我的想法是使程序忽略部落的名称,或者将其视为英语。

通常最好在寻求帮助之前尝试这种类型的东西。如果可行,那就没问题了:/ ....不幸的是,我们不能为您尝试做到这一点¯\ _(ツ)_ /¯

© www.soinside.com 2019 - 2024. All rights reserved.