我正在尝试从单词列表中仅过滤出有意义的单词。有些单词会变得乱七八糟,我想将它们过滤掉。我很好奇是否有一个通用语言的库,例如python或nodejs。如果库支持不同的语言(在这种情况下为土耳其语),那将是很好的。
您是否正在寻找停用词列表?如果是这样,您可以参考这篇文章NLTK available languages for stopwords