我尝试了以下代码来检查句子是否有非英语单词,但我想检查句子本身的开头是否有非英语单词,从而删除整个句子。我也尝试了startwith()方法和isalpha()方法,但没有成功。
所以,如果有一个非英语和英语的句子列表,我想识别非英语的句子,并从列表中删除它们。请帮我解决这个问题。
import nltk
#nltk.download('words')
words = set(nltk.corpus.words.words())
sent = "Какую выберешь ты? abcd12 すべてのように置いてみましょう . Выложи фото с продукцией или боржоми и получи за это деньги. За подробностями пиши в директ."
wr=[]
for w in nltk.wordpunct_tokenize(sent):
#print(w)
if(w.isalpha()==True):
wr.append(w)
print(wr)
你可以使用enchant库来访问字典。
import enchant
dict = enchant.Dict('en_US')
sent = "Какую выберешь ты? abcd12 すべてのように置いてみましょう . Выложи фото с продукцией или боржоми и получи за это деньги. За подробностями пиши в директ."
new_sent = ''
for sentence in sent.split('.'):
if dict.check(sentence.split(' ')[0]):
print(sentence)