nltk 相关问题

Natural Language Toolkit是一个用于计算语言学的Python库。

删除包含常见停用词的双字母组

我具有以下功能。它返回一个句子中的所有双字母组和三字母组。我只想保留不包含停用词的二元组和三元组。我怎么能从nltk.copus import ...

回答 1 投票 0

熊猫列中的Ngrams

我有一个熊猫数据框,其中包含以下列:第1列['if','you','think','she',“ s','cute','now',',','您”,“应该”,“拥有”,“看到”,“她”,“一个”,“夫妇”,“ of”,“年”,“ ago”,“ ....

回答 1 投票 0

我可以使用python打开.bracket文件吗?

我可以使用python打开.bracket文件吗?我试图使用nltk创建树。如果我只有1个句子,那么我没问题,例如:s ='(S(NP(DT the)(NN cat))(VP(VBD ate)(NP(DT a)(NN cookie))))'。 ..

回答 1 投票 0

在pyspark(databricks)中使用来自NLTK的停用词时出现处理错误

我在线找到了以下函数:def RemoveStops(data_str):#nltk.download('stopwords')english_stopwords = stopwords.words(“ english”)broadcast(english_stopwords)#期望...

回答 1 投票 0

如何定义类型集的新变量并在其中存储单词的文本列表?

**代码为** lines_en = codecs.open(r'C:\ Qur'an \ english.txt','r','utf-8-sig')。readlines()用于lines_en:令牌中的行= line.split()all_tokens = []对于lines_en中的行:令牌= line.split(...

回答 1 投票 0

NLP:在Rasa和Spacy之间选择

我正在尝试建立一个可用于空中交通管制模拟的虚拟飞行员。人类将使用某种措辞(非常明确地)与虚拟飞行员联系。我将是...

回答 1 投票 0

NLTK中的字母标记法

[使用NLTK Unigram Tagger,我正在用Brown Corpus训练句子,尝试不同的类别,我得到的价值大致相同。对于每个类别,例如小说,...

回答 1 投票 0

标识丢失单词所属句子的位置

[我有下面的代码:import nltk exampleArray = ['狗叫”'def processLanguage():对于exampleArray中的项目:tokenized = nltk.word_tokenize(item)标记= nltk.pos_tag(...

回答 1 投票 1

word_tokenize使用相同的代码和相同的数据集,但结果不同,为什么?

上个月,我试图标记文本并创建一个单词,以查看哪个单词经常出现。今天,我想在具有相同代码的相同数据集中再次执行此操作。它仍然有效,但结果是...

回答 1 投票 0

word_tokenize使用相同的代码和相同的数据集,但结果不同,为什么?

上个月,我试图标记文本并创建单词袋,以查看哪个单词经常出现。今天,我想在具有相同代码的同一数据集中再次执行此操作,尽管它仍然有效,但是...

回答 1 投票 0

用于äööß的编码

我有一个字符串列表,其中一些包含äüö或ß等字母。尝试打印它们会导致产生字符串,例如Natürlich或Bedrückung。正如其他线程所建议的那样,我尝试了...

回答 1 投票 0

NTLK nltk.ConditionalFreqDist-绘制ngrams

这里有两个示例,一个有效,并且源自https://www.nltk.org/book/ch02.html,另一个无效。第一个示例绘制单个单词的频率,此处['america','...

回答 1 投票 0

是否可以在Python中使用NLTK从文本中删除句子?

例如,我的文本包含几个句子:“第一句话不相关。第二个包含我要保留的KPI信息。第三个没用。第四个提到主题相关...

回答 1 投票 0

波特和兰开斯特的词干澄清

我正在使用Porter和Lancaster进行词干分析,我发现了以下观察结果:输入:已答复Porter:复制Lancaster:答复输入:两次porter:两次Lancaster:两次输入:来了porter:来了...]]

回答 1 投票 0

使用NLTK生成将推文归类为预定义类别的词典

我有一个Twitter用户列表(screen_names),我需要将其归类为7个预定义类别-教育,艺术,体育,商业,政治,汽车,技术,根据其兴趣...

回答 1 投票 0

如何通过nltk.pos_tag()函数使用通用POS标签?

我有一段文字,我想找到数量的'ADJ','PRON','VERB','NOUN'等。我知道有.pos_tag()函数,但是它给我不同的结果,我想要结果为'ADJ','PRON',...

回答 1 投票 0

如何通过nltk.pos_tag()函数使用通用POS标签?

我有一段文字,我想找到数量的'ADJ','PRON','VERB','NOUN'等。我知道有.pos_tag()函数,但是它给我不同的结果,我想要结果为'ADJ','PRON',...

回答 1 投票 0

[在Mac上使用终端安装了Matplotlib,但在Python中使用ModuleNotFoundError

我在Mac上使用终端安装了matplotlib,并且已成功安装。但是,当我尝试导入matplotlib时,会产生ModuleNotFound错误。以下是我的代码和错误...

回答 1 投票 0

如果内容匹配〜80%,则从数组中删除元素

我有一个使用nltk tokenize构建的数组数组:-[['this','is','a','long','sentence'],['another','sentence'],['this ','is','a','sentence'],['welcome','to','stack','overflow'...

回答 1 投票 0

如何将TF-IDF矩阵转换为前10个单词的整体字典

我正在尝试在一些文本上获得单词的整体tf-idf分数。我正在遵循此处介绍的计算tf-idf的手动方法:https://towardsdatascience.com/natural-language-processing -...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.