Natural Language Toolkit是一个用于计算语言学的Python库。
我正在尝试做的事情:我正在从数据库中获取uri列表并下载它们,删除停用词并计算单词在网页中出现的频率,然后尝试保存在...中。 >
如何从单词的现在分词或Python的其他变体中找到单词的根?
[我正在从事NLP项目,现在,我坚持要检测某些不是其“标准”形式(例如动词,形容词,名词)而不是现在分词的短语的反义词。 ..
删除所有不是名词,动词,形容词,副词或专有名词的单词。 spacy python
我写了下面的代码,我想打印出前10个句子中的单词,我想删除所有不是名词,动词,形容词,副词或专有名称的单词。但是我不知道怎么做? ...
因此,我有一个xml文件,其格式为wordNet,带有同义词集和同义词以及其他标签。我需要使用此xml文件来获取类似单词之类的东西。因此,我想使用nltk读取...
这里有史以来第一个问题,请问我的礼节是否恶劣。我目前正在一个项目中,目标是使用python实现语音助手。建议我们使用自然的...
我删除了所有我认为可能会导致错误的特殊字符。仍然不断收到我无法弄清楚的错误:python3 sentiment.py Traceback(最近一次通话过去):文件“ ...
我们正在处理大量文档(类似于产品说明),并希望弄清它们是否引用了给定的主题(例如赌博)。我们当前的方法是手动定义一个集合...
我清理并标记了它之后的数据帧测试。从nltk.tokenize导入TweetTokenizer tt = TweetTokenizer()test ['tokenize'] = test ['tweet']。apply(tt.tokenize)print(test)输出0 ...
将WordNetLemmatizer.lemmatize()与pos_tags一起使用会引发KeyError
我刚刚读到,在使用pos_tags的辅助下,去词法化结果最好。因此,我遵循以下代码,但对于计算出的POS_tags却得到KeyError。下面是来自nltk import的代码...
nltk.TweetTokenizer与nltk.word_tokenize有何不同?
我无法理解两者之间的区别。虽然,我知道word_tokenize使用Penn-Treebank进行令牌化。但是TweetTokenizer上没有任何可用。为此...
将带有nltk的Python Flask部署到gcp时出现错误“找不到资源Punkt”
我正在尝试将Python Flask应用程序部署到Google Cloud。它在我的本地计算机上运行良好,但是在部署到云时出现错误。我收到“找不到资源点”。据我所知,我已经...
我正在尝试使用nltk创建一个聊天机器人。在这里,我有一个列表,正在使用LancasterStemmer转换为小写字母及其根词。我收到此错误:NameError:名称'word'不是...
我正在尝试删除列中每一行的停用词。列包含行和行,因为我已经用nltk对它进行了word_tokenize,然后它是一个包含元组的列表。我正在尝试...
对于研究用途,我应该:读取.csv文件,通过标题检测文本的语言,并通过某些关键字ex识别文本的参数。肺切除术->大脑,我正在尝试...
我想为python2.7安装更旧(但稳定)的NLTK版本。我尝试运行命令:pip install nltk === x.x.x,但是终端报告许多错误。我想知道是否有...
我已经使用gensim训练了word2vec模型。在模型矩阵中,某些值的浮点如下所示:“ -7.18556e-05”我需要将矩阵上的值用作字符串。有没有办法...
Spacy(以及Core NLP和其他解析器)输出的依存关系树可以包含不同数量的子级。例如,每个节点都有一个.lefts和.rights关系(多个left ...
我正在尝试将字符串列表标记为单词列表。例如:a = ['NEWS FLASH:爆米花风味的Tic-Tacs','The way']我希望输出为:a = ['NEWS','FLASH:','popcorn -...] >
[我想作以下句子:(N(Hace calor。)-(S(De todas formas,no salgo a casa。)))(N(Además,va an venir Peter。)-(S(禁运罪,没有任何法律效力。)))但是...
我正在尝试将此文档分成几段。具体来说,我想在出现换行符( )时拆分文本。这是我正在使用的代码,但未产生结果...