nltk 相关问题

Natural Language Toolkit是一个用于计算语言学的Python库。

如何使用spacy或nltk检索句子的主要意图?

我有一个用例,我想使用spacy或nltk或任何NLP库来提取句子的主要有意义部分。例句1:“我如何提高对骚扰的声音”意图会...

回答 1 投票 -1

从python消息列表中找到最频繁的单词对

我有100条消息的列表。而且我能够找到邮件列表中使用频率最高的单词。但我想找到最常出现的一对单词。例如,按键和键盘...

回答 1 投票 0

如何在python库nltk中计算gutenburg语料库中的单词覆盖率?

计算与文本语 料库gutenberg关联的所有文件ID的字覆盖率。这是什么写代码,从nltk.corpus导入nltk从十进制导入gutenburg导入十进制...

回答 1 投票 0

将额外的数字特征合并到文本分类模型中

我修改了github上的一些Python代码,以使用以下代码对一部分消费者投诉数据进行逻辑回归,文本向量化和分类部分可以正常工作。但是...

回答 1 投票 0

解析大型文本文档,仅保留“帐号”和特定的关键字(“市场价值”)

我有一个大型文本文档(〜20000行),其正文看起来像这样:发票帐户/名称:0234523454 / XYZCORPORATIONS费用组资产组合费用日期我们/您的参考安全性...

回答 1 投票 0

如何标记单词并将其输入到另一个文件中?

我只能获取停用词以在文档中实现,然后创建一个新文件,并删除停用词。我无法获得单词标记化,搬运工或发送标记化处理的信息。 import io ...

回答 2 投票 0

通过自定义指标进行句子聚类

我有一个政治主张的数据集,我想按相似性将它们分组。我已经开发了一种相似性函数,该函数使用一些正则表达式的组合进行信息提取,快速文本...

回答 1 投票 0

如何对与相同标记具有相同含义的派生词进行分类?

我想在一篇文章中计算无关的单词,但是我很难将彼此衍生的具有相同含义的单词归为一组。例如,我希望将汽油和天然气视为...

回答 1 投票 0

在NLTK中找到n-gram的想法或算法是什么?

我正在使用Python NLTK软件包从我的语料库中生成2克和3克。但是我找不到NLTK如何从语料库生成它们。我在这里找到了这个:N-gram简介:什么是...

回答 1 投票 0

[从列中删除停用词时,文本被写到单行中

我正在尝试使用以下代码从制表符分隔的.txt文件中删除停用词:从nltk.corpus导入io从nltk.tokenize导入停用词导入word_tokenize文件= open('textposts_01 ....

回答 2 投票 0

从字符串中分析来源城市/目的地城市

我有一个pandas数据框,其中一列是一串带有特定旅行细节的字符串。我的目标是解析每个字符串以提取始发城市和目标城市(我想...

回答 1 投票 -2

如何在文件中查找重复句子的频率

我有一个数据框,需要使用Python找到前20个重复的句子,请让我知道如何处理列A您好吗?这张票无效。您现在怎么样了? ...

回答 3 投票 1

如何在python-3中分析PDF中的特定文本字符串?

我正在研究一些用于识别PDF文档中命名实体(NER)的代码。我当前的代码分三步工作。首先,它将PDF转换为文本字符串。其次,它标记文本。第三,...

回答 1 投票 0

使用string.punctuation删除字符串的标点符号时出错

快速问题:我正在使用string和nltk.stopwords剥离所有标点和停用词的文本块,作为数据预处理的一部分,然后再将其输入某种自然语言...

回答 1 投票 0

Python:聚类搜索关键字

我对于数据集中的每个产品都有很多“搜索关键字”。我尝试根据产品的“搜索关键字”对其进行聚类。我想要做的是将这些关键字聚类为“ ...

回答 1 投票 3

在云函数中使用带有Punkt的TfidfVectorizer

我目前对TfidfVectorizer的理解是,在对输入数据进行转换之前,需要运行nltk.download(“ punkt”),因为所有默认标记器都可以在punkt中使用。当前,...

回答 1 投票 0

为python中的句子选择一个主题

我有几个主题可供选择,例如:赌场,博物馆,自然,夜生活,水疗中心。我想编写一个程序,该程序可以为给定的句子选择最匹配的主题。 ...

回答 1 投票 0

NLTK无阻塞绘制树

NLTK提供了一项功能,可让您“绘制”树状结构,例如依赖项解析。实际上,当您调用tree.draw()时,绘制的树会弹出一个窗口(至少在Windows上是)。 ...

回答 1 投票 1

我如何确定语料库中的哪些文本包含Python中的NLTK套件生成的错误?

我正在尝试使用Python进行一些基本的语料库分析。我收到以下错误消息:追溯(最近一次呼叫最近):文件“”,行2,在打印中(len(poems.words(...

回答 1 投票 0

除NLP的撇号外,如何从标点中删除字符串

我正在使用以下“最快”方式从字符串中删除标点符号:text = file_open.translate(str.maketrans(“”,“”,string.punctuation))但是,它删除了包括...的所有标点符号。 >

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.