stemming 相关问题

将变形词减少到词干的过程。


Python中最好的词干提取方法是什么?

我尝试了所有用于词干分析的nltk方法,但它给了我一些奇怪的结果。示例它通常会在不应该这样做的时候削减单词的结尾:poodle => poodl article articl或者不...

回答 6 投票 27

NLP:源于操作码数据集

我有一个包含27个文件的数据集,每个文件都包含操作码。我想使用词干将相似操作码的所有版本映射到相同的操作码中。例如:push,pusha,pushb等都将映射到. ..

回答 1 投票 0

编写自己的词干分析器

我有一个包含27个文件的数据集,每个文件都包含操作码。我想使用词干将相似操作码的所有版本映射到相同的操作码中。例如:push,pusha,pushb等都将映射到. ..

回答 1 投票 0

用于阿拉伯语文本的Python ISRIStemmer

我在IDLE(Python)上运行以下代码,我想输入阿拉伯字符串并获得它的干预但实际上它不起作用“>>>来自nltk.stem.isri import ISRIStemmer ...

回答 5 投票 0

词干和模糊搜索是否在Apache Solr中协同工作

我使用搬运工过滤器工厂为一个有3到4个字的字段。例如:“ABC BLOSSOM COMPANY”当我搜索ABC BLOSSOMING COMPANY时,我希望获取上述文件。当我 ...

回答 1 投票 2

TreeTagger安装成功但无法打开.par文件

有谁知道如何在TreeTagger中解决这个文件读取错误,这是一个常用的自然语言处理工具,用于POS标记,词形和块状句子? alvas @ ikoma:〜/ treetagger $ echo'...

回答 3 投票 5

Web抓取数据的Lemmatisation

我们假设我有一个文本文档,如下所示:document =' 我是一个句子。我是另一句话 我是第三句话。 (或更复杂的文字示例:......

回答 1 投票 3

多字符过滤器/分析器

示例quatro quattro quatttro ... quatttttttttttttttttttttttttttro所需的输出quatro如何分析(或过滤..?)这些术语,所以elasticsearch analyzer只返回quatro?

回答 1 投票 0

如何使用nltk阻止pandas数据帧?输出应该是一个词干数据帧

我正在尝试预处理数据集。数据集包含文本数据。我已经从该数据集创建了一个pandas DataFrame。我的问题是,如何在DataFrame上使用词干并得到一个词干...

回答 1 投票 0

String和Stanford NLP Word之间的转换

我正在尝试使用Stanford Core NLP的Stemmer类(https://github.com/stanfordnlp/CoreNLP/blob/master/src/edu/stanford/nlp/process/Stemmer.java)进行干预。我想打电话给割线机......

回答 1 投票 1

ElasticSearch中的英文分析器(词干)不起作用

我尝试在弹性搜索中应用自定义英语分析器以及标准英语分析器。我的目标特别是使用词干。所以我要说我的文件中有以下文字:封面,......

回答 2 投票 0

如何在python中的pandas数据帧中执行词干和删除列?

下面是我的数据集的子集。我正在尝试使用nltk包中提供的Porter stemmer来清理我的数据集。我想删除它们的茎类似的列,例如“......

回答 1 投票 0

如何从字符串中提取值并在数据库查询中使用这些值?

我试图从句子/问题中提取自定义实体并针对数据库查询它们,问题是我在提取实体时遇到问题。我的桌子有10,000个......

回答 1 投票 -2

为Ruby on Rails创建库/插件

在Ruby中寻找一个词干库,它允许我创建这样的映射:maps_to [“dogs”] =“dog”maps_to [“puppies”] =“dog”maps_to [“doggies”] =“dog”等

回答 1 投票 0

如何从Apache Solr索引中完全删除单词?

我正在运行Apache Solr 6.6.5。当用户搜索“ETCS”(特殊技术术语)时,所有文档都是包含单词“etc”的匹配项。但我只想匹配真正......的文件。

回答 1 投票 0

递归错误:超出最大递归深度

来自__future__ import print_function import os,codecs,nltk.stem english_stemmer = nltk.stem.SnowballStemmer('english')for root,dirs,os.walk中的文件(“/ Users / Documents / corpus / source-document / ...

回答 1 投票 0

阻止的逆过程

我使用lucene雪球分析仪进行干预。结果不是有意义的话。我提到了这个问题。其中一个解决方案是使用包含...之间的映射的数据库。

回答 4 投票 8

Python nltk词干分析器永远不会删除前缀

我正在尝试预处理单词以删除常见的前缀,如“un”和“re”,但是所有nltk的常见词干都似乎完全忽略了前缀:来自nltk.stem import PorterStemmer,...

回答 2 投票 1

stemCompletion无法正常工作

我正在尝试使用stemCompletion将词干转换成完整的单词。以下是我使用txt的代码

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.