将变形词减少到词干的过程。
我尝试了所有用于词干分析的nltk方法,但它给了我一些奇怪的结果。示例它通常会在不应该这样做的时候削减单词的结尾:poodle => poodl article articl或者不...
我有一个包含27个文件的数据集,每个文件都包含操作码。我想使用词干将相似操作码的所有版本映射到相同的操作码中。例如:push,pusha,pushb等都将映射到. ..
我有一个包含27个文件的数据集,每个文件都包含操作码。我想使用词干将相似操作码的所有版本映射到相同的操作码中。例如:push,pusha,pushb等都将映射到. ..
我在IDLE(Python)上运行以下代码,我想输入阿拉伯字符串并获得它的干预但实际上它不起作用“>>>来自nltk.stem.isri import ISRIStemmer ...
我使用搬运工过滤器工厂为一个有3到4个字的字段。例如:“ABC BLOSSOM COMPANY”当我搜索ABC BLOSSOMING COMPANY时,我希望获取上述文件。当我 ...
有谁知道如何在TreeTagger中解决这个文件读取错误,这是一个常用的自然语言处理工具,用于POS标记,词形和块状句子? alvas @ ikoma:〜/ treetagger $ echo'...
我们假设我有一个文本文档,如下所示:document =' 我是一个句子。我是另一句话 我是第三句话。 (或更复杂的文字示例:......
示例quatro quattro quatttro ... quatttttttttttttttttttttttttttro所需的输出quatro如何分析(或过滤..?)这些术语,所以elasticsearch analyzer只返回quatro?
如何使用nltk阻止pandas数据帧?输出应该是一个词干数据帧
我正在尝试预处理数据集。数据集包含文本数据。我已经从该数据集创建了一个pandas DataFrame。我的问题是,如何在DataFrame上使用词干并得到一个词干...
我正在尝试使用Stanford Core NLP的Stemmer类(https://github.com/stanfordnlp/CoreNLP/blob/master/src/edu/stanford/nlp/process/Stemmer.java)进行干预。我想打电话给割线机......
我尝试在弹性搜索中应用自定义英语分析器以及标准英语分析器。我的目标特别是使用词干。所以我要说我的文件中有以下文字:封面,......
如何在python中的pandas数据帧中执行词干和删除列?
下面是我的数据集的子集。我正在尝试使用nltk包中提供的Porter stemmer来清理我的数据集。我想删除它们的茎类似的列,例如“......
我试图从句子/问题中提取自定义实体并针对数据库查询它们,问题是我在提取实体时遇到问题。我的桌子有10,000个......
在Ruby中寻找一个词干库,它允许我创建这样的映射:maps_to [“dogs”] =“dog”maps_to [“puppies”] =“dog”maps_to [“doggies”] =“dog”等
我正在运行Apache Solr 6.6.5。当用户搜索“ETCS”(特殊技术术语)时,所有文档都是包含单词“etc”的匹配项。但我只想匹配真正......的文件。
来自__future__ import print_function import os,codecs,nltk.stem english_stemmer = nltk.stem.SnowballStemmer('english')for root,dirs,os.walk中的文件(“/ Users / Documents / corpus / source-document / ...
我使用lucene雪球分析仪进行干预。结果不是有意义的话。我提到了这个问题。其中一个解决方案是使用包含...之间的映射的数据库。
我正在尝试预处理单词以删除常见的前缀,如“un”和“re”,但是所有nltk的常见词干都似乎完全忽略了前缀:来自nltk.stem import PorterStemmer,...
我正在尝试使用stemCompletion将词干转换成完整的单词。以下是我使用txt的代码