stemming 相关问题

将变形词减少到词干的过程。

在提取词干之前用非拉丁文本调整 ES 文档?

我在这里使用的“文档”一词是指“Lucene 文档”或 LDoc,即放入索引、分析等的内容。 我正在解析然后索引整个负载...

回答 1 投票 0

词干化和词形还原之间的比较

根据多项研究,我发现以下重要的比较分析: 如果我们查看文本,很可能词形还原应该返回更正确的输出,对吗?不仅正确,而且

回答 1 投票 0

在 tm::stemDocument() 之后撤消词干提取?

我有一个 R 中的词干单词列表。现在,我想撤消我的词干提取,以便接收 R 中所有“完整”单词的列表。 这是我用来提取单词列表的代码: 图书馆...

回答 1 投票 0

Rust 的工具 Tantivy 是否支持像 Postgres 全文搜索中那样的 Snowball 词干分析器?

我发现它支持17种语言,但是Tantivy是如何解决这个问题的呢?它在引擎盖下使用什么词干分析器? PostgreSQL 使用 Snowball 实现全文搜索 https://snowballs...

回答 1 投票 0

雪球茎干令牌

以下代码行不适用于 nltk 的 SnowballStemmer 模块 def 乐趣(文本): 词干分析器.stem(文本) 类型错误:SnowballStemmer.stem() 缺少 1 个必需的位置参数:'token'

回答 2 投票 0

为什么这个全文搜索在PostgreSQL中不匹配?

我正在评估PostgreSQL,看看它是否是ElasticSearch的一个可行的替代方案开始(以后迁移也可以)。我一直在阅读PG的全文能力现在已经 "足够好 "了。我...

回答 1 投票 0

如何获得每种语言的逆向词法化?

我找到了spacy lib,可以让我对单词应用词法化(blacks -> black,EN)(bianchi -> bianco,IT)。我的工作是分析实体,而不是动词或形容词。我在寻找一些...

回答 1 投票 0

lemmatize()缺少1个必需的位置参数:'word'

[当我尝试像这样将其传递给lemmatizer时:def lemmatization(token_txt):text = [wn.lemmatize(word)for token_txt中的单词]#text = [[wn.lemmatize(word)for l中的单词] for in in ...

回答 1 投票 0

提蒂尔中的梗塞克分子

我正在尝试用两个词干创建双字母组。但是我的代码只是阻止第二个单词,而第一个单词则不会被阻塞。因此,例如,列出了“担心”和“担心” ...

回答 1 投票 1

基于NLTK的词干和词根化

我正在尝试使用lemmatizer预处理字符串,然后删除标点符号和数字。我正在使用下面的代码来做到这一点。我没有收到任何错误,但文本没有经过预处理...

回答 3 投票 1

带有茎的MySQL全文

我正在为我的站点构建一些搜索功能。我正在接受用户的查询,词干关键字,然后对词干关键字运行全文MySQL搜索。问题是MySQL ...

回答 3 投票 4

NLP:如何结合词干和标记?

我正在尝试编写代码,该代码传递经过标记化的文本,并过滤掉停用词,然后阻止并标记它。但是,我不确定应该以什么顺序进行茎和标记。这个...

回答 2 投票 0

r中的定标函数

Package corpus提供了自定义的词干提取功能。词干功能应在将术语作为输入时返回该词干作为输出。我从词干中选取了以下内容...

回答 1 投票 0

MarkLogic-启用词干还将搜索美式/英式拼写

MarkLogic 9.0.8.2我们有业务需求,如果能够在数据库级别启用词干,则可以在纤维或纤维颜色或颜色SO之类的搜索查询中支持美式/英式单词...

回答 1 投票 1

如何在Python中替换文本数组中的单词?

[我想使用自己的数组来阻止文本:word_list1 = [“ cccc”,“ bbbb”,“ aaa”] def stem_text(text):text = text.split()array = np.array(text)temp = np.where(array == word_list1,...

回答 2 投票 -1

我如何优化R中的词干和拼写检查性能?

我有〜1,4m个文档,每个文档的平均字符数为(Median:250和Mean:470)。在分类之前,我想执行拼写检查和词干分析。模拟文件:句子

回答 2 投票 0

错误:对象Stemmer不是org.apache.spark.mllib.feature包的成员

使用Scala在Spark-shell中导入软件包org.apache.spark.mllib.feature.Stemmer返回以下错误::47:错误:对象Stemmer不是软件包org.apache.spark.mllib的成员... 。

回答 1 投票 -1

如果我的文本包含UUID,在MongoDB中如何阻止文本?

我正在调查MongoDB中某个集合的更新缓慢。以前的同事已为_id字段选择了字符串类型,并将索引基于其他字符串字段。现在我理解了文本...

回答 1 投票 0

如何创建标记和词干的函数

我的代码定义tokenize_and_stem(text):令牌= [发送给nltk发送。sent_tokenize(text)发送给nltk.word_tokenize(text)] word_tokens = [如果re.search('a ...

回答 2 投票 0


© www.soinside.com 2019 - 2024. All rights reserved.