tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

如何在Java中逐个字符地读取输入?

我习惯了c风格的getchar(),但似乎没有什么比得上java了。我正在构建一个词法分析器,我需要逐个读入输入字符。我知道我可以用......

回答 9 投票 44

正则表达式,以任意顺序验证字段的语法,具有可接受的值

请考虑以下情况:我们希望使用正则表达式来验证具有X个字段的命令的语法 - 一个是强制的,两个是可选的。这三个字段可以显示在......

回答 3 投票 2

索引和查询时多个令牌过滤器的Apache Solr性能问题

我必须在Apache Solr 6.6.2中将Number号从一种语言转换为另一种语言。为此,我发现模式替换过滤器可以完成这项工作。我在Solr架构中添加了一个新字段...

回答 1 投票 0

查询elasticsearch以使所有分析的ngram标记匹配

我使用nGram分析器(仅发出三克)来索引一些数据,以完全按照ES指南中的描述解决复合词问题。然而,这并不像预期的那样有效:根据......

回答 1 投票 0

如何在Spacy语言模型中为空格添加tokenizer异常

以下是我获取用户输入的代码。 import en_core_web_sm nlp = en_core_web_sm.load()text = input(“请在这里输入你的文字或文字”)doc = nlp(text)print([t.text for t in doc] ...

回答 1 投票 1

从字符串中删除重复的单词时会发生字符串标记问题

我在下面的代码中尝试做的是标记字符串并将每个标记存储在动态分配的结构中,但不包括任何重复项。这段代码有点工作,直到我输入...

回答 3 投票 2

将值添加到数据框和导出

我试图在数据框中添加两个值作为列表,一个是句子,另一个是我得到的单词列表,在现在对这些句子进行标记化之后,我已经完成了以下代码...

回答 1 投票 2

拆分空格分隔的字符串,忽略单引号内的空格

我的Java输入字符串str =“aa 2 xx'b cc dd e'-o se'4-5'”我想输出由空格分隔的标记,除了单引号内的空格。所以,输出应该是:aa 2 xx'...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.