tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

使用 strcat() 时出现段错误

调用 strcat() 时出现分段错误;但是,我已经 malloc 了目标字符串并初始化了前一个字符串。这是在 C 中制作 shell 的任务,我是 ...

回答 1 投票 0

如何修复 pymorphy 库中的“TypeError: super(type, obj): obj must be an instance or subtype of type”?

我需要标记文本。我决定使用 pymorphy2 库,但是在尝试创建 MorphAnalyzer() 对象时,它会抛出错误 TypeError: super(type, obj): obj 必须是实例或

回答 0 投票 0

TypeError是什么原因?

我需要标记文本。我决定使用 pymorphy2 库,但是当试图创建一个 MorphAnalyzer() 对象时,它抛出一个错误:TypeError: super(type, obj): obj must be an instance or

回答 0 投票 0

pip install nnsplit 不起作用,如何解决?

nnsplit 看起来很有前途,我想开始在我的电脑上使用它,但是当我运行 pip install nnsplit 时出现以下错误 错误:找不到满足 nn...

回答 1 投票 0

IntelliJ IDEA中的XSLT 2支持

我在IntelliJ中查看XSLT 2风格的XML文件时遇到了一个问题。我已经添加了Saxon HE的依赖性,我知道它可以工作,因为构建成功(没有这个依赖性是不行的)。

回答 1 投票 0

字符串regex无法分割封闭括号内的单词

我正在使用一个字符串regex来拆分下面的字符串 String input = "( Customer.browse == \"Car Loan\" ) AND ( Campaign.period BETWEEN 2400 AND 600 ) AND ( Customer.eligibity == TRUE ) AND ( ....

回答 1 投票 0

试图编程

我正在尝试编写一个tokenizer程序,输入一个字符串,例如:" 34 56 7899 ",并编辑 "34"、"56 "和 "7899 "这几个单一的标记。此外,我不允许使用标准的 ...

回答 2 投票 -1

如何将keras tokenizer. texts_to_matrix(一热编码矩阵)的单词转换成文本。

我参考了这个帖子,其中讨论了如何使用 reverse_map 策略从 keras 中 tokenizer 的 text_to_sequences 函数获取文本。我想知道是否有一个函数可以获取文本......

回答 1 投票 0

使用堆栈的Bencode解析器

我正试图使用基于堆栈的方法来解析一个编码字符串。这个链接描述了Bencoding:https:/www.bittorrent.orgbepsbep_0003.html 我的psuedocode不能处理有 ...

回答 1 投票 0

从CSV中创建二维数组,并获得指定列的字数。

我有一个CSV文件,看起来像这样。地点代码,地点描述,类型代码,故障类型,产品编号,型号,起因,审核员,日期,方向盘,发动机,国家,当前班次号,VIN,评论,... ...

回答 1 投票 1

像Elasticsearch中的Shingle一样的字符串tokenizer过滤器。

我在一个购物网站上工作,要求从产品名称中生成有意义的字符串标记,以实现自动完成功能。例如:如果产品名称是。"Red Beryl Striped Cotton ..."。

回答 1 投票 0

像Elasticsearch中的Shingle一样的字符串tokenizer过滤器。

我在一个购物网站上工作,要求从产品名称中生成有意义的字符串标记,以实现自动完成功能。例如:如果产品名称是。"Red Beryl Striped Cotton ..."。

回答 1 投票 0

在数据框架中使用RegexpTokenizer拆分句子 [重复] 。

我试图将数据框输入到我的文字处理器中,先分割成句子,再分割成单词。一个示例文本。当打击被重复时,再加上幼稚的句子告诫,... ...

回答 1 投票 1

如何阻止 BERT 将特定的单词拆成单词片断?

我正在使用一个预先训练好的BERT模型 将一个文本标记成有意义的标记。然而,文本中有许多特定的单词,我不想让 BERT 模型将它们分解成单词片段。有没有什么...

回答 2 投票 0

Bert Tokenizer在导入所有包后仍无法工作。是否有新的语法变化?

试图运行 Bert 的 tokenizer,但我一直收到错误。谁能帮帮我,我到底哪里出错了。FullTokenizer = bert.bert_tokenization.FullTokenizer bert_layer = hub.KerasLayer("https:/tfhub...")

回答 1 投票 0

NLTK单词标记化除了带破折号的单词之外的所有单词,例如('hi-there','me-you')。

我不知道如何使用nltk.word_tokenize方法来标记除了带破折号的词以外的所有词(即排除所有中间有破折号的词)。我试过使用 ...

回答 1 投票 0

BPE Tokenizer 对一些 html 文本进行编码需要很长时间。

我正在使用BPE tokenizer对HTML文本进行编码以解决分类问题。大多数情况下,它都能正常工作,但有几个网页的编码器需要花费很长的时间来编码HTML。诸如...

回答 0 投票 -1

[tokenizer中的令牌到单词的映射,解码步骤在拥抱面?

是否有一种方法可以知道从令牌到tokenizer.decode()函数中原始单词的映射?例如:从transformers.tokenization_roberta导入RobertaTokenizer ...

回答 1 投票 0

如何使用Tokenize模块对python代码进行令牌化?

考虑到我有一个包含python代码的字符串。输入=“从nltk.stem导入nltk导入PorterStemmer porter_stemmer = PorterStemmer()words = [” connect“,” connected“,” connection“,” ...

回答 1 投票 0

Java-如何搜索特定的字符串,组合两个字符串并用另一个单词替换一个单词?

我是JAVA的新手。您将如何处理这种情况:假设我有一串这样的文字:Firs Line Angel:我的工作是程序员。自工作起的第二线日期:13.05.2020 ...

回答 1 投票 -4

© www.soinside.com 2019 - 2024. All rights reserved.