tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

单词袋中使用的单词以及keras标记器中的频率

我只是想知道,如何识别或获取单词列表以及keras标记器考虑的单词袋频率。考虑下面来自tensorflow.keras ....]的示例

回答 1 投票 0

在C ++中标记字符串

我正在编写一个程序,该程序将读取文本文件,并且输入与此类似。我编写的读取输入文件的代码将其存储为字符串数组,每个元素都代表一行……

回答 1 投票 0

nltk.TweetTokenizer与nltk.word_tokenize有何不同?

我无法理解两者之间的区别。虽然,我知道word_tokenize使用Penn-Treebank进行令牌化。但是TweetTokenizer上没有任何可用。为此...

回答 1 投票 0

加入Python列表中的一些元素

[请查看下面的代码,这些文件来自Transformers import GPT2Tokenizer,GPT2Model text =“这是我要嵌入的句子。” #marked_text =“ [CLS]” +文本+“ [SEP]”#标记化我们的...

回答 1 投票 1

不使用内置函数分割数组

下面的代码旨在接受一个输入字符串,例如“我的名字是史密斯”,输出“我的名字是史密斯”,并且还必须排除以下内容:、、。和空间,只有这三个,但输出却是I'...

回答 2 投票 1

如何在NLTK中使用word_tokenize忽略单词之间的标点符号?

我正在使用NLTK word_tokenize忽略单词之间的字符。如果我有一句话:test ='我应该在标准普尔交易吗?这适用于电话号码333-445-6635和电子邮件test @ ...

回答 2 投票 2

如何为keras Tokenizer选择num_words参数?

tokenizer = Tokenizer(num_words = my_max)我正在使用keras预处理令牌生成器来处理机器学习模型的文本语料库。分词器的参数之一是num_words ...

回答 1 投票 0

String标记生成器过滤器,例如Elasticsearch中的Shingle

我正在一个购物电子商务网站上工作,要求从产品名称生成有意义的字符串令牌以实现自动完成功能。例如:如果产品名称是:“ Red Beryl Striped Cotton ...

回答 1 投票 0

Tkinter显示类别列表文本

我有以下代码:我正在尝试从showText函数获取文本,以使其真正从tkinter import出现在窗口中*从nltk.tokenize import导入Wikipedia ...

回答 1 投票 0

关于拥抱脸型变形金刚中的get_special_tokens_mask

我使用变形器标记器,并使用API :get_special_tokens_mask创建了掩码。我的代码在RoBERTa Doc中,此API的返回结果是“范围为[0,1]的整数列表:0表示特殊令牌,1表示...

回答 1 投票 0

为什么我在PySpark中进行RegexTokenizer转换会得到与所需模式相反的内容?

[当我使用pyspark.ml.feature中的RegexTokenizer对数据框中的句子列进行标记化以查找所有单词字符时,我得到的含义与python re包为...时的结果相反]] >> < [

回答 1 投票 0

C#:从CSV创建2D数组并获得指定列的字数

我有一个看起来像这样的CSV文件:,位置代码,位置_Desc,类型代码,故障类型,产品编号,型号,Causer,审核员,Prio,捕获日期,转向,发动机,国家/地区,当前班次编号,VIN,注释,...

回答 1 投票 1

如何使用Keras令牌生成器处理字符?

对于序列标记任务,我的训练数据和标签如下所示:train_data = [['p','l','a','y','s'] train_labels = [[' ',' ','',' ',' ']] ...

回答 1 投票 0

如何在类似于AST树的方式下转换js字符串?

我需要将类似于以下的字符串表达式:“ SALARY('@ JohnSmith')= {USER.workingHours} * {USER.hourlyRate}”转换为类似于AST的形式。例如:const result = [{{...

回答 1 投票 0

使用encode_plus方法时令牌索引序列长度错误

当尝试使用Transformers库中提供的encode_plus方法为BERT编码问答对时,出现了一个奇怪的错误。我正在使用来自Kaggle比赛的数据。给定一个...

回答 1 投票 0

将字符串加引号括起来

我有以下字符串:“'string'4'[''RP0','LC0']''[3,4]''[3,'4']'”我正在使用shlex.split标记化字符串,如下所示:用于shlex.split(“'string'4'['RP0','LC0']''[...

回答 1 投票 0

R:带有标记化功能的自创建函数,%like%仅在第一个标记上起作用

我有两列的数据帧,第二列(单元)主要包含第一列(str)的第一个单词。请在下面查看:> df

回答 1 投票 0

Huggingface的BERT令牌生成器未添加填充令牌

从文档中还不清楚,但是我可以看到BertTokenizer是使用pad_token ='[PAD]'初始化的,所以我假设当您使用add_special_tokens = True进行编码时,... ...>

回答 1 投票 0

Python NLTK从CSV准备数据以进行标记化

我是Python和NLTK的新手。从CSV导入文本后,我正在尝试使用NLTK在Python中准备用于标记化的文本。文件中只有一栏包含自由文本。我想隔离...

回答 1 投票 0

没有定界符的输入字符串的标记化

我有这样的字符串(“ Customer.Activity” ==“汽车贷款”),我正在使用以下代码在java import java.util.ArrayList中使用StringTokenizer拆分String;导入java.util.StringTokenizer; ...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.