tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

TypeError:llama_tokenize() 缺少 2 个必需的位置参数:'add_bos' 和 'special'

我正在运行 python 3.11 和带有 gguf 模型的最新版本的 llama-cpp-python 我希望代码像聊天机器人一样正常运行,但我收到此错误: 回溯(最近一次调用最后...

回答 1 投票 0

Opensearch / Elasticsearch 分词器可根据尾随状态缩写(正则表达式)进行拆分

我希望 Opensearch 对我的银行的个人项目交易信息进行标记,但我无法确定正确的语法。 以下是一些交易描述的示例: 亚马逊网站

回答 1 投票 0

按子字符串分割字符串

我有以下字符串: char str[] = "A/USING=B)"; 我想使用 /USING= 作为分隔符来分割以获得单独的 A 和 B 值 我该怎么做?我知道 strtok() 但它只是被一个字符分割......

回答 6 投票 0

为 Bert 截断中间的文本

我正在学习 Bert,它只处理少于 512 个标记的文本,并且遇到了这个答案,它说在中间截断文本(而不是在开头或结尾......

回答 1 投票 0

在 OpenSearch 中标记化时将分隔符保留为标记

如何在 OpenSearch 中定义一个标记生成器,将指定的分隔符保留为标记? 输入:lorem123+ipsum dolar-sit,带分隔符 +、\s、- 输出代币:lorem123、+、ipsum、dolar、-、sit

回答 1 投票 0

取消屏蔽为 BPE 分词器添加了额外的空格

我使用以下参数创建了一个自定义 BPE 标记器来预训练 Roberta 模型(我尝试将其与 RoBERTa 的 BPE 默认参数对齐。): 来自 tokenizers.models 我...

回答 1 投票 0

“open_clip”模块中的 CLIP 模型返回 77 个令牌的单个嵌入

我正在使用 open_clip 模块从 CLIP 模型中获取文本嵌入。当我标记单个文本序列的列表并将它们传递给模型的encode_text方法时,我希望得到嵌入......

回答 1 投票 0

从标记创建语法树

我正在尝试为 TI-BASIC 语法创建一个小型解释器。 这是我试图解释的 TI-BASIC 的片段 A->(2+(3*3)) 我已将上面的代码标记为以下标记序列: 为了...

回答 2 投票 0

从 LLM 生成文本时打印出特殊标记

嗨,我有一个关于 llm 在生成答案时打印特殊令牌的问题。 这是一个例子: from utils.prompter import 提示符 # 从 utils.util 导入后处理,e2k_m...

回答 1 投票 0

如何标记有语法错误的Python源代码?

我正在尝试对带有语法错误的Python源代码进行标记,然后将其作为统计模型(例如循环神经网络)的输入。 然而内置的 tokenizer.py 会产生 ErrorToken ...

回答 1 投票 0

spacy 正在为出现在两个不同位置的唯一单词创建两个单独的标记

我不清楚 spacy 如何标记文档中再次出现的单词。在下面的示例中,有两个句子,并且以单词“He”开头。这个词应该产生一个标记吗?是否

回答 1 投票 0

对SentencePiece的一些疑问

最近在学习Google的SentencePiece时遇到了一些问题。 BPE、WordPiece 和 Unigram 都是常见的子词算法,那么 SentencePiece 和...

回答 1 投票 0

elasticsearch如何统计tf-idf?看起来很奇怪

我有一个索引,其中包含存储系统信息的文档和复制到 searchable_keys 字段中的可搜索字段。在这种情况下,只有一个这样的字段 - name。 这是定义...

回答 1 投票 0

了解 Huggingface 转换器库中 bert 分词器中参数“text”和“text_target”之间的区别

来自 Huggingface 的变形金刚库 从 Transformer 导入 BertTokenizer tb = BertTokenizer.from_pretrained("bert-base-uncased") tb 不是单词分词器。它有争论...

回答 1 投票 0

标记器和解析器返回后缀符号的错误答案

我已经为后缀表达式编写了分词器和递归解析器。我的代码如下: 进口再 令牌模式 = [ ('操作员', r'[+\-*/]'), ('数字', r'\d+'), ('白...

回答 1 投票 0

“输入无效。应该是字符串、字符串列表/元组或整数列表/元组。” ValueError:输入无效

我正在使用 Bert 法语分词器,我收到此错误,但我似乎没有解决它。如果您有建议。 回溯(最近一次调用最后一次): 文件“training_cross_dat...

回答 2 投票 0

好的java分词器?

我很好奇除了标准库中包含的标准库(例如 StreamTokenizer 和 StringTokenizer)之外,还有什么好的 java 分词器,在我看来,它们不是很好。 唯一的...

回答 3 投票 0

在 HuggingFace 分词器中:如何简单地在空格上分割序列?

我正在使用 HuggingFace 的 DistilBertTokenizer 分词器。 我想通过简单地在空间上分割来标记我的文本: [“不要”,“你”,“爱”,“🤗”,&...

回答 2 投票 0

获取标记化文件列表并部署它们

我的谷歌foo让我失望了。 我们有一个由数十个或数千个文件编译而成的系统。 其中数百个我们有一个环境令牌 {#...#}。大多数都是 PL/SQL,所以我们部署单独的网络...

回答 1 投票 0

python 的字符串 find 方法返回 -1 的问题

我正在尝试编写一个接受字符串并返回标记位置的函数。当 tokens = query_string.split() 时,该函数工作正常,但如果我尝试使用 string lower 方法,如图所示...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.