tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

TypeError：llama_tokenize() 缺少 2 个必需的位置参数：'add_bos' 和 'special'

我正在运行 python 3.11 和带有 gguf 模型的最新版本的 llama-cpp-python 我希望代码像聊天机器人一样正常运行，但我收到此错误：回溯（最近一次调用最后...

python tokenize llama

回答 1 投票 0

Opensearch / Elasticsearch 分词器可根据尾随状态缩写（正则表达式）进行拆分

我希望 Opensearch 对我的银行的个人项目交易信息进行标记，但我无法确定正确的语法。以下是一些交易描述的示例：亚马逊网站

regex elasticsearch tokenize opensearch

回答 1 投票 0

按子字符串分割字符串

我有以下字符串： char str[] = "A/USING=B)"; 我想使用 /USING= 作为分隔符来分割以获得单独的 A 和 B 值我该怎么做？我知道 strtok() 但它只是被一个字符分割......

c string tokenize strtok

回答 6 投票 0

为 Bert 截断中间的文本

我正在学习 Bert，它只处理少于 512 个标记的文本，并且遇到了这个答案，它说在中间截断文本（而不是在开头或结尾......

nlp token tokenize bert-language-model

回答 1 投票 0

在 OpenSearch 中标记化时将分隔符保留为标记

如何在 OpenSearch 中定义一个标记生成器，将指定的分隔符保留为标记？输入：lorem123+ipsum dolar-sit，带分隔符 +、\s、- 输出代币：lorem123、+、ipsum、dolar、-、sit

tokenize opensearch

回答 1 投票 0

取消屏蔽为 BPE 分词器添加了额外的空格

我使用以下参数创建了一个自定义 BPE 标记器来预训练 Roberta 模型（我尝试将其与 RoBERTa 的 BPE 默认参数对齐。）：来自 tokenizers.models 我...

python huggingface-transformers tokenize huggingface huggingface-tokenizers

回答 1 投票 0

“open_clip”模块中的 CLIP 模型返回 77 个令牌的单个嵌入

我正在使用 open_clip 模块从 CLIP 模型中获取文本嵌入。当我标记单个文本序列的列表并将它们传递给模型的encode_text方法时，我希望得到嵌入......

text tokenize embedding

回答 1 投票 0

从标记创建语法树

我正在尝试为 TI-BASIC 语法创建一个小型解释器。这是我试图解释的 TI-BASIC 的片段 A->(2+(3*3)) 我已将上面的代码标记为以下标记序列：为了...

java tokenize abstract-syntax-tree

回答 2 投票 0

从 LLM 生成文本时打印出特殊标记

嗨，我有一个关于 llm 在生成答案时打印特殊令牌的问题。这是一个例子： from utils.prompter import 提示符 # 从 utils.util 导入后处理，e2k_m...

huggingface-transformers tokenize large-language-model huggingface-tokenizers

回答 1 投票 0

如何标记有语法错误的Python源代码？

我正在尝试对带有语法错误的Python源代码进行标记，然后将其作为统计模型（例如循环神经网络）的输入。然而内置的 tokenizer.py 会产生 ErrorToken ...

python syntax-error tokenize

回答 1 投票 0

spacy 正在为出现在两个不同位置的唯一单词创建两个单独的标记

我不清楚 spacy 如何标记文档中再次出现的单词。在下面的示例中，有两个句子，并且以单词“He”开头。这个词应该产生一个标记吗？是否

spacy tokenize

回答 1 投票 0

对SentencePiece的一些疑问

最近在学习Google的SentencePiece时遇到了一些问题。 BPE、WordPiece 和 Unigram 都是常见的子词算法，那么 SentencePiece 和...

tokenize sentencepiece byte-pair-encoding

回答 1 投票 0

elasticsearch如何统计tf-idf？看起来很奇怪

我有一个索引，其中包含存储系统信息的文档和复制到 searchable_keys 字段中的可搜索字段。在这种情况下，只有一个这样的字段 - name。这是定义...

elasticsearch nlp tokenize tf-idf n-gram

回答 1 投票 0

了解 Huggingface 转换器库中 bert 分词器中参数“text”和“text_target”之间的区别

来自 Huggingface 的变形金刚库从 Transformer 导入 BertTokenizer tb = BertTokenizer.from_pretrained("bert-base-uncased") tb 不是单词分词器。它有争论...

huggingface-transformers tokenize bert-language-model huggingface-tokenizers

回答 1 投票 0

标记器和解析器返回后缀符号的错误答案

我已经为后缀表达式编写了分词器和递归解析器。我的代码如下：进口再令牌模式 = [ ('操作员', r'[+\-*/]'), ('数字', r'\d+'), （'白...

python parsing tokenize recursive-descent

回答 1 投票 0

“输入无效。应该是字符串、字符串列表/元组或整数列表/元组。” ValueError：输入无效

我正在使用 Bert 法语分词器，我收到此错误，但我似乎没有解决它。如果您有建议。回溯（最近一次调用最后一次）：文件“training_cross_dat...

python python-3.x pandas tokenize bert-language-model

回答 2 投票 0

好的java分词器？

我很好奇除了标准库中包含的标准库（例如 StreamTokenizer 和 StringTokenizer）之外，还有什么好的 java 分词器，在我看来，它们不是很好。唯一的...

java tokenize

回答 3 投票 0

在 HuggingFace 分词器中：如何简单地在空格上分割序列？

我正在使用 HuggingFace 的 DistilBertTokenizer 分词器。我想通过简单地在空间上分割来标记我的文本： [“不要”，“你”，“爱”，“🤗”，&...

split tokenize huggingface-transformers huggingface-tokenizers

回答 2 投票 0

获取标记化文件列表并部署它们

我的谷歌foo让我失望了。我们有一个由数十个或数千个文件编译而成的系统。其中数百个我们有一个环境令牌 {#...#}。大多数都是 PL/SQL，所以我们部署单独的网络...

azure-devops azure-pipelines tokenize

回答 1 投票 0

python 的字符串 find 方法返回 -1 的问题

我正在尝试编写一个接受字符串并返回标记位置的函数。当 tokens = query_string.split() 时，该函数工作正常，但如果我尝试使用 string lower 方法，如图所示...

python string find tokenize lowercase

回答 1 投票 0

tokenize 相关问题

最新问题