tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

如何在word2vec(使用tensorflow)中处理复合名词(动物名)?

有人对如何使用包含复合名词和非复合名词的语料库使用w2v(使用tensorflow而不是gensim)有任何建议吗?特别是关于动物名称(英语...

回答 1 投票 0

Tensorflow 分词器问题。 num_words 到底做什么?

执行此代码时,我得到 11937,但我不应该得到 10.000 吗? 如果我不应该的话,我有几个后续问题: num_words 有什么意义? 我得到的数字11937代表什么? 我该如何...

回答 1 投票 0

为什么 Tokenizer 和 TokenizerFast 编码同一个句子会得到不同的结果

错误1 当我使用 tokenizer 编码文本并使用“do_basic_tokenize=False”时,我发现了两个不同的结果。 但是当我设置“do_basic_tokenize=True”时,结果是相同的。 这段文字是“豪华酒店

回答 1 投票 0

如何迭代地将子词添加在一起?

我需要获取迭代创建的串联子词列表,但每个结果之间有空格。用语言很难准确地解释,但通过一个例子就很容易明白: 输入...

回答 1 投票 0

如何使用 XSLT 删除字符串中的最后 4 个标记?

我需要删除属性的最后 4 个标记,在本例中是 infoEntityIdent 的最后 4 个标记 这是元素 我需要删除属性的最后 4 个标记,在本例中是 infoEntityIdent 的最后 4 个标记 这是元素<graphic infoEntityIdent="XXX-XXXXXX-X-781410-P-77445-00256-A-000-01"> 结果将是 XXX-XXXXXX-X-781410-P-77445-00256-A 我使用以下 XSLT 让它工作: <xsl:analyze-string select="//figure[@id = current()/@internalRefId]/graphic/@infoEntityIdent" regex="-"> <xsl:matching-substring> <xsl:if test="position() le 14"> <xsl:value-of select="."/> </xsl:if> </xsl:matching-substring> <xsl:non-matching-substring> <xsl:if test="position() le 15"> <xsl:value-of select="."/> </xsl:if> </xsl:non-matching-substring> </xsl:analyze-string> 问题是这不是一个好的编程实践,因为只有当我们有 10 个用“-”分隔的标记时它才有效。 我想删除最后 2 个标记和以 XXX-XXXXXX-X-781410-P-77445-00256-A 结尾的“-” 你可以简单地做: <xsl:value-of select="tokenize($yourString, '-')[position() le last() - 2]" separator="-"/> 补充: 只是为了好玩,这里有一种从(字面意思)另一个方向看它的方法: <xsl:value-of select="reverse(subsequence(reverse(tokenize($yourString,, '-')), 3))" separator="-"/>

回答 1 投票 0

使用自定义 Elasticsearch pipelineAnalyzer 意外删除了令牌中的句点 (.)

我在 Elasticsearch 中配置了一个名为 pipelineAnalyzer 的自定义分析器,旨在使用管道 (|) 字符作为分隔符来标记字符串,同时还应用小写转换,...

回答 1 投票 0

有没有办法保存预编译的AutoTokenizer?

有时,我们必须这样做来扩展预训练的分词器: 从 Transformer 导入 AutoTokenizer 从数据集导入load_dataset ds_de = load_dataset("mc4", '...

回答 1 投票 0

在 bert 上训练新数据集

我有一个亚马逊评论数据集,我想根据评论预测星级 我知道我可以使用预训练的 bert 模型,如下所示 但我想用自己的数据训练bert模型......

回答 1 投票 0

调车场计算算法的标记化

我有一个标记化算法和一些无法正确解析的数学表达式。 这是代码: 私有无效 GetTokens() { foreach(测试中的字符标记) { if (token.ToS...

回答 1 投票 0

使用 sscanf 解析/标记 csv 文件?

我目前正在尝试使用 sscanf 解析 .csv 文件。我创建了一个函数来检测行开头的引号。 int checkString(const char *str) { if (str[0] == '"') { 重新...

回答 1 投票 0

TypeError:llama_tokenize() 缺少 2 个必需的位置参数:'add_bos' 和 'special'

我正在运行 python 3.11 和带有 gguf 模型的最新版本的 llama-cpp-python 我希望代码像聊天机器人一样正常运行,但我收到此错误: 回溯(最近一次调用最后...

回答 1 投票 0

Opensearch / Elasticsearch 分词器可根据尾随状态缩写(正则表达式)进行拆分

我希望 Opensearch 对我的银行的个人项目交易信息进行标记,但我无法确定正确的语法。 以下是一些交易描述的示例: 亚马逊网站

回答 1 投票 0

按子字符串分割字符串

我有以下字符串: char str[] = "A/USING=B)"; 我想使用 /USING= 作为分隔符来分割以获得单独的 A 和 B 值 我该怎么做?我知道 strtok() 但它只是被一个字符分割......

回答 6 投票 0

为 Bert 截断中间的文本

我正在学习 Bert,它只处理少于 512 个标记的文本,并且遇到了这个答案,它说在中间截断文本(而不是在开头或结尾......

回答 1 投票 0

在 OpenSearch 中标记化时将分隔符保留为标记

如何在 OpenSearch 中定义一个标记生成器,将指定的分隔符保留为标记? 输入:lorem123+ipsum dolar-sit,带分隔符 +、\s、- 输出代币:lorem123、+、ipsum、dolar、-、sit

回答 1 投票 0

取消屏蔽为 BPE 分词器添加了额外的空格

我使用以下参数创建了一个自定义 BPE 标记器来预训练 Roberta 模型(我尝试将其与 RoBERTa 的 BPE 默认参数对齐。): 来自 tokenizers.models 我...

回答 1 投票 0

“open_clip”模块中的 CLIP 模型返回 77 个令牌的单个嵌入

我正在使用 open_clip 模块从 CLIP 模型中获取文本嵌入。当我标记单个文本序列的列表并将它们传递给模型的encode_text方法时,我希望得到嵌入......

回答 1 投票 0

从标记创建语法树

我正在尝试为 TI-BASIC 语法创建一个小型解释器。 这是我试图解释的 TI-BASIC 的片段 A->(2+(3*3)) 我已将上面的代码标记为以下标记序列: 为了...

回答 2 投票 0

从 LLM 生成文本时打印出特殊标记

嗨,我有一个关于 llm 在生成答案时打印特殊令牌的问题。 这是一个例子: from utils.prompter import 提示符 # 从 utils.util 导入后处理,e2k_m...

回答 1 投票 0

如何标记有语法错误的Python源代码?

我正在尝试对带有语法错误的Python源代码进行标记,然后将其作为统计模型(例如循环神经网络)的输入。 然而内置的 tokenizer.py 会产生 ErrorToken ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.