tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

AttributeError:模块'keras.preprocessing.sequence'没有属性'pad_sequences'

我收到这个错误:AttributeError: module 'keras.preprocessing.sequence' has no attribute 'pad_sequences' 导入keras 从 keras 导入预处理 从 keras.utils 导入 pad_sequences

回答 0 投票 0

使用'padding=True''truncation=True'截断和/或填充的问题

我想从头开始训练我的模型,我在 file.txt 中有我的文本,然后是 train.txt 和 validation.txt,我从 file.txt 分成 90% 和 10%,我有 merges.txt 和 vocab .json,这一切都在 Se...

回答 0 投票 0

如何在电脑离线模式下使用tiktoken

导入tiktoken tokenizer = tiktoken.get_encoding("cl100k_base") tokenizer = tiktoken.encoding_for_model("gpt-3.5-turbo") text = "你好,很高兴认识你" 分词器。

回答 1 投票 0

将 JSON/dict 转换为带有指示符标记的扁平字符串

给出如下输入: {'example_id': 0, '查询':'revent 80 cfm', 'query_id':0, 'product_id': 'B000MOO21W', 'product_locale':'我们', 'esci_label': '我', '小版本':0, 'large_version':1 ...

回答 0 投票 0

在文本标记化函数或模型中添加特殊标记

我正在尝试使用 Tensorflow Javascript 制作聊天机器人模型,我想对文本进行标记化,以便我可以分离上下文、过去的消息和当前提示以输出回复。所以我...

回答 1 投票 0

为什么会出现 TypeError: expected string or bytes-like object is occurring?

token_ids = [] 对于推文中的推文: # 删除不需要的字符和符号 tweet = re.sub(r'[^\w\s]', '', tweet) # 标记推文 tokens = bert_tokenizer.tokenize([tweet]) ...

回答 0 投票 0

bert_vocab.bert_vocab_from_dataset 返回错误的词汇

我正在尝试按照 tf 的教程 https://www.tensorflow.org/text/guide/subwords_tokenizer 构建一个分词器。我基本上只是用不同的数据集做同样的事情。

回答 0 投票 0

TorchText Vocab TypeError: Vocab.__init__() got an unexpected keyword argument 'min_freq'

我正在研究 CNN 情感分析机器学习模型,该模型使用 Torchtext 库提供的 IMDb 数据集。 在我的一行代码中 vocab = Vocab(counter, min_freq = 1, specia...

回答 3 投票 0

是否有 cl100k_base tokenizer 的 JavaScript 实现?

OpenAI 的新嵌入 API 使用 cl100k_base 分词器。我从 Node.js 客户端调用它,但我没有看到任何简单的方法来切片我的字符串,所以它们不会超过 8192 的 OpenAI 限制......

回答 1 投票 0

变形金刚:要求填充但分词器没有填充令牌

尝试使用相同的数据集依次评估一堆变形金刚模型,以检查哪个模型表现更好。 模型列表是这个: 模型 = [ ('xlm-mlm-enfr-1024' ,...

回答 3 投票 0

无法使用 Keras 初始化两个不同的分词器

对于拼写纠正任务,我构建了一个包含 LSTM 和注意力机制的 seq2seq 模型。我使用 Keras 进行字符级标记化。我初始化了两个不同的分词器,一个用于拼写错误的句子......

回答 0 投票 0

获取字符串中包含的所有标记

我需要你的帮助,我收到了一个 URL,它将包含我需要为其他事情计算的令牌。所以基本上我需要提取列表或另一个字符串中的所有标记。 IE 串你...

回答 0 投票 0

如何在 SAP HANA 全文搜索索引中自定义标记化

借助 SAP HANA,您可以进行文本分析、全文搜索甚至情感分析。 在 SAP HANA 中自定义标记化有哪些选项? 我知道我可以创建一个自定义词典...

回答 1 投票 0

对于 antlr4 解析器来说,这是一个严重的词法上下文问题吗?

WOOL 语言允许以下结构: [[ 文字 |节点名称]] [[ 节点名称 ]] [[ 文字 |节点名称 |文本 ]] 文本应按键入的方式标记化的位置,包括空格和其他内容(

回答 0 投票 0

Libretranslate(+ Huggingface Transformers)-无法翻译文本:为 Tokenizer 加载 state_dict 时出错:state_dict 中缺少键:

Python 3.10.6,Libretranslate 1.3.10,在 Ubuntu 22.04 上 使用 pip install libretranslate 安装 libretranslate,使用 libretranslate --host 0.0.0.0 --port 5001 运行它。一切都按预期工作....

回答 0 投票 0

微调 GPT2 - 注意掩码和 pad 令牌 id 错误

我一直在尝试在 wikitext-2 数据集上微调 GPT2(只是为了帮助自己学习这个过程),但我遇到了一条我以前从未见过的警告消息: “注意力面具......

回答 1 投票 0

在 ANSI C 中使用指针标记字符串

这是在 Ansi C 中。我得到了一个字符串。我应该创建一个方法,该方法返回指向所述字符串的每个单词开头的字符指针数组。我不允许使用

回答 2 投票 0

ChatGPT:如何在提示中使用未知内容的长文本?

我非常喜欢网站 chatpdf.com。您可以上传 PDF 文件,然后将文件的文本内容与文件“本身”进行讨论。它使用 ChatGPT。 我想编程一些东西

回答 0 投票 0

在 Racket 中构建解析器

我是 Racket 的新手,我正在尝试使用 Beautiful Racket 库解析语法。我在一个单独的文件中定义了语法,它似乎完全没问题。我的代币化也是 w...

回答 0 投票 0

大多数字节已被使用时的字节对编码

字节对编码显然有时用于在运行机器学习算法之前压缩/标记文本。 根据 https://en.wikipedia.org/wiki/Byte_pair_encoding 的基本...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.