tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

使用group_by函数显示每个类别的前5个关键词

我正在尝试在每个产品类别的评论中找到前 5 个关键字,我有以下代码 # 按类别分组并统计关键词频率 关键字计数 <- filtered_data...

回答 1 投票 0

如何检查标记化句子列表中的特定单词,然后将它们标记为 1 或 0?

我正在尝试将列表中的特定单词映射到另一个标记化句子列表,如果在句子中找到该单词,那么我将 1 附加到其类别列表,将 0 附加到其余类别...

回答 2 投票 0

将 BERT 代币索引映射到 Spacy 代币索引

我正在尝试将 Bert 的(bert-base-uncased)标记化标记索引(不是 ids,标记索引)映射到 Spacy 的标记化标记索引。在下面的例子中,我的方法不起作用,因为......

回答 1 投票 0

OpenAI GPT-3 API:如何计算不同语言的令牌?

我们都知道GPT-3模型可以接受并生成英语、法语、中文、日语等各种语言。 在传统的NLP中,不同的语言有不同的token制作

回答 2 投票 0

Transformer 在现有的基础上训练新的分词器

在下面的代码中 从 Transformer 导入 AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese") tokenizer_new = tokenizer.train_new_from_iterator(training_corp...

回答 1 投票 0

如何循环遍历多行并标记化,返回包含所有标记的数组?

我之前发布了一个(格式糟糕且乏善可陈)问题,询问如何将数组作为输入参数传递并返回修改后的数组。经过一番折腾后我发现...

回答 1 投票 0

如何从包含 5000 条记录的列表中提取 DistilBERT 嵌入..?

对数据集进行标记后,我们尝试在数据集上提取 DistiBert 嵌入(数据框中包含 5000 条文本记录),以下代码发生内存错误: 输出=模型(**

回答 1 投票 0

如何使用 NLTK 分词器去除标点符号?

我刚刚开始使用NLTK,不太明白如何从文本中获取单词列表。如果我使用 nltk.word_tokenize(),我会得到单词和标点符号的列表。我只需要文字......

回答 13 投票 0

将 Hugging Face Transformer 文本嵌入转换回文本

有没有一种方法可以将 Hugging Face Transformer 嵌入转换回文本? 假设我使用 Hugging Face 的 ClipTextModel 使用以下方法创建了文本嵌入: 导入...

回答 1 投票 0

pySpark 将列表或 RDD 元素转换为值(int)

我正在使用 pySpark 来计算标记化 RDD 中的元素数量。 这是要素之一: ('b00004tkvy', ['诺亚', '方舟', '活动', '中心', '宝石', '案例', '年龄', '3', '8', '胜利', '多媒体'. ..

回答 1 投票 0

为什么我的 Streamlit 应用程序无法正确总结我的 mp3 转录?

我正在开发一个处理 MP3 文件的 Streamlit 应用程序。主要步骤包括: 上传 MP3 文件。 使用 pydub 将音频分割成更小的块。 使用 OpenAI 转录这些块。

回答 1 投票 0

使用 spaCy 将一个单词拆分为两个单词

我面临一个问题,由于收到的文本中缺少空格或新行,我需要将单个“单词”拆分为两个单词。我的目的是为此任务建立一个管道(spaCy 3.5.4)...

回答 1 投票 0

如何使用 spaCy Matcher 为仅解释为单个标记的序列创建基于规则的匹配模式

我是 nlp 和 spaCy 的新手,但我正在我的项目中使用它。我正在尝试使用 spaCy 的 Matcher 类创建一个模式来从临床摘要中提取信息,特别是提到 IQ ...

回答 1 投票 0

找不到型号“en_core_web_lg”。它似乎不是 Python 包或数据目录的有效路径。即使它们在同一目录中

我正在尝试不同的文本处理模型。我正在尝试使用 spacy,它的模型是 en_core_web_lg。 导入spacy 导入 spacy. 语言 从 spacy_langDetect 导入 LanguageDetector 来自 spacy.lang...

回答 1 投票 0

如何使用 python 将 tokenize 应用于数据框中的特定列?

我有一个包含三列的数据框。数据框中的一列需要应用标记化。我收到 TypeError : Expected string or bytes-like object, got 'float' 。 进口熊猫...

回答 1 投票 0

CS50 AI 项目 6b 问题:代码无法正确处理所有标记化

到目前为止,我已提交该项目 4 次,但总是被拒绝并显示相同的消息: 您的代码无法正确处理所有标记化,这可能会导致解析和解释

回答 0 投票 0

最好的数据加密和标记化公司? [已关闭]

我们目前正在计划构建一个应用程序,安全可靠地存储消费者的付款方式。有哪些只处理数据加密和标记化的最佳公司...

回答 0 投票 0

如何在维护构成每个句子的字符串的信息的同时对字符串列表进行句子标记?

我有如下字符串列表(从 pdf 上的 OCR 找到),对于列表中的每个字符串,我也有它们在 pdf 中的位置坐标 [“新加坡的大部分基础设施......

回答 1 投票 0

bert-base-uncased tokenizer 在句子中丢失了单词

这是我的代码。我想得到句子中每个单词的嵌入。如果这个词被分成几个子词,我会嵌入第一个子词。所以嵌入的数量应该是...

回答 1 投票 0

正则表达式以识别缺少前导 $

我正在尝试匹配某些缺少前导美元符号的 PHP 代码中的变量,以此作为修复代码的方法。 示例输入: foo = “酒吧” $酒吧=富 富() $foo = 酒吧; 酒吧=富(...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.