tokenize 相关问题

标记化是将字符串拆分为称为标记的离散元素的行为。

如何调整 spaCy 分词器,以便在德国模型中分割行尾的数字和点

我在 spacy 有一个用例,我想在德语句子中查找电话号码。不幸的是,分词器没有按预期进行分词。当数字位于句子末尾时...

回答 1 投票 0

如何从 Hugging Face 标记器中知道哪些标记是 unk 标记?

我想向预训练的 Tokenizer 的 tokenizer 添加一些新的 token,以便对我的下游任务进行微调。但我不想通过查看每个样本来检查哪个标记不在

回答 1 投票 0

Keras 分词器未出现在导入中

我正在尝试使用我训练的模型(.keras)生成字幕,并且遵循以下说明:链接,我没有直接遵循,我使用 Keras 图像字幕创建并训练了模型...

回答 1 投票 0

Pycharm tensorflow 库导入错误

我尝试安装当前版本的tensorflow bt,但在导入“模型”,“Tokenizer”,“序列”时仍然出错,我不知道问题所在,我是我们...

回答 1 投票 0

在 AWS Open 搜索中搜索电子邮件

我正在将大量数据推送到 AWS OpenSearch 实例中,以轻松搜索各种字符串。我推送的数据是一个 json 记录,其中包含一些属性,例如电子邮件、电话、姓名。 我遇到的问题...

回答 1 投票 0

如何在 Ruby 中标记该字符串?

我有这个字符串: %{儿童^10健康“卫生管理”^5} 我想将其转换为将其标记为哈希数组: [{:keywords=>"children", :boost=>10}, {:keywords=>"

回答 3 投票 0

使用 SpaCy 标记 12GB xml 时内存不足

我正在尝试在 xml 中标记 12GB 的文本。该文件仅包含“内容词”,没有停用词。我正在尝试实现一个函数,以便通过文本块进行标记并清除...

回答 1 投票 0

属性错误:模块“openai”没有属性“OpenAI”

我正在尝试获取我正在执行的聊天机器人项目发送和接收的提示的令牌计数。看看这个链接中的第二个片段 Langchain 官方文档链接 当我...

回答 1 投票 0

HuggingFace 多列标记器

我有一个包含 2 个文本列和 1 个输出列的数据集。 文本_a 文本_b 输出 “这是一只鸟”“这是一支铅笔”0 “这是一只猫……

回答 1 投票 0

Paytabs 使用令牌定期付款请求给出 [422 - 无法处理您的请求]错误

我通过 Paytabs Tokenization 方法创建了一个令牌,然后使用生成的令牌再次使用 tran_class: recurring 请求,但我收到 {'code': 422, 'message': 'Unable to process your

回答 1 投票 0

如何在word2vec(使用tensorflow)中处理复合名词(动物名)?

有人对如何使用包含复合名词和非复合名词的语料库使用w2v(使用tensorflow而不是gensim)有任何建议吗?特别是关于动物名称(英语...

回答 1 投票 0

Tensorflow 分词器问题。 num_words 到底做什么?

执行此代码时,我得到 11937,但我不应该得到 10.000 吗? 如果我不应该的话,我有几个后续问题: num_words 有什么意义? 我得到的数字11937代表什么? 我该如何...

回答 1 投票 0

为什么 Tokenizer 和 TokenizerFast 编码同一个句子会得到不同的结果

错误1 当我使用 tokenizer 编码文本并使用“do_basic_tokenize=False”时,我发现了两个不同的结果。 但是当我设置“do_basic_tokenize=True”时,结果是相同的。 这段文字是“豪华酒店

回答 1 投票 0

如何迭代地将子词添加在一起?

我需要获取迭代创建的串联子词列表,但每个结果之间有空格。用语言很难准确地解释,但通过一个例子就很容易明白: 输入...

回答 1 投票 0

如何使用 XSLT 删除字符串中的最后 4 个标记?

我需要删除属性的最后 4 个标记,在本例中是 infoEntityIdent 的最后 4 个标记 这是元素 我需要删除属性的最后 4 个标记,在本例中是 infoEntityIdent 的最后 4 个标记 这是元素<graphic infoEntityIdent="XXX-XXXXXX-X-781410-P-77445-00256-A-000-01"> 结果将是 XXX-XXXXXX-X-781410-P-77445-00256-A 我使用以下 XSLT 让它工作: <xsl:analyze-string select="//figure[@id = current()/@internalRefId]/graphic/@infoEntityIdent" regex="-"> <xsl:matching-substring> <xsl:if test="position() le 14"> <xsl:value-of select="."/> </xsl:if> </xsl:matching-substring> <xsl:non-matching-substring> <xsl:if test="position() le 15"> <xsl:value-of select="."/> </xsl:if> </xsl:non-matching-substring> </xsl:analyze-string> 问题是这不是一个好的编程实践,因为只有当我们有 10 个用“-”分隔的标记时它才有效。 我想删除最后 2 个标记和以 XXX-XXXXXX-X-781410-P-77445-00256-A 结尾的“-” 你可以简单地做: <xsl:value-of select="tokenize($yourString, '-')[position() le last() - 2]" separator="-"/> 补充: 只是为了好玩,这里有一种从(字面意思)另一个方向看它的方法: <xsl:value-of select="reverse(subsequence(reverse(tokenize($yourString,, '-')), 3))" separator="-"/>

回答 1 投票 0

使用自定义 Elasticsearch pipelineAnalyzer 意外删除了令牌中的句点 (.)

我在 Elasticsearch 中配置了一个名为 pipelineAnalyzer 的自定义分析器,旨在使用管道 (|) 字符作为分隔符来标记字符串,同时还应用小写转换,...

回答 1 投票 0

有没有办法保存预编译的AutoTokenizer?

有时,我们必须这样做来扩展预训练的分词器: 从 Transformer 导入 AutoTokenizer 从数据集导入load_dataset ds_de = load_dataset("mc4", '...

回答 1 投票 0

在 bert 上训练新数据集

我有一个亚马逊评论数据集,我想根据评论预测星级 我知道我可以使用预训练的 bert 模型,如下所示 但我想用自己的数据训练bert模型......

回答 1 投票 0

调车场计算算法的标记化

我有一个标记化算法和一些无法正确解析的数学表达式。 这是代码: 私有无效 GetTokens() { foreach(测试中的字符标记) { if (token.ToS...

回答 1 投票 0

使用 sscanf 解析/标记 csv 文件?

我目前正在尝试使用 sscanf 解析 .csv 文件。我创建了一个函数来检测行开头的引号。 int checkString(const char *str) { if (str[0] == '"') { 重新...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.