自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。
我是变压器解码器的新手,对注意力掩码感到困惑。它似乎掩盖了某个特定单词之前的所有单词。如果这就是它的作用,那么它是否会使网络位置变得糟糕......
使用语言模型进行后处理来提高提取的 PDF 文本质量的解决方案?
我创建了一个文本数据集,一种知识库,它是从大约 1000 个 PDF 中解析出来的,平均长度为 50 页。该数据集用于 RAG 实现。
我正在开发一个使用 GPT-2(特别是 GPT2Model 类)计算单词和句子嵌入的程序。对于词嵌入,我在转发后提取最后一个隐藏状态输出[0]...
在将数据写入数据帧时,我遇到了这个问题“ValueError:使用可迭代设置时必须具有相等的 len 键和值”。这个 csv 有 98 行,我试图将值分配给...
我在NLP中有一个任务要做一个句子切分,但我想知道,使用内置的NLP句子切分算法,例如Spacy,NLTK,BERT等,相对于Python'.'有什么优势?九月...
我正在尝试查找有关创建可以理解英语单词、语法和上下文的基本 AI 工具(希望有 C# 源代码)的信息。 这个想法是通过使用尽可能多的
如何将适配器变压器与 Huggingface Pipeline 一起使用
我尝试运行模型“AdapterHub/bert-base-uncased-pf-conll2003”(此处模型描述)进行 NLP 中的标记分类。 首先我尝试安装适配器变压器 点安装...
是否可以从向量中找到词汇,以便我可以进行更灵活的比较? 像这样的东西: Queen = nlp.vocab["king"].vector - nlp.vocab["man"].vector + nlp.
我正在使用 Google Colaboratory 来完成我的 NLP 项目。我安装了 trasformer 和其他库,但出现错误。 从 Transformers 导入 Trainer、TrainingArguments 批量大小 = 64 记录_...
我正在为我的 nlp 项目使用 google colab。我安装了 trasformer 和其他库,但出现错误。 从 Transformers 导入 Trainer、TrainingArguments 批量大小 = 64 记录步骤=...
我正在使用句子转换器模型在与语义文本相似性(STS)数据集相同的自定义数据集上对其进行微调(使用 PyTorch)。 我无法搭乘(或打印)火车...
我正在使用以下代码清理语料库:- token=['hi','hi','帐户','是','关注','关注','帐户','德里'] to_remove=set(stopwrold、城市、国家、名字、姓氏、其他词的单词并集...
在nlpManger中我们可以添加文档如下 manager.addDocument('en', '我看到 %hero% 吃 %food%', 'sawhero'); 我如何手动添加值,以便我可以更好地控制最终的
我使用 PyTorch 创建了一个聊天机器人,我想让它支持法语。请注意,我想训练聊天机器人,以便它可以回答技术问题。 其中一件事情发生了......
我正在尝试自学数据科学,我必须解决一个案例研究。有一个数据库,其中包含酒店的名称、评论、负面和正面评论、评级等。我必须创建...
我喜欢使用 BERT 模型来标记词性。为此,我使用了 Hugging 脸部库。 当我在 Hugging Face API 上运行模型时,我得到了输出 然而,当我在 Google 上运行代码时
我想用Python(或其他)开发一个脚本,允许您使用免费的AI(例如GPT-2)来回答任何问题。 最好我希望它是一个可以在
为什么二进制对编码(BPE)不适用于二进制数据而只能适用于自然语言?
我知道 BPE 用于可以生成某种标记化和配对的句子,并使用备用字节来创建此类映射。为什么它在 BPE 上不起作用? 什么是最好的
大家早上好 你们中有人知道有一个工具或 API 或其他东西可以将句子作为输入和输出,并给出该句子的主题或关键字吗? 我在唯一的地方尝试过 TextRazor...
有什么方法可以重新训练现有的 OpenNLP 模型吗?即从 OpenNLP 向现有模型添加新项目? 假设我想向现有的 en-ner-date.bin 添加一些新条目,因为有些...