自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。
我正在使用 spacy 创建句子的向量。如果句子是“我正在工作”,它会给出一个形状为 (3, 300) 的向量。有什么方法可以使用这些向量取回句子中的文本...
如何将 tfidfvectorizer 的功能从英语修改为西班牙语
我有一个 tfidfvectorizer,它适合英语文本数据来预测英语通话的情绪。任务是将其转换为西班牙语。我想使用这个 tfidfvecto 的权重...
我有一堆德语文本,但丢失了所有空格。现在我需要执行某种单词边界检测,以从“NamensänderungimNamenderIntegration”到[“Namensände...
我正在创建一个 ChatSummarizer 应用程序,其中输入是带有聊天记录的 Excel 文件。 Excel 工作表的每一行对应一个新的聊天。 Summarizer 应用程序总结了 adja 中的聊天...
我正在开发一个项目,需要删除包含 510,718 个帖子的数据集中的用户名。该数据集包括 19,346 个唯一用户名。我的目标是替换...中所有出现的用户名
我是这方面的新手,所以如果我在这里问显而易见的问题,我深表歉意。我运行了双项主题建模算法来对短文本数据进行建模并发现其中的主题。我正在使用 LDAvis 包
我正在开发一个项目,需要对包含 510,718 个帖子的数据集中的用户名进行匿名化。该数据集包括 19,346 个唯一用户名。我的目标是替换所有出现的用户名...
如何删除 Huggingface 的 Transformers GPT2 预训练模型中的图层?
我的代码: 从 Transformer 导入 GPT2Config、GPT2Model 从变压器导入 AutoTokenizer、AutoModelForMaskedLM、AutoModelForCausalLM 模型 = AutoModelForCausalLM.from_pretrained("openai-
我安装spacy 2.3.5版本时遇到的错误 我运行命令 pip install spacy==2.3.5 我收到多行错误,这是错误消息的结尾 Cython.编译器.错误。
Swift Natural Language和CoreML:如何改进NLTagger来读取Card Holder
我正在使用自然语言框架来查找信用卡上的个人姓名。 首先,我使用 Vision 框架读取信用卡文本。然后我将它连接起来。 所以我的文本包含格式 si...
我正在尝试预先计算句子嵌入,我想将其存储在 csv 文件中,以便以后可以重复使用。我创建了一个 Pandas 数据框,并将嵌入正确存储为 2d a...
我使用 Brown 语料库和 gensim 训练了一个 word2vec 模型,如下所示: 模型 = gensim.models.Word2Vec(brown.sents(),min_count = 5, 矢量大小 = 30,窗口 = 5,
从新闻网站提取的文本数据应该存储在哪种数据类型中以进行 NLP?
我使用 beautifulsoup 提取了以下文本数据 对于 soup2.find_all(class_="td-post-content") 中的数据: data.get_text() 我应该将上面提取的数据类型存储在哪种类型中
使用 SentenceTransformers 编码后嵌入校验和不同?
我正在使用 SentenceTransformers 库计算一些嵌入。然而,在对句子进行编码并在检查它们的值的总和时计算它们的嵌入时,我得到了不同的结果......
在此处输入图像描述我在变量“message”下存储了一个废弃的文本。 我已经删除了 StopWords 并将结果存储在变量“without_stop_words”中...
对于 HTML 内容的抽象摘要,非法学硕士模型与法学硕士相比如何?
我有兴趣利用 NLP 模型提供网页的简短(一个句子长度)抽象摘要,为模型提供一组来自每个网页的常见 HTML 内容...
NLP 新手,有一个关于词嵌入的问题。作为学习练习,我正在尝试训练自己的基于 word2vec 的一组词嵌入。我有一个英语句子语料库
我正在将 langchain 代理初始化为: agent_output_parser=AgentOutputParser() self.mrkl = 初始化_代理( 工具, 嗯, 输出解析器=
我正在从事非线性编程工作,并遇到了一些问题,这些问题解释了我在使用求解器 CP 时不能在 CPLEX 中使用浮点决策变量。帮助我,如果有某种方法或其他我......
我有一个简单的程序来处理带有spacy的英文文本并输出一些有关标记的信息。对于大文本,spacy 需要很长时间来处理它。有没有办法看到距离有多远