text-classification 相关问题

简单地说,文本分类就是将一段文本放入一组(主要是预定义的)类别中。这是许多现实世界应用中出现的最重要问题之一。例如,文本分类的一个示例是自动呼叫中心,其希望将投诉自动分类到最合适的问题桶中。

Huggingface - 带有经过微调的预训练模型的管道

我有一个来自 facebook/bart-large-mnli 的预训练模型我使用了 Trainer 以便在我自己的数据集上训练它。 模型 = BartForSequenceClassification.from_pretrained("facebook/bart-large-m...

回答 0 投票 0

通过删除 TfIdfVectorizer 的 LM 模型向量中不存在的词来创建 Ngram

我想聚类 160 000 个文档或可变长度。 问题: Spacy LM 模型“en_core_web_lg”没有我文档中出现的所有单词。 创建 NGrams 还包括

回答 0 投票 0

如何检查输入的字符串是否包含街道地址?

我们想要识别文档中的地址字段。为了识别地址字段,我们使用 Tesseract 将文档转换为 OCR 文件。从 tesseract 输出我们想检查一个字符串

回答 6 投票 0

有没有办法用 Longformer 标记句子?

我已经分叉了 Multimodal Transformers 包并在此处创建了一个支持 Longformer 的新版本 --> https://github.com/jtfields/Multimodal-Toolkit-Longformer/tree/master。格鲁吉亚.io

回答 0 投票 0

如何在 tf.keras 输入层上使用函数

我正在构建一个文本分类器,如代码所示。问题是我需要将文本传递给它,我编写了一个函数来获取文本、保留 NE、用一些信息丰富它们,以及

回答 0 投票 0

拥抱面变形器CUDA错误:CUBLAS_STATUS_NOT_INITIALIZE

我正在尝试微调 Facebook BART 模型,我正在关注这篇文章,以便使用我自己的数据集对文本进行分类。 我正在使用 Trainer 对象来训练: 训练参数 =

回答 0 投票 0

从 .pickle 获取数据

我有一个多项式 NB() 模型: text_clf_NB = Pipeline([('vect', CountVectorizer()), ('tfidf', TfidfTransformer()), ('clf', MultinomialNB()), ...

回答 1 投票 0

正则表达式删除相关两次以上的字符模式

例如,我有一个具有重复字符模式的字符串: 'hhhhaaappy' 现在我想通过删除重复两次以上的字符来获得此输出: '快乐'

回答 1 投票 0

Huggingface 的零样本分类在生产/网络应用中如何工作,我需要先训练模型吗?

我已经使用了 huggingface 的零样本分类:我使用了此处报告的“facebook/bart-large-mnli”模型(https://huggingface.co/tasks/zero-shot-classification)。准确度...

回答 1 投票 0

将数据框中的文本与字典中的单词进行比较

我构建了输出的字典(MYdict): {'MATCH': ['演员', '上瘾', '上瘾', '受影响', 'alli', '天使', 'ani', '公寓', '占星术', '回避', '海滩', '存在','属于...

回答 2 投票 0

ValueError:模型没有从输入中返回损失,只有以下键:logits

我想制作一个隐喻检测器模型。 作为一个预训练模型,我使用了一个 DistilBert 模型,我之前用掩码对它进行了微调(这是我用来进行新隐喻检测的模型

回答 0 投票 0

Error: AttributeError: module 'torchtext.data' has no attribute 'Field'

实际上我在论坛上看到了几个相同的问题,但我仍然没有正确的解决方案。 这是我的代码块: 将 torchtext 作为数据导入 导入 torchtext.datasets 作为数据集 ... ... text_fi...

回答 0 投票 0

huggingface重新加载后如何使用fine-tuned模型进行实际预测?

我正在尝试重新加载我已经微调的 DistilBertForSequenceClassification 模型,并使用它来将一些句子预测到它们适当的标签中(文本分类)。 在谷歌 Colab 中,在

回答 1 投票 0

如何使用机器学习和 IndoBERT 对文本数据进行多类和多标签(不同数量的标签)分类?

我正在研究多类和多标签文本数据,每个类都有不同数量的标签(有 2 个类,二进制和多标签),但仍然不知道如何对其进行分类...

回答 0 投票 0

适合客观/主观分类的数据集?

我想用预训练的 BERT 模型进行客观性和主观性分类。 例如: 客观句:乔拜登是美国第46任总统。 主观句子...

回答 0 投票 0

使用 scikit-learn 对文本进行标记

我有以下代码从一组文件(文件夹名称是类别名称)中提取特征以进行文本分类。 导入 sklearn.datasets 从 sklearn.feature_extraction.text 导入

回答 2 投票 0

ParserError:错误标记数据。在 SMSA indoBert 教程中

我正在尝试使用 DocumentSentimentDataset 和 DocumentSentimentDataLoader 制作简单的训练、验证和测试数据,但出现此错误 /usr/local/lib/python3.8/dist-packages/pandas/_libs/

回答 0 投票 0

为什么 TextCNN 运行这么慢?

当我使用 TextCNN 进行文本分类时,我发现对于相同的输入,它比 LSTM 慢了将近 10 倍。这是正常的吗?设置 mini-batch 为 32,训练 CNN 100 需要一个多小时

回答 0 投票 0

文本分类——35+类;每个班级只有 ~100 个样本

我有一个有趣的问题,我一直在努力解决。 这个任务看起来很简单——给定一个类列表和一些属于类的样本/规则,分配所有相关...

回答 0 投票 0

ValueError: 类的数量必须大于1;得到1个类。

SVM = svm.SVC(C=1.0,kernel='线性',degree=3,gamma='auto') SVM.fit(Train_X_Tfidf,Train_Y) predictions_SVM = SVM.predict(Test_X_Tfidf) print("SVM Accuracy Score ->",accounteracy_score(...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.