text-classification 相关问题

简单地说,文本分类就是将一段文本放入一组(主要是预定义的)类别中。这是许多现实世界应用中出现的最重要问题之一。例如,文本分类的一个示例是自动呼叫中心,其希望将投诉自动分类到最合适的问题桶中。

Snorkel:训练分类器或只是生成的标签时,标签功能是否用作功能?

[我具有一组功能来构建标签功能(A组),另一组功能来训练sklearn分类器(B组)。生成模型将输出一组概率标签,这些i ...

回答 1 投票 0

如何分类看不见的文本数据?

我正在为地址分类训练文本分类器,以便给定的句子是否为地址。句子示例:-(1)阿拉伯联合酋长国迪拜的米尔迪夫市中心(2)Ultron Inc. ...] 如前所述,验证地址是否有效-最好形式化为信息检索问题,而不是机器学习问题。 (例如,使用服务)。 但是,从您提供的示例中,似乎您会再次遇到几种实体类型,例如组织和位置。 我建议使用NER(例如spacy)来充实数据,并将实体类型用于功能或规则。 请注意,命名实体识别器比典型的词袋分类器更依赖于上下文,并且通常对看不见的数据更健壮。 当我上次这样做时,问题非常棘手,尤其是因为我有国际化的地址,而且各国之间的差异很大。再加上人们增加的变化,即使对于人类,问题也变得相当棘手。 我终于建立了一个启发式方法(包含一些类似PO BOX的名称,可能是国家名称(grep Wikipedia),也许是城市名称),然后将剩下的所有地址都放入Google Maps API中。 GM非常适合识别地址,但即使这样也会产生误报,因此很可能需要手动检查。 我没有使用ML,因为我的地址数据库“很大”,但不足以进行训练,特别是。我们缺少标记的训练数据。 [当您要求推荐文学作品时(这个问题可能在这个地方太宽泛了),我可以为您推荐两个链接:https://www.reddit.com/r/datasets/comments/4jz7og/how_to_get_a_large_at_least_100k_postal_address/ https://www.red-gate.com/products/sql-development/sql-data-generator/ https://openaddresses.io/ 您需要构建@Christian Sauer已经提到的带有标签的数据,其中包含带有地址的示例。可能还需要使用错误的地址来制作虚假数据!因此,例如,您必须只用电话号码或其他任何东西来造句。但是无论如何,这将是一个相当不平衡的数据集,因为您将拥有很多正确的地址,而只有少数不是地址的地址。总共需要大约1000个示例来作为起点。 其他选择是手动识别基本地址,并进行相似性分析以识别最短的句子。 正如Uri Goren提到的那样,问题在于命名实体的识别,而市场上有很多训练有素的模型。尽管如此,最好的人选还是斯坦福大学的NER。 https://nlp.stanford.edu/software/CRF-NER.shtml它是一个条件随机字段NER。它在Java中可用。 如果您正在寻找相同的python实现。看一下:How to install and invoke Stanford NERTagger? 这里您可以从多个标签序列中收集信息,例如,或类似的其他顺序。如果没有为您提供正确的信息,它仍然会以某种方式使您更接近整个文档中的任何地址。这是一个开端。 谢谢。

回答 4 投票 1

如何为多类文本数据集(fastai)定义对数计数比?

[我正在尝试与朴素贝叶斯(Naive Bayes)一起按照瑞秋·托马斯(Rachel Thomas)进行情感分类。在视频中,她使用了二进制数据集(正片和负片评论)。当要应用朴素贝叶斯时,这是...

回答 1 投票 0

可以使用回归来解决情感分类问题吗?

我有一条推文数据集,其中每条推文都有一个平均置信度得分。例如,推特平均置信度标准偏差在他的头顶内有太多想法,我们...

回答 1 投票 0

是否有最适合这种基于NLP的项目的模型/分类器?

我编写了一个程序,用于分析网站上给定的一段文本并对其有效性进行概念分类。该代码基本上将描述矢量化(取自...的HTML)]]

回答 1 投票 0

错误分类为不同类别的多个类别

我为下一个问题感到鼓舞:我正在尝试对很多文本文档进行分类。有20个类别:1个正常,19个-异常。当我使用朴素贝叶斯分类时,我得到以下结果:...

回答 3 投票 0

是否有一般适合NLP项目的ML分类器?

我编写了一个程序,该程序从特定网站读取单词向量,并进行简要分类。我为RandomForestClassifier获得了最高的准确性和F得分。我不确定...

回答 1 投票 0


如何从稀疏矩阵中获得词汇序列

我有一个词汇表['人类','界面','机器','二进制','未成年人','ESP','系统','图']和句子列表[[人类机器实验室abc计算机应用程序的界面”,“ A ...

回答 1 投票 0

将文本分成两个语言组[关闭]

我有一本吉尔吉斯语-俄语词典,条目如下,Азирейил=ар。 рел。 Азраил,ангелсмерти; Азирейилжаналгычфольк。 берущийдушуАзраил; азирейилиндейкөрөтон...

回答 1 投票 -1

每个火车数据的类标签分布不均匀的多标签文本分类

我有一个多标签分类问题,我想用六个标签对文本进行分类,每个文本可以具有一到六个标签,但是此标签分布不相等。例如,有10个人注释了...

回答 1 投票 1

如何在Python中用k倍分层来创建实际的数据帧

从我从sklearn Stratifiednfold返回的索引中,如何从每个折叠中创建对应的数据框? skf = StratifiedKFold(n_splits = 10)skf.get_n_splits(X,y)for train_index,...

回答 1 投票 1

从邮件中获取关键字

我的目标是文本摘要,不确定我是否做得正确,但这是计划。我有一个名为train_data的数据框。每行中的每个单元格都包含消息。现在,我正在寻找...

回答 1 投票 0

我如何从整数中获取数据。我的model.predict()无法正常工作

我有一个csv。包含“性别”,“诊断”,“测试”,“体检”,“医学”这些列。我想基于这些的“性别”,“诊断”,“测试”,“体检”来预测“医学”栏...

回答 1 投票 1

查找文本的相似程度-一类分类器(NLP)

我有一个大型数据集,其中包含近5亿条推文。我正在做一些有关公司如何参与激进主义的研究,到目前为止,我已经标记了可以聚集在激进主义中的推文...

回答 1 投票 0

识别语法正确的无意义句子

我有两个文件file1.csv和file2.csv。 file1.csv每行包含一个愚蠢的句子。 file2.csv标识它是哪一列(type0对应于0,type1对应于1)。我想做一个...

回答 4 投票 1

文本分类问题:这种分类的名称和方法

我有一个包含文本段和相应标签的标记数据集。每个标签由三部分组成,并且可以将多个或零个标签分配给给定的文本段。示例...

回答 1 投票 0

带有torchnlp的文本分类

我正在尝试使用pytorch-nlp(https://pytorchnlp.readthedocs.io/en/latest/)构建神经网络。我的意图是建立像这样的网络:嵌入层(使用pytorch标准层和...

回答 1 投票 1

对工作描述句子进行分类的方法

我需要对n = 630个职位描述的job_experience部分中的各个句子进行分类/分类。我对提取工作经验和与能力相关的句子特别感兴趣,...

回答 1 投票 0

我怎么知道LibShortText预测输出文件中每个分数对应于哪个类?

我使用LibShortText进行短文本分类。我训练了一个模型,并通过运行以下模型来对测试集进行类预测:python text-train.py -L 0 -f ./demo/train_file python text-predict ....

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.