训练 NLP 模型以将用户描述转换为预定义的零件号

问题描述 投票:0回答:1

我目前正在从事一个项目,该项目涉及将用户输入描述映射到特定的零件编号类别。我有大量零件号及其相关描述的数据集。这是数据的示例:

"52119A": "COVER, FRONT BUMPER",
"81110": "HEADLAMP ASSY, RH",
"52134I": "REINFORCEMENT, FRONT BUMPER BAR, LH"
"53301F": "PANEL SUB-ASSY, FRONT",
"87050": "RADIATOR ASSY, AIR CONDITIONER"

挑战是开发一个系统,可以准确地将用户对零件的描述映射到适当的零件号。例如,如果用户输入“FRONT BUMPER COVER”,系统应该能够将其翻译为“52119A”:“COVER, FRONT BUMPER”。

我正在考虑使用自然语言处理 (NLP) 或某种人工智能来解决这个问题,但我不确定最佳方法。具体来说,我希望得到以下方面的指导:

  1. 什么类型的 NLP 或 AI 模型最适合这项任务?

  2. 我应该如何训练模型?我需要什么样的训练数据,需要多少?

  3. 哪些库或工具会有用?我对基于 Python 的库有一点熟悉(我使用过 NLTK 和 SpaCy - 如果它们更好,我愿意使用其他库)。

  4. 是否有任何类似的项目或资源可供我参考,以更好地理解如何解决这个问题?

提前致谢,

弥敦道

python nlp artificial-intelligence nltk named-entity-recognition
1个回答
0
投票

从简单的

TF-IDF
(或
count vectorizer
/ BOW)开始。
根据您的示例,它应该会给您带来不错的结果。 这将是你的基线。

如果你的用户查询看起来更像自然文本,你可以考虑使用更复杂的方法;并使用类似

BERT
的模型,用于多类分类任务。

要回答您的问题,这些模型需要数千个数据样本。 您应该从您为其构建的系统/应用程序/平台获得这些数据。如果您没有任何数据,您可以创建一个合成数据集,或者在 Few-shot 概念下工作。

基于 Python 的库:

NLTK
,
Spacy
,
Transformers
(HuggingFace),
SK-learn
, 等等 - 都很棒。

类似项目:

使用 bert 进行多类文本分类
使用 BERT、RoBERTa、XLNet、XLM 和 DistilBERT 进行多类文本分类

此外,您可以使用 StarCode 获得有关所有这些代码的帮助。

© www.soinside.com 2019 - 2024. All rights reserved.