文本到标签相似度word2vec

问题描述 投票:0回答:1

我们的用户将对其职业进行 2 至 3 句话的描述。 示例用户 A(个人资料描述):

I am a data scientist living in Berlin, I like Japanese food and I am also interested in arts.

然后他们还会描述他们正在寻找什么样的人。 示例用户 B(寻找描述):

I am looking for a data scientist, sales guy and an architect for my new home

我们希望根据用户 A 是数据科学家而用户 B 正在寻找数据科学家来匹配这些。

首先我们要求用户手动选择他们想要匹配的标签。 我们提供的标签类型示例:

Environmental Services
Events Services
Executive Office
Facilities Services
Human Resources
Information Services
Management Consulting
Outsourcing/Offshoring
Professional Training & Coaching
Security & Investigations
Staffing & Recruiting
Supermarkets
Wholesale
Energy & Mining
Mining & Metals
Oil & Energy
Utilities
Manufacturing
Automotive
Aviation & Aerospace
Chemicals
Defense & Space
Electrical & Electronic Manufacturing
Food Production
Industrial Automation
Machinery
Japanese Food
...

这个系统有点用,但我们有很多标签,想要创建更多“远距离”关系。

所以我们需要:

  • 要知道哪些部分重要,我们可以使用词性标记来提取“数据科学”、“日本食品”等?
  • 然后比较各部分的向量;例如“数据科学”与“统计学”是一个很好的匹配,“日本食品”和“亚洲食品”是一个很好的匹配。
  • 并设置阈值。
  • 这应该会带来更方便的匹配方式,对吗?

提前致谢。

python machine-learning artificial-intelligence word2vec part-of-speech
1个回答
0
投票

首先必须澄清“重要性”在这种情况下的含义。从给定的示例来看,目标似乎是基于职位的匹配,但可能还有其他标准,例如位置、兴趣等。要从文本中提取相关短语或实体,您可以使用 POS(词性) )标记或命名实体识别 (NER) 标记甚至关系提取(如 OpenIE 包所做的)技术。

后续步骤涉及根据提取的重要短语或实体来匹配实例。为此,可以使用余弦相似度等语义匹配方法。但是,在应用余弦相似度之前,您需要将这些短语转换为向量表示。从 Word2Vec (W2V) 或 GloVe 嵌入开始是一个好主意,您还可以探索现代情境化模型,如 BERT 或 RoBERTa,它们目前代表了表示学习的最先进技术。

对于阈值等方面,试错法可能是有益的。从预定义的相似性阈值开始,然后根据测试结果和观察到的匹配质量调整该值。这种迭代调整可以帮助微调匹配过程以获得更好的结果。

希望这有帮助!

© www.soinside.com 2019 - 2024. All rights reserved.