文本到标签相似度word2vec

Question

我们的用户将对其职业进行 2 至 3 句话的描述。示例用户 A（个人资料描述）：

I am a data scientist living in Berlin, I like Japanese food and I am also interested in arts.

然后他们还会描述他们正在寻找什么样的人。示例用户 B（寻找描述）：

I am looking for a data scientist, sales guy and an architect for my new home

。

我们希望根据用户 A 是数据科学家而用户 B 正在寻找数据科学家来匹配这些。

首先我们要求用户手动选择他们想要匹配的标签。我们提供的标签类型示例：

Environmental Services
Events Services
Executive Office
Facilities Services
Human Resources
Information Services
Management Consulting
Outsourcing/Offshoring
Professional Training & Coaching
Security & Investigations
Staffing & Recruiting
Supermarkets
Wholesale
Energy & Mining
Mining & Metals
Oil & Energy
Utilities
Manufacturing
Automotive
Aviation & Aerospace
Chemicals
Defense & Space
Electrical & Electronic Manufacturing
Food Production
Industrial Automation
Machinery
Japanese Food
...

这个系统有点用，但我们有很多标签，想要创建更多“远距离”关系。

所以我们需要：

要知道哪些部分重要，我们可以使用词性标记来提取“数据科学”、“日本食品”等？
然后比较各部分的向量；例如“数据科学”与“统计学”是一个很好的匹配，“日本食品”和“亚洲食品”是一个很好的匹配。
并设置阈值。
这应该会带来更方便的匹配方式，对吗？

提前致谢。

Answer 1

首先必须澄清“重要性”在这种情况下的含义。从给定的示例来看，目标似乎是基于职位的匹配，但可能还有其他标准，例如位置、兴趣等。要从文本中提取相关短语或实体，您可以使用 POS（词性））标记或命名实体识别 (NER) 标记甚至关系提取（如 OpenIE 包所做的）技术。

后续步骤涉及根据提取的重要短语或实体来匹配实例。为此，可以使用余弦相似度等语义匹配方法。但是，在应用余弦相似度之前，您需要将这些短语转换为向量表示。从 Word2Vec (W2V) 或 GloVe 嵌入开始是一个好主意，您还可以探索现代情境化模型，如 BERT 或 RoBERTa，它们目前代表了表示学习的最先进技术。

对于阈值等方面，试错法可能是有益的。从预定义的相似性阈值开始，然后根据测试结果和观察到的匹配质量调整该值。这种迭代调整可以帮助微调匹配过程以获得更好的结果。

希望这有帮助！

文本到标签相似度word2vec

问题描述投票：0回答：1

1个回答

最新问题

文本到标签相似度word2vec

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1