我们的用户将对其职业进行 2 至 3 句话的描述。 示例用户 A(个人资料描述):
I am a data scientist living in Berlin, I like Japanese food and I am also interested in arts.
然后他们还会描述他们正在寻找什么样的人。 示例用户 B(寻找描述):
I am looking for a data scientist, sales guy and an architect for my new home
。
我们希望根据用户 A 是数据科学家而用户 B 正在寻找数据科学家来匹配这些。
首先我们要求用户手动选择他们想要匹配的标签。 我们提供的标签类型示例:
Environmental Services
Events Services
Executive Office
Facilities Services
Human Resources
Information Services
Management Consulting
Outsourcing/Offshoring
Professional Training & Coaching
Security & Investigations
Staffing & Recruiting
Supermarkets
Wholesale
Energy & Mining
Mining & Metals
Oil & Energy
Utilities
Manufacturing
Automotive
Aviation & Aerospace
Chemicals
Defense & Space
Electrical & Electronic Manufacturing
Food Production
Industrial Automation
Machinery
Japanese Food
...
这个系统有点用,但我们有很多标签,想要创建更多“远距离”关系。
所以我们需要:
提前致谢。
首先必须澄清“重要性”在这种情况下的含义。从给定的示例来看,目标似乎是基于职位的匹配,但可能还有其他标准,例如位置、兴趣等。要从文本中提取相关短语或实体,您可以使用 POS(词性) )标记或命名实体识别 (NER) 标记甚至关系提取(如 OpenIE 包所做的)技术。
后续步骤涉及根据提取的重要短语或实体来匹配实例。为此,可以使用余弦相似度等语义匹配方法。但是,在应用余弦相似度之前,您需要将这些短语转换为向量表示。从 Word2Vec (W2V) 或 GloVe 嵌入开始是一个好主意,您还可以探索现代情境化模型,如 BERT 或 RoBERTa,它们目前代表了表示学习的最先进技术。
对于阈值等方面,试错法可能是有益的。从预定义的相似性阈值开始,然后根据测试结果和观察到的匹配质量调整该值。这种迭代调整可以帮助微调匹配过程以获得更好的结果。
希望这有帮助!