比较两个产品大数据集

问题描述 投票:0回答:1

我有两个不同的产品数据,分别是540万和450万产品,这些数据是从竞争对手的网站上删除的。大多数产品都是非品牌产品,没有任何唯一的标准SKU。我想将300K产品数据与竞争对手出售的类似产品进行比较,并想找出价格差异。

我厌倦了使用两个具有相似词的不同狮身人面像来比较数据集,但是由于标题与具有标准品牌名称,标题或SKU的非品牌产品不相似,因此无法找到好的结果

有什么方法可以使用ML或某些大数据算法来获得结果?

python machine-learning sphinx
1个回答
0
投票

如果使用Sphinx / Manticore,则可以:

  • 从数据集1获取您的每个产品
  • 使用具有百分位数和您选择的排名公式的定额运算符将其转换为查询
  • 对数据集2运行查询
  • 查找结果
  • 取得前K个

还有一些其他技巧可以帮助您:

  • IDF提升
  • 跳过停用词
  • 基于atc的排名的使用

[在此交互式课程中描述了通常找到相似内容的技巧和概念-https://play.manticoresearch.com/mlt/

© www.soinside.com 2019 - 2024. All rights reserved.