提取出现在一个数据集中但未出现在另一个数据集中的常见关键词

问题描述 投票:0回答:1

我有两个数据集: Dataset#1:包含 2670 万条用现代标准阿拉伯语编写的评论的数据集。 数据集#2:包含 16K 条评论的数据集,用现代标准阿拉伯语和口语阿拉伯语编写。

我想提取出现在 Dataset#2 中但未出现在 Dataset#1 中的关键字,这意味着我想提取特定领域中阿拉伯语口语的关键字。

最快的方法是什么?

给我提供一些可能有帮助的例子。

nlp extract keyword arabic text-extraction
1个回答
0
投票

这是更正后的文字:

信息不够,但根据您分享的内容,我可以推荐以下内容:

  1. 从每个数据集中提取特定领域的关键字(关键字提取)。有时,即使是单词计数器也能完成这项工作。还有其他高级技术,例如

    TF-IDF
    RAKE
    TextRank
    ,甚至更高级的方法,例如
    NER

    • NER(命名实体识别)可能适合您。但是,如果您没有任何预训练模型,则可能需要相当长的时间。
  2. 从两个数据集提取的关键字创建两个集合。通过使用集合运算,您可以识别差异。

© www.soinside.com 2019 - 2024. All rights reserved.