我有一个来自社交网络(FB,Twitter)评论的文本数据库。我的目标是根据内容对与圣经有密切关系的文本进行分类(例如,如果使用了引用或“圣经”字眼)。这是一个二进制分类问题,我需要帮助来弄清楚如何处理它(也许以某种方式将圣经用作字典)。谢谢!
您可以训练监督的二进制分类器(例如,通过TF-IDF计数器进行逻辑回归,或快速文本分类器,或微调BertForSequenceClassification)。
然后将此分类器应用于您的评论数据库,并找到一个合理的概率阈值,以仅保留分类器足够自信的评论。
作为培训的肯定示例,您可以使用圣经本身的句子,与圣经相关的维基百科文章的句子等。作为否定示例,您可以使用从网络收集的任何句子的语料库-例如the Leipzig corpora之一。