如何根据内容对与圣经有关的文本进行分类

问题描述投票：0回答：1

我有一个来自社交网络（FB，Twitter）评论的文本数据库。我的目标是根据内容对与圣经有密切关系的文本进行分类（例如，如果使用了引用或“圣经”字眼）。这是一个二进制分类问题，我需要帮助来弄清楚如何处理它（也许以某种方式将圣经用作字典）。谢谢！

machine-learning

text

nlp

classification

text-classification

1个回答

0
投票

您可以训练监督的二进制分类器（例如，通过TF-IDF计数器进行逻辑回归，或快速文本分类器，或微调BertForSequenceClassification）。

然后将此分类器应用于您的评论数据库，并找到一个合理的概率阈值，以仅保留分类器足够自信的评论。

作为培训的肯定示例，您可以使用圣经本身的句子，与圣经相关的维基百科文章的句子等。作为否定示例，您可以使用从网络收集的任何句子的语料库-例如the Leipzig corpora之一。