我希望你一切都好。
我当前使用的数据集包含 3 个类,每个类的分布分别为 15%、31% 和 52%。
我想问一下情感分析项目是否需要平衡每个类别的样本数量。
我想到的一个考虑因素是,对正面句子进行分类可能更容易,因此数据集中正面类别标签的分布很低。或者,由于很难识别中立评论,数据集中应该有更多样本。
因此,我很困惑是否应该均衡每个类别的样本数量或使用相同的分布。
我的数据集可通过以下链接获取:https://huggingface.co/datasets/Khedesh/MirasOpinion
请帮助我使用具有适当类别频率百分比的数据集。