我的数据集中每个类的样本数量不相等

问题描述 投票:0回答:1

我希望你一切都好。

我当前使用的数据集包含 3 个类,每个类的分布分别为 15%、31% 和 52%。

我想问一下情感分析项目是否需要平衡每个类别的样本数量。

我想到的一个考虑因素是,对正面句子进行分类可能更容易,因此数据集中正面类别标签的分布很低。或者,由于很难识别中立评论,数据集中应该有更多样本。

因此,我很困惑是否应该均衡每个类别的样本数量或使用相同的分布。

我的数据集可通过以下链接获取:https://huggingface.co/datasets/Khedesh/MirasOpinion

请帮助我使用具有适当类别频率百分比的数据集。

python pandas dataframe numpy pytorch
1个回答
0
投票

处理情感分析数据不平衡问题并避免未来模型有偏差的一种潜在方法是尝试像GPTBERT这样的LLM为欠采样类生成随机文本。

© www.soinside.com 2019 - 2024. All rights reserved.