Class imbalance(类别不平衡/类不平衡)指在分类任务的数据集中,不同类别的样本数量差异很大(常见为“多数类”远多于“少数类”)。这会让模型更偏向预测多数类,导致对少数类(往往更关键,如欺诈、疾病)的识别效果变差。该术语也常见于机器学习与数据挖掘语境。
/klæs ɪmˈbæl.əns/
The dataset suffers from class imbalance, so accuracy is misleading.
这个数据集存在类别不平衡,因此仅看准确率会产生误导。
To address class imbalance, we used stratified sampling and adjusted the decision threshold to improve recall on the minority class.
为了解决类别不平衡,我们采用了分层抽样并调整决策阈值,以提升少数类的召回率。
class(类别)来自拉丁语 classis,原指“等级/群体”;imbalance由前缀 *im-*(不、非)+ balance(平衡)构成,整体字面义为“(类别上的)不平衡”。在统计学习与机器学习发展中,该组合逐渐固化为描述“分类样本分布不均”的常用术语。