北京医教科技有限公司
客服电话:18801099865
销售电话:18801099865
微信:18801099865
邮箱:18801099865@163.com
公司地址:北京市丰台区南四环西路186号工业园区
医学模型生产厂家就现实情况而言,健康的人远比生病的人多,这也反映在医疗数据中,健康和疾病分类的样本数量并不平均。你会发现,在医疗数据集和信用卡欺诈数据集中,正样本的数量是负样本的100倍。
所以,医学模型生产厂家训练的结果常常被误认为表现良好,但事实并非如此。这发生在使用accuracy_score精确度这样的简单度量时。由于标签存在严重的偏差,所有仅输出普通标签的神经网络,其精度可略超过90%,在此情况下,只输出普通标签的神经网络。
答:医学模型生产厂家可以定义更多有用的指标,比如F1的测量方法或者“精确/回收”。精确性被定义为"真实样本的数量/(真实样本数量+虚假样本数目)",这在大量假正例的情况下是一种良好的度量;另一方面,召回率被定义为"真实样本数量/(真实样本数量+虚假样本数目)数量",这是一个好的衡量。大部分的医学模型生产厂家都是如此,但是我们也经常需要考虑假正例数和假反例数,这就是F1度量的功能,它在精确度(Precision)和回收率(Recall)之间达到平衡,即公式2*(Precision*Recall)/(Precision+Recall)/(Precision+Recall)。
另一种处理类别失衡的常用方法是"重抽样",也就是,从大多数类别(样本太多的那一类)中删除样本(称为欠采样),或者在少数类别中增加样本(称为过度抽样),以达到两类的平衡。尽管复杂的重采样技术能够很好地解决这些问题,但也存在着信息丢失和过拟合等不足。