本文所指的回归模型为一般性的回归模型,不包含时间序列回归。时间序列回归模型一般要考虑稳定性(如Jenkins-box方法)和样本采样限制。
回归评价设定
设定n个样本,每个样本为
MAE
平均绝对误差(Mean Absolute Error),是对绝对误差损失的预期值。
MAPE
平均绝对百分比误差(Mean Absolute Error),是对相对误差损失的预期值,就是绝对误差和真值的百分比。
MSE
均方误差(Mean Squared Error),对应于平方误差的期望。
RMSE
均方根误差(Root Mean Squared Error),对应于平方误差的开根。
MSLE
均方误差对数(Mean Squared Log Error),对应于平方对数(二次)差的预期。
MedAE
中位绝对误差(Median Absolute Error),通过取目标和预测之间的所有绝对差值的中值来计算损失。
R Squared(r2 score)
决定系数(coefficient of determination),也叫拟合优度,反映的是自变量x对因变量y的变动的解释的程度。越接近于1,说明模型拟合得越好。
RSS 表示的是模型和真实值的残差。TSS表示的是模型对y的变动程度。
评价指标使用情景
① 如果看重真实值和预测值的绝对误差,则选用MAE或MedAE,其中MAE对极端值比较敏感。
② 如果看重真实值和预测值的差的平方,则选用MSE或RMSE。
③ 如果存在不同样本的真实值有量级差,或者更加关注预测和真实值的百分比差异,则选用MAPE。
④ 如果y具有随着x进行指数变动的趋势时,适合用MSLE。
⑤ 如果模型希望的是找到能够解释目标y变动的因变量,则选用R Squared 更加合适。
评价指标组合使用
① MAE和RMSE一起使用时,可以看出样本误差的离散程度。如RMSE远大于MAE,可以得知不同样例的误差差别很大。
② MAE和MAPE、再结合
交叉验证中的评价指标使用
机器学习模型的目标是达到好的泛化能力,泛化能力是由测试误差估计的泛化误差来评判的。其中测试误差就是模型在测试集的预测值和真实值的统计量。
假设
所以我们不仅要关注各个指标的均值,也要关注方差,因为方差反映了模型泛化能力随着训练集改变的程度。