基于thetaipod的新的超参数选择方法
摘要
线性回归模型是应用广泛的一类模型估计回归系数的方法是最小二乘法,然而最小二乘法很容易受到异常
点的影响不稳健的。真实数据中都会存在异常点很难避免,这时候利用最小二乘法进行估计估计结果会比较不理想,
在一定程度上限制了线形模型在实际科研中的应用。面对有异常值的数据的处理方法,大部分的处理方法为利用
cook’sdistance找出异常值后,删除再进行回归,这种方法在一些情况下是不合理的,因为在实际科学领域中异常
值也是包含有一定的信息,不能完全删除,特别是在医学药学等领域。在此方法中我们可以利用不同的lossfunction,
来决定留下多少有关于异常值的信息,thetaipod(OutlierDetectionUsingNonconvexPenalizedRegression(YiyuanShe
&ArtB.Owen,2011)是一个基于最小二乘法下的一个探测异常值并且估计出具有鲁棒性的参数。他的基本思想是
在最小二乘法估计的基础上将一个新的转换参数,并且为这个转换因子添加一个L1惩罚项函数,当这个点的转换参
数变为0则认为这个点不是异常值。并且为惩罚项函数会依赖于一个超参数lambda,最后使用最小bic得分的lambda
来建造模型,但是在论文中出现的bic方法是非常不严谨的,因为bic在lambda端点值时会存在极端最小值。所以我
提出了一种新的利用bic来选择lambda的方法,我们考虑了方差对bic值的影响,先讲总体方差利用样本估计出来。
之后添加到新的模型里,可以得到更加准确的超参数,进而得到很准确的参数估计值并且准确判断出异常值和异常
值对模型影响的大小。在最后一节数据模拟章节给出了具体例子方便参考。
点的影响不稳健的。真实数据中都会存在异常点很难避免,这时候利用最小二乘法进行估计估计结果会比较不理想,
在一定程度上限制了线形模型在实际科研中的应用。面对有异常值的数据的处理方法,大部分的处理方法为利用
cook’sdistance找出异常值后,删除再进行回归,这种方法在一些情况下是不合理的,因为在实际科学领域中异常
值也是包含有一定的信息,不能完全删除,特别是在医学药学等领域。在此方法中我们可以利用不同的lossfunction,
来决定留下多少有关于异常值的信息,thetaipod(OutlierDetectionUsingNonconvexPenalizedRegression(YiyuanShe
&ArtB.Owen,2011)是一个基于最小二乘法下的一个探测异常值并且估计出具有鲁棒性的参数。他的基本思想是
在最小二乘法估计的基础上将一个新的转换参数,并且为这个转换因子添加一个L1惩罚项函数,当这个点的转换参
数变为0则认为这个点不是异常值。并且为惩罚项函数会依赖于一个超参数lambda,最后使用最小bic得分的lambda
来建造模型,但是在论文中出现的bic方法是非常不严谨的,因为bic在lambda端点值时会存在极端最小值。所以我
提出了一种新的利用bic来选择lambda的方法,我们考虑了方差对bic值的影响,先讲总体方差利用样本估计出来。
之后添加到新的模型里,可以得到更加准确的超参数,进而得到很准确的参数估计值并且准确判断出异常值和异常
值对模型影响的大小。在最后一节数据模拟章节给出了具体例子方便参考。
关键词
thetaipod;BIC;异常值
全文:
PDF参考
[1][SheandOwen,2011]She,Y.,Owen,A.B.(2011).
Outlierdetectionusingnonconvexpenalized
[2]regression.JournaloftheAmericanStatistical
Association,106,626-639.
DOI: http://dx.doi.org/10.12361/2661-376X-04-06-62
Refbacks
- 当前没有refback。