引导聚合

维基百科,自由的百科全书
跳转到导航 跳转到搜索

自举聚集,也称为装袋(从b ootstrap AGG regat 荷兰国际集团),是一种机器学习合奏 元算法旨在改善的稳定性和精度机器学习中使用的算法统计分类回归它还可以减少差异并有助于避免过度拟合尽管它通常应用于决策树方法,但可以与任何类型的方法一起使用。套袋是模型平均方法的特例

技术说明

给定标准训练集 大小为n,套袋产生m个新的训练集,大小为n',通过D 均匀采样替换来获得通过替换抽样,可以在每个样本中重复一些观察。 如果ñ ' = ñ,那么大ñ集合预期具有D的唯一示例的分数(1-1 / e)(≈63.2%),其余为重复项。[1]这种样本称为自举样本。然后,使用上述m个引导程序样本拟合m个模型,并通过对输出(用于回归)或表决(用于分类)取平均值进行组合。

引导聚合概念的说明

套袋导致“程序不稳定的改进”(Breiman,1996),其中包括人工神经网络分类和回归树以及线性回归中的子集选择(Breiman,1994)。此处提供了一个有趣的套袋应用程序,可显示原像学习的改进。[2] [3]另一方面,它会稍微降低稳定方法(如K近邻)的性能(Breiman,1996)。

示例:臭氧数据

为了说明装袋的基本原理,以下是对臭氧与温度之间关系的分析(来自Rousseeuw和Leroy(1986)的数据,在R中进行了分析)。

根据散点图,此数据集中温度与臭氧之间的关系显然是非线性的。为了用数学方法描述这种关系,使用了LOESS平滑器(带宽为0.5)。不是从完整的数据集中构建一个平滑器,而是绘制了100个数据的自举样本。每个样本都不同于原始数据集,但是在分布和可变性上却与之相似。对于每个引导程序样本,都适合使用LOESS平滑器。然后在数据范围内对这100个平滑器进行了预测。下10个预测的平滑拟合显示为灰色线。显然,这些线是非常摆动的,并且它们过拟合数据-由于带宽太小。

Ozone.png

通过取平均100个平滑器(每个平滑器都适合原始数据集的一个子集),我们得出一个袋装的预测变量(红线)。显然,均值更稳定,过拟合更少

历史

装袋( ootstrap AGG regat ING)提出通过莱奥·布雷曼在1994 [4]通过组合的随机生成的训练集分类,以改善分类。

也可以看看

参考文献

  1. 阿斯拉姆(Javed A.)Popa,Raluca A .;和Rivest,Ronald L.(2007);在估算的大小和统计审计的信心,电子投票技术研讨会(EVT '07),马萨诸塞州波士顿,论文集8月6日,2007年更一般地,与更换绘图时的N'值出一套的ñ(不同且可能性均等),则预期的唯一性抽奖次数为
  2. Sahu,A.,Runger,G.,Apley,D.,使用多阶段内核主成分方法和整体版本的图像去噪,IEEE Applied Imagery Pattern Recognition Workshop,第1-7页,2011年。
  3. Shinde,Amit,Anshuman Sahu,Daniel Apley和George Runger。用于内核PCA和装袋的变化模式的原像。” IIE Transactions,Vol.46,Iss.5,2014
  4. 里奥·布里曼(1994年9月)。“装袋预测器” (PDF)加州大学伯克利分校统计系技术报告第421号检索2019-07-28

进一步阅读