GBDT:梯度提升决策树

GBDT:梯度提升决策树

ID:45755868

大小:76.95 KB

页数:7页

时间:2019-11-17

GBDT:梯度提升决策树_第1页
GBDT:梯度提升决策树_第2页
GBDT:梯度提升决策树_第3页
GBDT:梯度提升决策树_第4页
GBDT:梯度提升决策树_第5页
资源描述:

《GBDT:梯度提升决策树》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、综述GBDT(GradientBoostingDecisionTree)乂叫MART(MultipleAdditiveRegressionTree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起來做最终答案。它在被提出Z初就和SVM一起被认为是泛化能力较强的算法。GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。业界屮,Facebook使用其來自动发现有效的特征、特征组合,来作为LR模型屮的特

2、征,以提高CTR预估(Click-ThroughRatePrediction)的准确性(详见参考文献5、6);GBDT在淘宝的搜索及预测业务上也发挥了重要作用(详见参考文献7)o、RegressionDecisionTree:回归树回归树总体流程类似于分类树,区别在于,回归树的每一个节点都会得一个预测值,以年龄为例,该预测值等于属于这个节点的所有人年龄的平均值。分枝时穷举每一个feature的每个阈值找最好的分割点,但衡量最好的标准不再是最大爛,而是最小化平方误差。也就是被预测出错的人数越多,错的越离谱,平方误差就越

3、大,通过最小化平方误差能够找到最可靠的分枝依据。分枝直到每个叶子节点上人的年龄都唯一或者达到预设的终止条件(如叶子个数上限),若最终叶子节点上人的年龄不唯一,则以该节点上所有人的平均年龄做为该叶子节点的预测年龄。(引用自一篇博客,详见参考文献3)回归树算法如下图(截图来自《统计学习方法》5.5.1CART牛成):算法5・5(最小二乘回归树生成算法)输入:训练数据集输出:回归树/(x)・在训练数据集所在的输入空间中,递归地将每个区域划分为两个子区域并决定每个子区域上的输出值,构建二叉决策树:(1)选择最优切分变最:/与

4、切分点求解minmin£(jf-q)2+min力心-叨?(5.21)遍历变量J,对固定的切分变晟丿•扫描切分点s,选择使式(5.21)达到最小值的对(川)・(2)用选定的对(人s)划分区域并决定相应的输岀值:ACM)={x

5、XuyWs),R^j’s)={xIxu)>s}a1丁加=1,2N駅"心CM)(3)继续对两个子区域调用步骤(1),(2),直至满足停止条件.将输入空间划分为M个区域尽,心,…,心生成决策树:M/(x)=XcmZ(xe/^)m«1回归树生成算法二、BoostingDecisionTree:提升树算法

6、提升树是迭代多棵回归树来共同决策。当采用平方谋差损失函数时,每一棵回归树学习的是之前所有树的结论和残差,拟合得到一个当前的残差回归树,残差的意义如公式:残差二真实值-预测值。提升树即是整个迭代过程生成的回归树的累加。举个例子,参考白一篇博客(参考文献4),该博客举出的例子较直观地展现出多棵决策树线性求和过程以及残差的意义。训练一个提升树模型来预测年龄:训练集是4个人,A,B,C,D年龄分别是14,16,24,26。样本中有购物金额、上网吋长、经常到百度知道提问等特征。提升树的过程如下:20(14、16v24、26)购

7、物金额<=1K/B=16-15=1购物金额>1KC=24-25=-1D=26-25=1A=・1--1=0B=1-1=0C=・1--1=0D=1-1=0以残差(・im)为样本拟合一棵回归树A的预测值=树1左节点值15+树2左节点-1=14B的预测值二树1左节点值15+树2右节点1=16依次可得C和D预测值提升树示例该例子很直观的能看到,预测值等于所有树值得累加,如A的预测值二树1左节点值15+树2左节点-1二14。因此,给定当前模型fm-1(x),只需要简单的拟合当前模型的残差。现将冋归问题的提升树算法叙述如下:(D初

8、始化儿")=()(2)对川1・2••…M(a)计算残差(b)拟合残差厂沖学习一个回归树,得到丁(丁:0川)(c)更新仏(』)fm-l(•「)+T(.r:0ni)MfM(.r)工r(.r;0m)(3)得到回归问题提升树—1提升树算法三、GradientBoostingDecisionTree:梯度提升决策树提升树利用加法模型和前向分步算法实现学习的优化过程。当损失函数时平方损失和指数损失函数时,每一步的优化很简单,如平方损失函数学习残差回归树。TABLE10.2.Gradientsforcommonlyusedloss

9、functions.SettingLossFunction-兀(sj(毗))/盯(勺)RegressionMl/i"Ui一Regressionyi-sign/一RegressionHuberyi一foryi一f(xi)<6m6msign[yi一f(xi)]fory{一/(^)

10、>6mwhere6rn=ath-quantile{

11、j/i—

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。