,亚洲欧美日韩国产成人精品影院,亚洲国产欧美日韩精品一区二区三区,久久亚洲国产成人影院,久久国产成人亚洲精品影院老金,九九精品成人免费国产片,国产精品成人综合网,国产成人一区二区三区,国产成...

作者 |梁云1991

一、XGBoost和GBDT

xgboost是一種集成學(xué)習(xí)算法，屬于3類常用的集成方法(bagging,boosting,stacking)中的boosting算法類別。它是一個(gè)加法模型，基模型一般選擇樹模型，但也可以選擇其它類型的模型如邏輯回歸等。

xgboost屬于梯度提升樹(GBDT)模型這個(gè)范疇，GBDT的基本想法是讓新的基模型（GBDT以CART分類回歸樹為基模型）去擬合前面模型的偏差，從而不斷將加法模型的偏差降低。相比于經(jīng)典的GBDT，xgboost做了一些改進(jìn)，從而在效果和性能上有明顯的提升（劃重點(diǎn)面試常考）。第一，GBDT將目標(biāo)函數(shù)泰勒展開到一階，而xgboost將目標(biāo)函數(shù)泰勒展開到了二階。保留了更多有關(guān)目標(biāo)函數(shù)的信息，對提升效果有幫助。第二，GBDT是給新的基模型尋找新的擬合標(biāo)簽（前面加法模型的負(fù)梯度），而xgboost是給新的基模型尋找新的目標(biāo)函數(shù)（目標(biāo)函數(shù)關(guān)于新的基模型的二階泰勒展開）。第三，xgboost加入了和葉子權(quán)重的L2正則化項(xiàng)，因而有利于模型獲得更低的方差。第四，xgboost增加了自動(dòng)處理缺失值特征的策略。通過把帶缺失值樣本分別劃分到左子樹或者右子樹，比較兩種方案下目標(biāo)函數(shù)的優(yōu)劣，從而自動(dòng)對有缺失值的樣本進(jìn)行劃分，無需對缺失特征進(jìn)行填充預(yù)處理。

此外，xgboost還支持候選分位點(diǎn)切割，特征并行等，可以提升性能。

二、XGBoost原理概述

下面從假設(shè)空間，目標(biāo)函數(shù)，優(yōu)化算法3個(gè)角度對xgboost的原理進(jìn)行概括性的介紹。

1，假設(shè)空間

2，目標(biāo)函數(shù)

3，優(yōu)化算法

基本思想：貪心法，逐棵樹進(jìn)行學(xué)習(xí)，每棵樹擬合之前模型的偏差。

三、第t棵樹學(xué)什么？

要完成構(gòu)建xgboost模型，我們需要確定以下一些事情。

1，如何boost? 如果已經(jīng)得到了前面t-1棵樹構(gòu)成的加法模型，如何確定第t棵樹的學(xué)習(xí)目標(biāo)？

2，如何生成樹？已知第t棵樹的學(xué)習(xí)目標(biāo)的前提下，如何學(xué)習(xí)這棵樹？具體又包括是否進(jìn)行分裂？選擇哪個(gè)特征進(jìn)行分裂？選擇什么分裂點(diǎn)位？分裂的葉子節(jié)點(diǎn)如何取值？

我們首先考慮如何boost的問題，順便解決分裂的葉子節(jié)點(diǎn)如何取值的問題。

四、如何生成第t棵樹？

xgboost采用二叉樹，開始的時(shí)候，全部樣本都在一個(gè)葉子節(jié)點(diǎn)上。然后葉子節(jié)點(diǎn)不斷通過二分裂，逐漸生成一棵樹。

xgboost使用levelwise的生成策略，即每次對同一層級的全部葉子節(jié)點(diǎn)嘗試進(jìn)行分裂。對葉子節(jié)點(diǎn)分裂生成樹的過程有幾個(gè)基本的問題：是否要進(jìn)行分裂？選擇哪個(gè)特征進(jìn)行分裂？在特征的什么點(diǎn)位進(jìn)行分裂？以及分裂后新的葉子上取什么值？葉子節(jié)點(diǎn)的取值問題前面已經(jīng)解決了。我們重點(diǎn)討論幾個(gè)剩下的問題。

1，是否要進(jìn)行分裂？

根據(jù)樹的剪枝策略的不同，這個(gè)問題有兩種不同的處理。如果是預(yù)剪枝策略，那么只有當(dāng)存在某種分裂方式使得分裂后目標(biāo)函數(shù)發(fā)生下降，才會進(jìn)行分裂。但如果是后剪枝策略，則會無條件進(jìn)行分裂，等樹生成完成后，再從上而下檢查樹的各個(gè)分枝是否對目標(biāo)函數(shù)下降產(chǎn)生正向貢獻(xiàn)從而進(jìn)行剪枝。xgboost采用預(yù)剪枝策略，只有分裂后的增益大于0才會進(jìn)行分裂。

2，選擇什么特征進(jìn)行分裂？

xgboost采用特征并行的方法進(jìn)行計(jì)算選擇要分裂的特征，即用多個(gè)線程，嘗試把各個(gè)特征都作為分裂的特征，找到各個(gè)特征的最優(yōu)分割點(diǎn)，計(jì)算根據(jù)它們分裂后產(chǎn)生的增益，選擇增益最大的那個(gè)特征作為分裂的特征。

3，選擇什么分裂點(diǎn)位？

xgboost選擇某個(gè)特征的分裂點(diǎn)位的方法有兩種，一種是全局掃描法，另一種是候選分位點(diǎn)法。

全局掃描法將所有樣本該特征的取值按從小到大排列，將所有可能的分裂位置都試一遍，找到其中增益最大的那個(gè)分裂點(diǎn)，其計(jì)算復(fù)雜度和葉子節(jié)點(diǎn)上的樣本特征不同的取值個(gè)數(shù)成正比。

而候選分位點(diǎn)法是一種近似算法，僅選擇常數(shù)個(gè)（如256個(gè)）候選分裂位置，然后從候選分裂位置中找出最優(yōu)的那個(gè)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

GBDT

GBDT

+關(guān)注

關(guān)注
0

文章
13

瀏覽量
3874
XGBoost

XGBoost

+關(guān)注

關(guān)注
0

文章
9

瀏覽量
2197

原文標(biāo)題：30分鐘看懂XGBoost的基本原理

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

如何通過XGBoost解釋機(jī)器學(xué)習(xí)

本文為大家介紹用XGBoost解釋機(jī)器學(xué)習(xí)。這是一個(gè)故事，關(guān)于錯(cuò)誤地解釋機(jī)器學(xué)習(xí)模型的危險(xiǎn)以及正確解釋所帶來的價(jià)值。如果你發(fā)現(xiàn)梯度提升或隨機(jī)森林之類的集成樹模型具有很穩(wěn)定的準(zhǔn)確率，但還是需要對其

發(fā)表于 10-12 11:48 ?1736次閱讀

如何通過<b class='flag-5'>XGBoost</b>解釋機(jī)器學(xué)習(xí)

PyInstaller打包xgboost算法包等可能出現(xiàn)問題是什么

PyInstaller 打包 xgboost算法包等可能出現(xiàn)問題

發(fā)表于 07-16 14:35

基于xgboost的風(fēng)力發(fā)電機(jī)葉片結(jié)冰分類預(yù)測精選資料分享

xgboost中文叫做極致梯度提升模型，官方文檔鏈接：https://xgboost.readthedocs.io/en/latest/tutorials/model.html2018年9月6日筆記

發(fā)表于 07-12 06:58

基于xgboost的風(fēng)力發(fā)電機(jī)葉片結(jié)冰分類預(yù)測精選資料下載

xgboost中文叫做極致梯度提升模型，官方文檔鏈接：https://xgboost.readthedocs.io/en/latest/tutorials/model.html2018年9月6日筆記

發(fā)表于 07-12 06:44

通過學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實(shí)戰(zhàn)地址來對xgboost原理和應(yīng)用分析

關(guān)于xgboost的原理網(wǎng)絡(luò)上的資源很少，大多數(shù)還停留在應(yīng)用層面，本文通過學(xué)習(xí)陳天奇博士的PPT和xgboost導(dǎo)讀和實(shí)戰(zhàn)地址，希望對xgboost原理進(jìn)行深入理解。

發(fā)表于 01-02 10:18 ?6437次閱讀

通過學(xué)習(xí)PPT地址和<b class='flag-5'>xgboost</b>導(dǎo)讀和實(shí)戰(zhàn)地址來對<b class='flag-5'>xgboost</b>原理和應(yīng)用分析

面試中出現(xiàn)有關(guān)Xgboost總結(jié)

介紹 Xgboost是GB算法的高效實(shí)現(xiàn)，xgboost中的基學(xué)習(xí)器除了可以是CART（gbtree）也可以是線性分類器（gblinear）

發(fā)表于 03-20 16:48 ?4425次閱讀

基于遺傳算法和隨機(jī)森林的XGBoost改進(jìn)方法

回歸預(yù)測是機(jī)器學(xué)習(xí)中重要的研究方向之一，有著廣闊的應(yīng)用領(lǐng)域。為了進(jìn)一步提升回歸預(yù)測的精度，提出了基于遺傳算法與隨機(jī)森林的 Gboost改進(jìn)方法（ GA Xgboost_RF）。首先利用遺傳算法

發(fā)表于 04-26 15:44 ?6次下載

基于遺傳算法和隨機(jī)森林的<b class='flag-5'>XGBoost</b>改進(jìn)方法

基于XGBoost的樹突狀細(xì)胞算法綜述

樹突狀細(xì)胞算法（DCA）要求輸入3類信號，需要通過人工選取或統(tǒng)計(jì)學(xué)等方式提前進(jìn)行特征提取。為準(zhǔn)確、高效地提取特征，提岀一種基于 Xgboost的DCA。通過使用ⅹ Gboost算法迭代生成決策樹

發(fā)表于 06-09 14:48 ?3次下載

基于Xgboost算法的高錳鋼表面粗糙度預(yù)測

基于Xgboost算法的高錳鋼表面粗糙度預(yù)測

發(fā)表于 06-19 15:09 ?14次下載

在幾個(gè)AWS實(shí)例上運(yùn)行的XGBoost和LightGBM的性能比較

XGBoost（eXtreme Gradient Boosting）是一個(gè)在Gradient Boosting Decision Tree（GBDT）框架下的開源機(jī)器學(xué)習(xí)庫（https://github.com/dmlc/xgboost

發(fā)表于 10-24 10:24 ?1258次閱讀

XGBoost超參數(shù)調(diào)優(yōu)指南

對于XGBoost來說，默認(rèn)的超參數(shù)是可以正常運(yùn)行的，但是如果你想獲得最佳的效果，那么就需要自行調(diào)整一些超參數(shù)來匹配你的數(shù)據(jù)，以下參數(shù)對于XGBoost非常重要

發(fā)表于 06-15 18:15 ?742次閱讀

詳細(xì)解釋XGBoost中十個(gè)最常用超參數(shù)

對于XGBoost來說，默認(rèn)的超參數(shù)是可以正常運(yùn)行的，但是如果你想獲得最佳的效果，那么就需要自行調(diào)整一些超參數(shù)來匹配你的數(shù)據(jù)

發(fā)表于 06-19 17:31 ?1317次閱讀

XGBoost中無需手動(dòng)編碼的分類特征

XGBoost 中無需手動(dòng)編碼的分類特征

發(fā)表于 07-05 16:30 ?522次閱讀

XGBoost 2.0介紹

XGBoost是處理不同類型表格數(shù)據(jù)的最著名的算法，LightGBM 和Catboost也是為了修改他的缺陷而發(fā)布的。近日XGBoost發(fā)布了新的2.0版，本文除了介紹讓XGBoost的完整歷史以外

發(fā)表于 11-03 10:12 ?379次閱讀

詳解XGBoost 2.0重大更新！

另外還有一點(diǎn)是基于樹的模型可以輕松地可視化和解釋，這進(jìn)一步增加了吸引力，特別是在理解表格數(shù)據(jù)結(jié)構(gòu)時(shí)。通過利用這些固有的優(yōu)勢，基于樹的方法——尤其是像XGBoost這樣的高級方法——非常適合處理數(shù)據(jù)科學(xué)中的各種挑戰(zhàn)，特別是在處理表格數(shù)據(jù)時(shí)。

發(fā)表于 11-14 16:22 ?603次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

XGBoost原理概述 XGBoost和GBDT的區(qū)別

評論

如何通過XGBoost解釋機(jī)器學(xué)習(xí)

PyInstaller打包xgboost算法包等可能出現(xiàn)問題是什么

基于xgboost的風(fēng)力發(fā)電機(jī)葉片結(jié)冰分類預(yù)測精選資料分享

基于xgboost的風(fēng)力發(fā)電機(jī)葉片結(jié)冰分類預(yù)測精選資料下載

通過學(xué)習(xí)PPT地址和xgboost導(dǎo)讀和實(shí)戰(zhàn)地址來對xgboost原理和應(yīng)用分析

面試中出現(xiàn)有關(guān)Xgboost總結(jié)

基于遺傳算法和隨機(jī)森林的XGBoost改進(jìn)方法

基于XGBoost的樹突狀細(xì)胞算法綜述

基于Xgboost算法的高錳鋼表面粗糙度預(yù)測

在幾個(gè)AWS實(shí)例上運(yùn)行的XGBoost和LightGBM的性能比較

XGBoost超參數(shù)調(diào)優(yōu)指南

詳細(xì)解釋XGBoost中十個(gè)最常用超參數(shù)

XGBoost中無需手動(dòng)編碼的分類特征

XGBoost 2.0介紹

詳解XGBoost 2.0重大更新！