網(wǎng)上有很多關(guān)于pos機(jī)檢查參數(shù),XGBoost 重要關(guān)鍵參數(shù)及調(diào)優(yōu)步驟的知識(shí),也有很多人為大家解答關(guān)于pos機(jī)檢查參數(shù)的問題,今天pos機(jī)之家(m.nxzs9ef.cn)為大家整理了關(guān)于這方面的知識(shí),讓我們一起來看下吧!
本文目錄一覽:
pos機(jī)檢查參數(shù)
本篇對XGBoost主要參數(shù)進(jìn)行解釋,方括號(hào)內(nèi)是對應(yīng)scikit-learn中XGBoost算法模塊的叫法。提升參數(shù)雖然有兩種類型的booster,但是我們這里只介紹tree。因?yàn)閠ree的性能比線性回歸好得多,因此我們很少用線性回歸。
1. eta [default=0.3, alias: learning_rate]
學(xué)習(xí)率,可以縮減每一步的權(quán)重值,使得模型更加健壯: 典型值一般設(shè)置為:0.01-0.2
2. min_child_weight [default=1]
一個(gè)子集的所有觀察值的最小權(quán)重和。如果新分裂的節(jié)點(diǎn)的樣本權(quán)重和小于min_child_weight則停止分裂 。這個(gè)可以用來減少過擬合,但是也不能太高,會(huì)導(dǎo)致欠擬合。
3. max_depth [default=6]
樹的最大深度,值越大,樹越大,模型越復(fù)雜 可以用來防止過擬合,典型值是3-10。
4. gamma [default=0, alias: min_split_loss]
分裂節(jié)點(diǎn)時(shí),損失函數(shù)減小值只有大于等于gamma節(jié)點(diǎn)才分裂,gamma值越大,算法越保守,越不容易過擬合,但性能就不一定能保證,需要平衡。
5. subsample [default=1]
構(gòu)建每棵樹對樣本的采樣率,如果設(shè)置成0.5,XGBoost會(huì)隨機(jī)選擇一半的樣本作為訓(xùn)練集。
6. colsample_bytree [default=1]
列采樣率,也就是特征采樣率。
7. colsample_bylevel [default=1]
構(gòu)建每一層時(shí),列采樣率。
8. lambda [default=1, alias: reg_lambda]
L2正則化,這個(gè)參數(shù)是用來控制XGBoost的正則化部分的。雖然大部分?jǐn)?shù)據(jù)科學(xué)家很少用到這個(gè)參數(shù),但是這個(gè)參數(shù)在減少過擬合上還是可以挖掘出更多用處的。
9. alpha [default=0, alias: reg_alpha]
L1正則化,增加該值會(huì)讓模型更加收斂
10. scale_pos_weight, [default=1]
在類別高度不平衡的情況下,將參數(shù)設(shè)置大于0,可以加快收斂。
學(xué)習(xí)目標(biāo)參數(shù):這個(gè)參數(shù)用來控制理想的優(yōu)化目標(biāo)和每一步結(jié)果的度量方法。
1、objective[默認(rèn)reg:linear]
這個(gè)參數(shù)定義需要被最小化的損失函數(shù)。常用的值有:
· reg:linear:線性回歸
· reg:logistic:邏輯回歸
· binary:logistic 二分類的邏輯回歸,返回預(yù)測的概率
· binary:logitraw:二分類邏輯回歸,輸出是邏輯為0/1的前一步的分?jǐn)?shù)
· multi:softmax:用于Xgboost 做多分類問題,需要設(shè)置num_class(分類的個(gè)數(shù))
· multi:softprob:和softmax一樣,但是返回的是每個(gè)數(shù)據(jù)屬于各個(gè)類別的概率。
· rank:pairwise:讓Xgboost 做排名任務(wù),通過最小化(Learn to rank的一種方法)
2、eval_metric( 默認(rèn)值取決于objective參數(shù)的取值)
· 對于有效數(shù)據(jù)的度量方法。
· 對于回歸問題,默認(rèn)值是rmse,對于分類問題,默認(rèn)值是error。
· 典型值有:
rmse 均方根誤差
mae 平均絕對誤差
logloss 負(fù)對數(shù)似然函數(shù)值
error 二分類錯(cuò)誤率(閾值為0.5)
merror 多分類錯(cuò)誤率
mlogloss 多分類logloss損失函數(shù)
auc 曲線下面積
參數(shù)調(diào)優(yōu)的一般步驟
1. 確定學(xué)習(xí)速率和提升參數(shù)調(diào)優(yōu)的初始值2. max_depth 和 min_child_weight 參數(shù)調(diào)優(yōu)3. gamma參數(shù)調(diào)優(yōu)4. subsample 和 colsample_bytree 參數(shù)優(yōu)5. 正則化參數(shù)alpha調(diào)優(yōu)6. 降低學(xué)習(xí)速率和使用更多的決策樹以上就是關(guān)于pos機(jī)檢查參數(shù),XGBoost 重要關(guān)鍵參數(shù)及調(diào)優(yōu)步驟的知識(shí),后面我們會(huì)繼續(xù)為大家整理關(guān)于pos機(jī)檢查參數(shù)的知識(shí),希望能夠幫助到大家!









