XGBoost 参数

system

XGBoost使用key-value字典的方式存储参数：

params = {
    'booster': 'gbtree',
    'objective': 'multi:softmax',  # 多分类的问题
    'num_class': 10,               # 类别数，与 multisoftmax 并用
    'gamma': 0.1,                  # 用于控制是否后剪枝的参数,越大越保守，一般0.1、0.2这样子。
    'max_depth': 12,               # 构建树的深度，越大越容易过拟合
    'lambda': 2,                   # 控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合。
    'subsample': 0.7,              # 随机采样训练样本
    'colsample_bytree': 0.7,       # 生成树时进行的列采样
    'min_child_weight': 3,
    'silent': 1,                   # 设置成1则没有运行信息输出，最好是设置为0.
    'eta': 0.007,                  # 如同学习率
    'seed': 1000,
    'nthread': 4,                  # cpu 线程数
}

XGB调参
XGBoost需要调的参数不算多，大概有以下几类：

1. num_boost_round and learning_rate
2. 直接约束树结构的参数：max_depth, min_child_weight
3. 正则化参数 gamma, lambda, alpha
4. 随机性参数 subsample, colsample_by*.
5. 其他参数：类别不平衡下使用 scale_pos_weight

system

一、常调参数
1、max_depth[默认6]
树分裂最大深度，常用3 ~ 10之间

树越深越容易过拟合（越深模型会学到越具体越局部的样本）

树越深也会消耗更多内存且会使得训练时间变长（由于xgb会一直分裂到max_depth指定的值，再回过头来剪枝）

2、eta[默认0.3]
学习率，常用0.01 ~ 0.5之间

太大准确率不高、难以收敛(梯度值可能在最优解附近晃荡，不收敛)

太小运行速度慢

经验：learning_rate * num_round >= 1 and learning_rate * num_round <= 10

3、lambda[默认1]
权重的L1正则化项

4、alpha[默认0]
权重的L2正则化项

5、min_child_weight[默认1]
最小叶子节点样本权重和(叶子节点中的样本二阶导求和)

值较大时，可减少过拟合

值过高，会导致欠拟合

6、subsample[默认1]
每棵树随机采样的比例，常用0.5 ~ 1之间

减少此参数值，算法会更加保守写，以避免一定程度过拟合，但值太小容易欠拟合

7、colsample_bytree[默认1]
控制每棵随机采样的列数的比例(每一列一个特征)，常用0.5 ~ 1之间

8、gamma[默认0]
节点分裂所需的最先损失下降

值越大，算法越保守

9、scale_pos_weight[默认1]
设置正样本权重值，以均衡正负样本权重

A typical value to consider: sum(negative instances) / sum(positive instances)

示例见https://github.com/dmlc/xgboost/blob/master/demo/kaggle-higgs/higgs-numpy.py

10、tree_method [默认auto]
树构造算法，可选auto, exact, approx, hist, gpu_hist,通常用于调整训练速度

auto：启发式选择最快的算法，表现为小数据选exact greedy，大数据选approx，建议大数据尝试使用hist或者gpu_hist,以获得更高的性能，gpu_hist支持外部内存

exact：精确贪婪算法，枚举所有候选项
approx：近似贪婪算法，using quantile sketch and gradient histogram(分位数简化图和梯度直方图)
hist：快速直方图优化approx
gpu_hist：hist算法的GPU实现

11、num_boost_round—迭代次数
12、early_stopping_rounds
迭代过程中，在n轮内是否有进步，没有就停止训练

触发这个参数（也就是确实提前停止了）的时候返回的变量会带有3个属性：best_score, best_iteration, best_ntree_limit ，这里best_ntree_limit 就是最好的模型的树的个数

但是在文档和源码中，有这么一句话 The method returns the model from the last iteration (not the best one). 就是说如果触发了这个参数的话，那么结果返回的并不是最好的模型，而是最后一轮的模型，那这不坑爹呢？！

但是后续再深入测试的时候发现，用各种指标去验证（比如rmse）的时候，结果却和最好的模型是一样的，并不是和最后一轮的模型一样，再深入的研究之后在源码中发现了这么一段代码，XGBoost在调用predict的时候tree_limit参数如果没指定默认用的就是best_ntree_limit，也就是在预测时候，用的还是最好的模型

二、调参方向/目的
1、过拟合
直接调整控制模型复杂度参数
max_depth –> 调低
min_child_weight –> 调高
gamma –> 调高
增加随机性，使得训练对噪声具有鲁棒性
subsample –> 调低
colsample_bytree –> 调低
eta and num_round –> 调低eta,调高num_round
2、优化性能
tree_method, 设置为 hist 或者 gpu_hist来加快计算速度

3、正负样本不均衡
如果想优化整体效果(AUC)
设置正样本权重系数scale_pos_weight
使用AUC作为评估标准
如果想提升准确率率(预测正确的概率)
设置max_delta_step为1-10之间，有助于收敛

system

通用参数
通用参数最主要是设置基学习器类型，并根据基学习器类型的不同，设置不同的基学习器参数。

参数名	参数取值	参数含义	默认值
`booster`	`gbtree`, `gblinear` 或 `dart`	指定`XGBoost`使用哪种模型作为基学习器。`gbtree`为树模型、`gblinear`为线性模型、`dart`为引入`dropout`技术的树模型	`gbtree`
`verbosity`	`0、1、2、3`	指定`XGBoost`运行时是否打印信息。选0表示不打印、1表示打印`warning`级别的信息、2表示打印`info`级别的信息、3表示打印`debug`级别的信息。	1
`nthread`		指定了`XGBoost`运行时的并行线程的数量。如果未设定该参数，则默认为可用的最大线程数。
`disable_default_eval_metric`	`false、true、1`	是否禁用模型默认的评价指标，false表示不禁用，否则禁用	`false`
`num_feature`		训练时使用特征的数目。通常设定为特征的最大维数。该参数由`xgboost` 自动设定，一般无需用户指定。

system

当XGBoost以树模型为基学习器时(booster=gbtree)，相关的参数有：

参数名	参数取值	参数含义	默认值
`eta`	`[0,1]`	学习率。即前文我们推导中的。能够减小单棵树的作用使得迭代更加稳定，也能防止过拟合。	0.3
`gamma`	`[0,∞]`	使树的叶子节点进一步分裂所要求的损失函数最小减少量。即前文推导模型复杂度中的。只有的叶子节点才会进一步分裂。	0
`max_depth`	`[0,∞]`	树的最大深度，是前文我们提到的预剪枝参数之一。该值越大，则子树越复杂；值越小，则子树越简单。	6
`min_child_weight`	`[0,∞]`	叶子节点上样本权重（二阶导数）之和的最小值，是前文提到的预剪枝参数之一。一个节点是否值得分裂，要看其两个子节点各自样本权重（二阶导数）之和是否均大于该值，如果不是，该节点不值得分裂。前文提到，对于平方损失，样本权重均为1，此时该参数表示叶子节点上需要的最小样本量。这个参数设置的越大、树越简单。	1
`max_delta_step`	`[0,∞]`	每棵树的权重估计时的最大`delta step`。0 表示没有限制。该参数通常不需要设置，但是当遇到类不平衡问题且用logistic回归时，该参数可能有用。	0
`subsample`	`(0,1]`	行抽样比例。前文提到的防止过拟合的措施之一。例如设置为0.5，表示每轮迭代过程随机抽取50%的训练数据来种子树。	1
`sampling_method`	`uniform,gradient_based`	设置抽样方法。`uniform`表示等概率抽取每条数据。当参数`tree_method`设置为`gpu_hist`时才可以使用`gradient_based`，表示每条数据被抽中的概率与梯度有关，具体为
`colsample_bytree`	`(0, 1]`	前文提到的列抽样方法之一。种树之前进行列抽样，树中所有节点所用的特征都从抽取的特征中来选择。	1
`colsample_bylevel`	`(0, 1]`	前文提到的列抽样方法之一。种树的每一层之前进行列抽样，树在该层节点使用的特征从抽取的特征中来选择。	1
`colsample_bynode`	`(0, 1]`	前文提到的列抽样方法之一。每个节点在分裂前进行列抽样，从中选择最优的划分特征。注意：上述三个参数的作用是累计的，如数据集中有64个特征，三个参数均设置为0.5，在一个节点分裂时的候选特征只有个。	1
`lambda`		`L2`正则化参数，即前文提到的中的。参数越大，模型越保守。	1
`alpha`		`L1`正则化参数，即前文提到的中的。参数越大，模型越保守。	0
`tree_method`	`auto,exact,approx,hist,gpu_hist`	前文提到的连续变量选择最佳切分点的算法。详见下面的介绍。	`auto`
`sketch_eps`	`(0, 1)`	用于在近似算法中指定分箱的步长，它会产生个箱子。这个参数一般不用管。	0.03
`scale_pos_weight`		在类别不平衡问题中，用来控制正负样本的比例，一个常用的取值为负样本量正样本量。	1
`grow_policy`	`depthwise,lossguide`	指定树的生长策略，仅仅在`tree_method`设置为`hist,approx,gpu_hist`时有用。`depthwise`表示优先拆分靠近树根部的子节点，`lossguide`表示优先拆分损失降低最快的子节点。
`max_leaves`		最多的叶子节点数目。如果为0，则没有限制。也是一种预剪枝策略。	0
`max_bin`		该参数只在`tree_method='approx',hist,'gup_hist`时可用，用来指定近似算法中最多的箱子数目。	256
`predictor`	`auto,cpu_predictor,gpu_predictor`	`cpu_predictor`表示使用`CPU`来预测；`gpu_predictor`表示使用`GPU`来预测；`auto`表示使用启发式算法自动选择。	`auto`
`num_parallel_tree`		在每次迭代中构建的并行树的数量。此选项用于支持增强的随机森林。	1
`interaction_constraints`		用一个嵌套的列表来告诉算法特征之间存在交互作用。如`[[0, 1], [2, 3, 4]]`表示列索引为0和1的特征存在交互，列索引为2、3和4的特征存在交互作用。

system

参数名	参数取值	参数含义	默认值
`eta`	`[0,1]`	学习率。即前文我们推导中的。能够减小单棵树的作用使得迭代更加稳定，也能防止过拟合。	0.3
`gamma`	`[0,∞]`	使树的叶子节点进一步分裂所要求的损失函数最小减少量。即前文推导模型复杂度中的。只有的叶子节点才会进一步分裂。	0
`max_depth`	`[0,∞]`	树的最大深度，是前文我们提到的预剪枝参数之一。该值越大，则子树越复杂；值越小，则子树越简单。	6
`min_child_weight`	`[0,∞]`	叶子节点上样本权重（二阶导数）之和的最小值，是前文提到的预剪枝参数之一。一个节点是否值得分裂，要看其两个子节点各自样本权重（二阶导数）之和是否均大于该值，如果不是，该节点不值得分裂。前文提到，对于平方损失，样本权重均为1，此时该参数表示叶子节点上需要的最小样本量。这个参数设置的越大、树越简单。	1
`max_delta_step`	`[0,∞]`	每棵树的权重估计时的最大`delta step`。0 表示没有限制。该参数通常不需要设置，但是当遇到类不平衡问题且用logistic回归时，该参数可能有用。	0
`subsample`	`(0,1]`	行抽样比例。前文提到的防止过拟合的措施之一。例如设置为0.5，表示每轮迭代过程随机抽取50%的训练数据来种子树。	1
`sampling_method`	`uniform,gradient_based`	设置抽样方法。`uniform`表示等概率抽取每条数据。当参数`tree_method`设置为`gpu_hist`时才可以使用`gradient_based`，表示每条数据被抽中的概率与梯度有关，具体为	`uniform`
`colsample_bytree`	`(0, 1]`	前文提到的列抽样方法之一。种树之前进行列抽样，树中所有节点所用的特征都从抽取的特征中来选择。	1
`colsample_bylevel`	`(0, 1]`	前文提到的列抽样方法之一。种树的每一层之前进行列抽样，树在该层节点使用的特征从抽取的特征中来选择。	1
`colsample_bynode`	`(0, 1]`	前文提到的列抽样方法之一。每个节点在分裂前进行列抽样，从中选择最优的划分特征。注意：上述三个参数的作用是累计的，如数据集中有64个特征，三个参数均设置为0.5，在一个节点分裂时的候选特征只有个。	1
`lambda`		`L2`正则化参数，即前文提到的中的。参数越大，模型越保守。	1
`alpha`		`L1`正则化参数，即前文提到的中的。参数越大，模型越保守。	0
`tree_method`	`auto,exact,approx,hist,gpu_hist`	前文提到的连续变量选择最佳切分点的算法。详见下面的介绍。	`auto`
`sketch_eps`	`(0, 1)`	用于在近似算法中指定分箱的步长，它会产生个箱子。这个参数一般不用管。	0.03
`scale_pos_weight`		在类别不平衡问题中，用来控制正负样本的比例，一个常用的取值为负样本量正样本量。	1
`grow_policy`	`depthwise,lossguide`	指定树的生长策略，仅仅在`tree_method`设置为`hist,approx,gpu_hist`时有用。`depthwise`表示优先拆分靠近树根部的子节点，`lossguide`表示优先拆分损失降低最快的子节点。
`max_leaves`		最多的叶子节点数目。如果为0，则没有限制。也是一种预剪枝策略。	0
`max_bin`		该参数只在`tree_method='approx',hist,'gup_hist`时可用，用来指定近似算法中最多的箱子数目。	256
`predictor`	`auto,cpu_predictor,gpu_predictor`	`cpu_predictor`表示使用`CPU`来预测；`gpu_predictor`表示使用`GPU`来预测；`auto`表示使用启发式算法自动选择。	`auto`
`num_parallel_tree`		在每次迭代中构建的并行树的数量。此选项用于支持增强的随机森林。	1
`interaction_constraints`		用一个嵌套的列表来告诉算法特征之间存在交互作用。如`[[0, 1], [2, 3, 4]]`表示列索引为0和1的特征存在交互，列索引为2、3和4的特征存在交互作用。

system

学习任务参数
学习任务参数主要是为模型训练时指定损失函数，以及对验证集做模型评估时指定评价指标。

参数名	参数取值	参数含义	默认值
`objective`	见下面介绍	指定学习任务和相应的损失函数	`reg:squarederror`
`base_score`		所有样本的初始预测分数，类似线性回归的截距项。如果有足够的迭代次数，改变这个值不会有太大的影响。	0.5
`eval_metric`	见下面介绍	验证集的评价指标	与`objective`参数有关
`seed`		随机数种子	0

system

objective参数，它主要用来指定损失函数，有如下的取值：

reg:squarederror ：回归任务，使用平方损失作为损失函数；
reg:squaredlogerror：回归任务，使用平方对数损失作为损失函数;
reg:logistic：同binary:logistic，分类任务，加法模型的输出用sigmoid函数转换为概率，然后使用交叉熵作为损失函数。使用这个参数时默认的验证集评价指标是rmse；
reg:pseudohubererror：回归任务，用伪huber函数作为损失函数；
binary:logistic ：类似reg:logistic，分类任务，加法模型的输出用sigmoid函数转换为概率，然后使用交叉熵作为损失函数。不过默认的验证集评价指标是负对数似然；
binary:logitraw：二分类任务，与 binary:logistic 不同的是，其最终输出值未经 sigmoid函数转换；
binary:hinge：二分类任务，使用hinge损失函数，预测结果是0或1，而不是概率；
count:poisson：计数数据的poisson回归，加法模型的输出用作poisson分布的均值，损失函数为poisson回归的损失函数；
survival:cox：右删失数据的COX回归，损失函数是COX回归的损失函数，返回值似乎是风险比；
survival:aft：删失数据的加速失效AFT模型，将加法模型代替AFT模型中特征的线性组合部分，然后使用AFT的对数似然函数为损失函数；
aft_loss_distribution：与 survival:aft 类似，但是验证集的评价指标使用aft-nloglik；
multi:softmax：多分类任务，加法模型的输出用softmax函数转换，然后用交叉熵作为损失函数，需要指定标签的类别数；
multi:softprob：类似 multi:softmax ，不过最终输出的是ndata * nclass向量，可以进一步转换为ndata * nclass的矩阵，包含样本每一个数据点属于各种类别的概率；
reg:gamma：gamma回归，将加法模型的输出作为gamma分布的均值进行转换，损失函数是对数似然。
reg:tweedie：tweedie回归，将加法模型的输出作为tweedie分布中的均值进行转换，损失函数是对数似然函数。

system

eval_metric参数，它主要用来指定验证集的评价指标，有下面几个取值：

rmse：均方根误差；
rmsle：均方根对数误差：，当objective='reg:squaredlogerror’时的验证集默认评价指标，这个评价指标能减小由数据中离群值产生的误差。但是因为使用了log函数，当预测值小于-1时，rmsle可能输出nan；
mae：平均绝对误差；
mape：平均绝对百分比误差；
mphe：平均伪huber误差，当objective=reg:pseudohubererror时验证集的默认评价指标；
logloss：负对数似然值；
error：对于二分类问题为错误率，即分类错误样本数/总样本数，在预测时将预测值大于0.5判定为阳性样本，否则为阴性样本；
error@t：与error类似，不过可以通过t提供一个数值来指定一个不同于0.5的二分类问题阈值；
merror：多分类问题的错误率，同样为分类错误样本数/总样本数；
mlogloss：多分类的负对数似然函数值；
auc：ROC曲线下面积；
当用在二分类任务时，objective应该为binary:logistic或类似输出概率的函数；
当用在多分类任务时， objective应该为multi:softprob而非multi:softmax，因为后者并不输出概率。此外，AUC是通过1-vs-其他计算的，参考类别按类别频率加权；
aucpr：P-R图曲线下面积，用法类似auc；
poisson-nloglik：poisson回归中的负对数似然值；
gamma-nloglik：gamma回归中的负对数似然值；
cox-nloglik：Cox回归中的负对数似然值；
gamma-deviance：gamma回归的残差偏差；
tweedie-nloglik： tweedie回归的负对数似然值；
aft-nloglik：AFT模型的负对数似然值；
interval-regression-accuracy：用在区间删失数据中，为预测标签落在区间删失标签的数据点的比例。