LightGBM

system

工作流程

system

高效优化技术

1.1 GOSS (Gradient-based One-Side Sampling - 基于梯度的单边采样)

1.2 EFB (Exclusive Feature Bundling - 互斥特征捆绑)

1.3 直方图优化

system

完整工作流程

1. 初始化模型

2. 迭代训练（每轮添加一棵新树）

步骤1：计算梯度统计量

对于每个样本 i 计算：

步骤2：数据采样 (GOSS)

按梯度绝对值 |g_i| 降序排序
保留前 a% 大梯度样本
随机抽取 b% 小梯度样本
合并样本集并分配权重

步骤3：特征处理 (EFB)

构建特征冲突图
贪心算法捆绑互斥特征
创建特征束替代原始特征

步骤4：构建决策树 (Leaf-wise生长)

步骤	操作	优化技术
1. 特征离散化	连续特征 → `max_bin`个桶	直方图算法
2. 寻找最佳分裂点	遍历所有特征束	EFB优化
3. 计算分裂增益	`Gain = [G_L²/(H_L+λ) + G_R²/(H_R+λ)] - G²/(H+λ)`	直方图差加速
4. 执行分裂	选择增益最大的分裂点	Leaf-wise策略
5. 确定叶子权重	`w_j = -Σg_i / (Σh_i + λ)`	正则化约束

步骤5：模型更新

ŷi^{(t)} = ŷi^{(t-1)} + \eta \cdot f_t(x_i)

其中 $\eta$ 为学习率 (learning_rate)

3. 终止条件

达到最大树数量 (n_estimators)
验证集性能连续N轮未提升 (early_stopping_rounds)
目标函数改进小于阈值 (min_gain_to_split)

system

性能优化原理

1. 直方图差加速

#父节点直方图
parent_hist = [g_sum, h_sum]
#左子节点直方图
left_hist = calculate_hist(left_data)
#右子节点直方图 = 父节点 - 左子节点
right_hist = parent_hist - left_hist

2. Leaf-wise生长优势

更快的损失函数下降
相同迭代次数下模型复杂度更高
减少不必要的分裂计算

system

LightGBM 参数详解手册

一、核心参数（控制模型基本行为）

参数	默认值	说明	推荐值/技巧
`boosting_type`	`gbdt`	提升方法类型	`gbdt`(标准), `dart`(Dropout), `goss`(梯度采样), `rf`(随机森林)
`objective`	`regression`	目标函数	`binary`(二分类), `multiclass`(多分类), `lambdarank`(排序任务)
`metric`	依赖objective	评估指标	`auc`, `binary_logloss`, `mae`, `rmse`, `multi_logloss`
`num_iterations`	100	树的数量	100-10000 (配合早停使用)
`learning_rate`	0.1	学习率	0.01-0.3 (小值需增加树数量)
`num_leaves`	31	叶子节点数	主调参数：20-2000 (小于2^max_depth)
`device_type`	`cpu`	计算设备	`gpu` (加速3-5倍)

使用示例：

params = {
    'boosting_type': 'gbdt',
    'objective': 'binary',
    'metric': 'auc',
    'num_iterations': 1000,
    'learning_rate': 0.05,
    'num_leaves': 128,
    'device': 'gpu'  # 启用GPU加速
}

二、树结构参数（控制树生长）

参数	默认值	说明	推荐值/技巧
`max_depth`	-1	最大深度	-1(不限制), 3-12 (配合num_leaves)
`min_data_in_leaf`	20	叶子最小样本数	防止过拟合: 20-200
`min_sum_hessian_in_leaf`	1e-3	叶子最小Hessian和	同min_child_weight
`max_bin`	255	特征分桶数	32-255 (内存充足可增加)
`feature_fraction_bynode`	1.0	节点特征采样比例	0.6-1.0 (随机森林风格)

三、正则化参数（防止过拟合）

参数	默认值	说明	推荐值/技巧
`lambda_l1`	0	L1正则化系数	0-10 (特征选择)
`lambda_l2`	0	L2正则化系数	0-10 (稳定预测)
`min_gain_to_split`	0	最小分裂增益	0-20 (越大树越简单)
`path_smooth`	0	路径平滑系数	0-100 (改善泛化)
`drop_rate`	0.1	丢弃率(仅dart)	0.05-0.2

四、特征参数（优化特征处理）

参数	默认值	说明	推荐值/技巧
`feature_fraction`	1.0	特征采样比例	0.6-1.0 (防过拟合)
`max_cat_threshold`	32	类别特征最大阈值	10-100 (高基数类别)
`cat_smooth`	10	类别平滑系数	1-100 (减少噪声)
`cat_l2`	10	类别L2正则化	1-50 (控制类别影响)
`monotone_constraints`	None	单调约束	(+1/-1) 强制正/负相关

五、数据采样参数（加速训练）

参数	默认值	说明	推荐值/技巧
`bagging_fraction`	1.0	数据采样比例	0.6-1.0
`bagging_freq`	0	采样频率	1-10 (每k次迭代采样)
`pos_bagging_fraction`	1.0	正样本采样	不平衡数据调整
`neg_bagging_fraction`	1.0	负样本采样	不平衡数据调整
`extra_trees`	False	极端随机树	True(增加随机性)

六、目标函数参数（定制学习目标）

七、重要功能参数

参数	默认值	说明	推荐值/技巧
`early_stopping_rounds`	None	早停轮数	10-100 (防止过拟合)
`verbosity`	1	日志详细度	-1(错误), 0(警告), 1(信息)
`seed`	0	随机种子	固定值确保可复现
`num_threads`	-1	线程数	0(全部核心), 4(控制资源)
`gpu_use_dp`	False	GPU双精度	True(精度要求高时)

system

参数调优策略

1. 基础调优流程

2. 参数优先级排序

learning_rate + num_iterations
num_leaves 和 max_depth
min_data_in_leaf
lambda_l1/lambda_l2
feature_fraction + bagging_fraction

system

LightGBM LambdaRank 参数优化指南

LambdaRank 是 LightGBM 中用于排序任务（Learning to Rank）的目标函数，特别适合解决搜索引擎、推荐系统等场景中的排序问题。

一、LambdaRank 专属参数

参数	推荐值	说明	重要性
`objective`	`lambdarank`	必须设置为 lambdarank	★★★★★
`metric`	`ndcg`	评估指标 (也可选 `map`, `err`)	★★★★★
`ndcg_eval_at`	`[5, 10]`	计算 NDCG@5 和 NDCG@10	★★★★☆
`lambdarank_truncation_level`	`10`	计算增益时的截断位置	★★★★☆
`lambdarank_norm`	`true`	是否归一化 NDCG	★★★☆☆
`lambdarank_position_bias_regularization`	`0.5-1.0`	位置偏置正则化强度	★★★★☆

二、基础参数优化组合

base_params = {
    # 核心目标
    'objective': 'lambdarank',
    'metric': 'ndcg',
    'ndcg_eval_at': [5, 10],
    
    # LambdaRank 专属
    'lambdarank_truncation_level': 10,
    'lambdarank_norm': True,
    'lambdarank_position_bias_regularization': 0.8,
    
    # 学习过程
    'learning_rate': 0.05,
    'num_iterations': 2000,
    'early_stopping_rounds': 50,
    
    # 树结构
    'num_leaves': 127,
    'max_depth': 8,
    'min_data_in_leaf': 100,
    
    # 正则化
    'lambda_l1': 0.2,
    'lambda_l2': 0.3,
    'min_gain_to_split': 0.1,
    
    # 特征处理
    'feature_fraction': 0.8,
    'max_bin': 255,
    
    # 硬件加速
    'device': 'gpu',
    'gpu_platform_id': 0,
    'gpu_device_id': 0
}

1. 大规模数据集优化

large_data_params = {
    **base_params,
    'learning_rate': 0.02,
    'num_iterations': 5000,
    'min_data_in_leaf': 500,
    'max_bin': 511,
    'feature_fraction': 0.7,
    'extra_trees': True  # 增加随机性
}

3. 多目标排序

multi_metric_params = {
    **base_params,
    'metric': ['ndcg', 'map'],
    'eval_at': [3, 5, 10],
    'lambdarank_weight': [0.7, 0.3]  # NDCG和MAP的权重
}

高位置偏置场景

position_bias_params = {
    **base_params,
    'lambdarank_position_bias_regularization': 1.5,
    'lambdarank_truncation_level': 20,
    'max_position': 50,  # 定义最大位置
    'label_gain': [0,1,3,7,15,31,63]  # 自定义标签增益
}

system

特性	基于分裂的重要性 (`split`)	基于增益的重要性 (`gain`)
含义	特征被用作分裂点的次数	特征在所有分裂中带来的总增益
解读	“使用频率”	“贡献大小”
优点	计算快，易理解	更准确反映特征的真实价值
推荐度	低	高