XGB 问题集

system

1.当两台电脑在相同数据上训练 XGBoost 模型，且 num_boost_round 同时增大但结果不一致时，根本原因在于训练过程中的随机性未被完全控制。

A:原因解析（即使 num_boost_round 相同）
随机性来源：

特征抽样：当 colsample_by* 参数 <1 时，每棵树随机选择特征子集
样本抽样：当 subsample <1 时，每轮迭代随机选择数据子集
分裂点选择：grow_policy 或 GPU 并行计算可能导致浮点误差累积
硬件差异：CPU/GPU 指令集、内存对齐方式影响浮点运算精度

B:随机性放大效应：

迭代轮数越大 → 随机性累积越多 → 结果差异越明显
小轮数时差异可能被掩盖，大轮数时显著暴露

解决方案：强制确定性训练

步骤 1：基础参数固定（必需）

params = {
    'random_state': 42,              # 固定全局随机种子
    'subsample': 1.0,                # 禁用样本抽样
    'colsample_bytree': 1.0,         # 禁用特征抽样
    'colsample_bylevel': 1.0,
    'colsample_bynode': 1.0,
    'tree_method': 'hist',           # 使用直方图算法（确定性更强）
    'grow_policy': 'depthwise',      # 禁用 lossguide 等随机策略
}

步骤 2：启用确定性模式（XGBoost ≥1.3）

params.update({
    'deterministic': True,           # 强制确定性计算
    'single_precision_histogram': False,  # 使用双精度
})

步骤 3：环境一致性检查

# 在两台电脑执行以下命令
import xgboost, platform
print(f"XGBoost: {xgboost.__version__}")
print(f"OS: {platform.platform()}")
print(f"CPU: {platform.processor()}")
# 输出应完全一致

特殊场景处理
当必须使用随机抽样时（如防止过拟合）

params.update({
    'subsample': 0.8,
    'colsample_bytree': 0.8,
    'seed': 42,  # 额外设置种子（XGBoost的旧版参数）
})

# 启用实验性确定性抽样 (XGBoost ≥1.6)
try:
    from xgboost import experimental
    experimental.enable_deterministic()  # 全局确定性模式
except ImportError:
    print("Require XGBoost>=1.6 for deterministic sampling")

验证一致性的代码

def compare_models(model1, model2):
    """检查两模型是否完全一致"""
    dump1 = model1.get_dump(dump_format='json')
    dump2 = model2.get_dump(dump_format='json')
    
    # 比较树结构
    assert len(dump1) == len(dump2), "Tree count mismatch"
    
    for i, (t1, t2) in enumerate(zip(dump1, dump2)):
        if t1 != t2:
            print(f"差异在第 {i+1} 棵树:")
            print(f"Model1: {t1[:100]}...")
            print(f"Model2: {t2[:100]}...")
            return False
    return True

# 在两台电脑训练后执行
assert compare_models(model_pc1, model_pc2), "模型不一致"

system

创建完全确定性环境

# 极致确定性配置
params.update({
    'deterministic': True,
    'tree_method': 'hist',
    'single_precision_histogram': False,
    'subsample': 1.0,
    'colsample_bytree': 1.0,
    'colsample_bylevel': 1.0,
    'colsample_bynode': 1.0,
    'grow_policy': 'depthwise',
    'max_bin': 256,  # 固定分箱数量
    'seed': 42,
    'random_state': 42,
})

# 限制线程数
os.environ['OMP_NUM_THREADS'] = '1'
os.environ['OPENBLAS_NUM_THREADS'] = '1'

# 使用低精度容忍比较
xgb.config(global_deterministic=True, deterministic_histogram=True)