因为xgboost借鉴了随机森林的做法,支持列抽样,这么做是为了能降低过拟合,并减少计算,这也是xgboost异于传统gbdt的一个特性。
因为有行抽样和列抽样。改变特征的排序,每棵树抽取的特征和样本都会有一点改变。
改变数据中列的顺序后,列抽样的结果和之前是有差别的,因此训练结果会有轻微的不同。
- Pandas
一、比较运算符和比较方法
比较运算符用于判断是否相等和比较大小,Python中的比较运算符有==、!=、<、>、<=、>=六个,Pandas中也一样。
在Pandas中,DataFrame和Series还支持6个比较方法,详见下表。
方法 | 英文全称 | 用途 |
eq | equal to | 等于 |
ne | not equal to | 不等于 |
lt | less than | 小于 |
gt | greater than | 大于 |
le | less than or equal to | 小于等于 |
ge | greater than or equal to | 大于等于 |
二、两个DataFrame比较
- 用算术运算符比较
两个DataFrame进行比较,是将DataFrame中对应位置的数据进行比较。

使用比较运算符,两个DataFrame的形状必须相同,索引必须相等(索引顺序必须相同),否则会报错。
- 用比较方法比较
直接用DataFrame调用比较方法,传入另一个DataFrame,即可完成比较操作。

使用比较方法时,两个DataFrame的形状可以不相同,索引也可以不相同。

结果是能兼容两个被比较DataFrame的新DataFrame,原理如下图。
