零基础学习机器学习（六）决策树算法原理与实战代码

发表于 2025-06-10 更新于 2025-10-25 分类于 MachineLearning Waline：

从这一篇博客开始介绍一些机器学习常用的算法的原理及其实战代码，本次博客介绍的是决策树以及从决策树上发展出来的随机森林和Gradient Boosting决策树

原理解析

决策树算法是机器学习领域的基石之一，其强大的数据分割能力让它在各种预测和分类问题中扮演着重要的角色。从它的名字便能窥见其工作原理的直观性：就像一棵树一样，从根到叶子的每一分叉都是一个决策节点，指引数据点最终归类到相应的叶节点，或者说是最终的决策结果。

在现实世界中，决策树的概念可以追溯到简单而普遍的决策过程。例如，医生在诊断病人时，会根据一系列的检查结果来逐步缩小疾病的范围，这个过程可以被视作一种决策树的实际应用。从症状到测试，每一个节点都是决策点，携带着是否进一步检查或是得出诊断的决策。

在机器学习的世界里，这种决策过程被数学化和算法化。我们不再是用肉眼观察，而是让计算机通过算法模拟这一过程。举个例子，电子邮件过滤器就是决策树应用的一个经典案例。它通过学习识别垃圾邮件和非垃圾邮件的特征，比如关键词的出现频率、发件人信誉等，电子邮件过滤器能够自动地将邮件分类为“垃圾邮件”或“正常邮件”。

在更广泛的机器学习应用领域，决策树可以处理各种各样的数据，不论是数字还是分类数据，它都能以其独到的方式进行分析。例如，在金融领域，决策树能够帮助评估和预测贷款违约的可能性；在电子商务中，它可以用来预测用户的购买行为，甚至在更复杂的领域，比如生物信息学中，决策树可以辅助从复杂的基因数据中发现疾病与特定基因之间的关联。

通过引入机器学习，我们让决策树这一概念超越了人类直觉的局限性，使它能处理远超人脑处理能力的数据量和复杂度。它们不仅能够基于现有数据做出判断，还能从数据中学习，不断优化自身的决策规则，这是决策树在现实世界中不可替代的意义。

决策树之所以在机器学习中占有一席之地，还因为它的模型可解释性强，这在需要透明决策过程的领域尤为重要。与深度学习的黑盒模型相比，决策树提供的决策路径是清晰可追踪的。每一次分支都基于数据特征的显著性进行选择，这让非专业人士也能够理解模型的决策逻辑。

构建决策树的关键概念

特征选择

决策树如何确定在每个节点上提出哪个问题？这就涉及到一个关键的概念——特征选择。特征选择是决定用哪个特征来分裂节点的过程，它对决策树的性能有着至关重要的影响。主要的特征选择方法包括：

信息增益：度量分裂前后信息不确定性的减少，也就是说，它寻找能够最好地清理数据的特征。
增益率：调整信息增益，解决偏向于选择拥有大量值的特征的问题。
基尼不纯度：常用于CART算法，度量数据集的不纯度，基尼不纯度越小，数据集的纯度越高。

假设我们要从一个包含苹果和橘子的篮子中分类水果，信息增益会衡量按照颜色或按照质地分裂数据所带来的信息纯度提升。如果颜色的信息增益更高，那么颜色就是该节点的最佳分裂特征。

决策树的生成

树的生成是通过递归分裂的方式进行的。从根节点开始，使用特征选择方法选择最佳的分裂特征，创建分支，直到满足某个停止条件，比如达到了设定的最大深度，或者节点中的样本数量少于阈值。

举一个现实生活中的例子，假如一个电信公司想要预测哪些客户可能会流失。在构建决策树时，它可能会首先考虑账单金额，如果账单金额大于平均值，那么进一步考虑客户的合同期限；如果合同期限短，那么客户流失的可能性就更高。

决策树学习的目标是为了产生一棵泛化性能力强的树，其基本流程遵循简单的分而治之

输入：训练集 $D = {(x_1,y_1),(x_2,y_2) \ldots (x_m,y_m)}$
属性集： $A = {a_1,a_2, \ldots a_d}$

过程：函数 TreeGenerate(D,A)

生成节点node
if D 中的样本全属于同一类别 C then
  将node标记为C类叶子节点 return;
end if
if A = 空集 OR D中的样本在A上的取值相同（也所有训练数据的就是x_1到x_m全都相同，但y不同） then
  将node标记为叶子节点，其类别标记为D中样本数最多的类 return;
end if
从A中选择最优划分属性a*
for a* 中的每一个值a_v do
  为node生成一个分支，令D_v表示D中在a*上取值为a_v的样本子集
  if D_v 为空集（D_v中没有一个的a*属性值是a_v） then
    将分支节点标记为叶子节点，其类别为D中样本最多的类 return;
  else
    以 TreeGenerate(D_v, A \ {a*})为分支节点
  end if
end for

关于如何 ‘从A中选择最优划分属性a*’，有两种方法，一种是基于信息增益，一种是基于基尼指数

决策树的剪枝

为了防止过拟合——即模型对训练数据过于敏感，从而无法泛化到新的数据上——决策树需要进行剪枝。剪枝可以理解为对树

进行简化的过程，包括预剪枝和后剪枝。预剪枝意味着在树完全生成之前停止树的生长；后剪枝则是在树生成之后去掉某些分支。

例如，在预测客户流失的决策树中，如果我们发现分裂后每个节点只包含极少量的客户，那么这可能是一个过拟合的信号。通过预剪枝或后剪枝，我们可以移除这些仅对训练数据有特定判断能力的规则。

决策树的基础原理既直观又深邃。它将复杂的决策过程简化为易于理解的规则，并且通过学习数据中固有的模式，适用于各种机器学习任务。

梯度提升树

提升树是通过结合多个弱决策树构建的，每一棵树都试图纠正前一棵树的错误。使用梯度提升（Gradient Boosting）的方法可以系统地将新模型添加到已经存在的模型集合中，从而逐步提升模型的准确率。

以预测房价为例，我们可能首先使用一个简单的决策树来预测价格，然后第二棵树会专注于第一棵树预测错误的部分，通过减少这些错误来提升模型的性能，直到达到一定的准确率或树的数量。

随机森林

随机森林通过创建多个独立的决策树，并让它们对最终结果进行投票，来提高决策树的准确性和鲁棒性。每一棵树都是在数据集的一个随机子集上训练得到的，这种方法即提高了模型的泛化能力，也增加了结果的稳定性。

实战

实战可以看这篇博客：基于企鹅数据集的决策树分类预测