- - 计算复杂度不高,易于理解和解释,甚至比线性回归更直观;
- - 与人类做决策思考的思维习惯契合;
- - 模型可以通过树的形式进行可视化展示;
- - 可以直接处理非数值型数据,不需要进行哑变量的转化,甚至可以直接处理含缺失值的数据;
- - 可以处理不相关特征数据。
- - 对于有大量数值型输入和输出的问题,特别是当数值型变量之间存在许多错综复杂的关系,如金融数据分析,决策树未必是一个好的选择;
- - 决定分类的因素更倾向于更多变量的复杂组合;
- - 模型不够稳健,某一个节点的小小变化可能导致整个树会有很大的不同。
- - 可能会产生过度匹配(过拟合)问题。
使用数据类型:数值型和离散型(标称型)。
决策树算法通常是一个递归的选择最优特征的过程,并根据该特征对训练数据进行分割,使得对各个子数据集有一个最好的分类过程。这一过程对应着特征空间的划分,也对应着决策树的构建。开始,构建根结点,将所有训练数据都放在根结点。选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类。如果这些子集已经能够被基本正确分类,那么构建叶节点,并将这些子集分到所对应的叶节点中去;如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的节点。如此递归的进行下去,直到所有的训练数据子集被基本正确分类,或者没有合适的特征为止。最后每个子集都被分到叶节点上,即都有了明确的类,这就生成了一颗决策树。
决策树可以看作if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。
将决策树转换成if-then规则的过程如下:
- 由决策树的根节点到叶节点的每一条路径构建一条规则;
- 路径内部结点的特征对应规则的条件;
- 叶节点的类对应规则的结论.
决策树的路径具有一个重要的性质:互斥且完备,即每一个样本均被且只能被一条路径所覆盖。
决策树由结点和有向边组成。结点有两种类型: 内部结点和叶节点。内部节点表示一个特征或属性,叶节点表示一个类。
决策树通常有三个步骤:特征选择、决策树生成、决策树的修剪。
如果利用一个特征进行分类的结果与随机分类的结果无异,则可以认为这个特征是不具备分类能力的。而我们应该基于什么准则来判定一个特征的分类能力呢?这时候,需要引入一个概念:信息增益。特征选择原则:对训练数据集,计算其每个特征的信息增益,并比它们的大小,从而选择信息增益最大的特征。
以信息增益作为特征选择准则,会存在偏向于选择取值较多的特征的问题。可以采用信息增益比对这一问题进行校正。原则也是选择信息增益比最大的特征。
决策树的生成算法有很多变形,这里介绍几种经典的实现算法:ID3算法,C4.5算法和CART算法。这些算法的主要区别在于分类结点上特征选择的选取标准不同。下面详细了解一下算法的具体实现过程。
ID3算法的核心是在决策树的各个结点上应用信息增益准则进行特征选择。具体做法是:
- 从根节点开始,对结点计算所有可能特征的信息增益,选择信息增益最大的特征作为结点的特征,并由该特征的不同取值构建子节点;
- 对子节点递归地调用以上方法,构建决策树;
- 直到所有特征的信息增益均很小或者没有特征可选时为止。
C4.5算法(是ID3的升级,考虑自身熵值)
C4.5算法与ID3算法的区别主要在于它在生产决策树的过程中,使用信息增益比来进行特征选择。
分类与回归树(classification and regression tree,CART)与C4.5算法一样,由ID3算法演化而来。CART假设决策树是一个二叉树,它通过递归地二分每个特征,将特征空间划分为有限个单元,并在这些单元上确定预测的概率分布。CART算法中,对于回归树(数值型),采用的是平方误差最小化准则;对于分类树(离散型),采用基尼指数最小化准则。
如果对训练集建立完整的决策树,会使得模型过于针对训练数据,拟合了大部分的噪声,即出现过度拟合的现象。为了避免这个问题,有两种解决的办法:
- 当熵减少的数量小于某一个阈值时,就停止分支的创建。这是一种贪心算法。
- 先创建完整的决策树,然后再尝试消除多余的节点,也就是采用减枝的方法。
方法1存在一个潜在的问题:有可能某一次分支的创建不会令熵有太大的下降,但是随后的子分支却有可能会使得熵大幅降低。因此,我们更倾向于采用剪枝的方法。
- 预剪枝(实用):边建立决策树边进行剪枝操作。方法:限制树的深度,叶子节点的个数,叶子节点包含的样本树,信息增益量等。
- 后剪枝:当建立完决策树后来进行剪枝操作。
函数为创建一个决策树模型,其函数的参数含义如下所示:
-
splitter: best or random 前者是在所有特征中找最好的切分点 后者是在部分特征中,默认的”best”适合样本量不大的时候,而如果样本数据量非常大,此时决策树构建推荐”random” 。
-
min_samples_split:设置结点的最小样本数量,当样本数量可能小于此值时,结点将不会在划分。
-
min_samples_leaf: 这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝。
-
min_weight_fraction_leaf: 这个值限制了叶子节点所有样本权重和的最小值,如果小于这个值,则会和兄弟节点一起被剪枝默认是0,就是不考虑权重问题。
-
max_leaf_nodes: 通过限制最大叶子节点数,可以防止过拟合,默认是"None”,即不限制最大的叶子节点数。
-
class_weight: 指定样本各类别的的权重,主要是为了防止训练集某些类别的样本过多导致训练的决策树过于偏向这些类别。这里可以自己指定各个样本的权重,如果使用“balanced”,则算法会自己计算权重,样本量少的类别所对应的样本权重会高。
-
min_impurity_split: 这个值限制了决策树的增长,如果某节点的不纯度(基尼系数,信息增益,均方差,绝对差)小于这个阈值则该节点不再生成子节点。即为叶子节点 。
#导入红酒数据集,数据集包含来自3种不同起源的葡萄酒的共178条记录。 #13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。起源为三个产地 #值得一提的是所有属性变量都是连续变量
#导入训练集和测试集切分包 #红酒数据集的数据探索 #显示数据集的标签分类 #70%为训练数据,30%为测试数据
#初始化树模型,criterion:gini或者entropy,前者是基尼系数,后者是信息熵。 #生成一颗决策树,该部分未成功
测试集的准确度: 0.4074 预测结果: 0 真实结果: 0 预测结果: 0 真实结果: 0 预测结果: 1 真实结果: 1 预测结果: 2 真实结果: 2 预测结果: 0 真实结果: 1 预测结果: 0 真实结果: 0 预测结果: 0 真实结果: 0 预测结果: 0
真实结果: 0 预测结果: 2 真实结果: 2 预测结果: 1 真实结果: 1 预测结果: 1 真实结果: 1 预测结果: 2 真实结果: 1 预测结果: 0 真实结果: 0 预测结果: 1 真实结果: 1 预测结果: 0 真实结果: 0
预测结果: 2 真实结果: 2 预测结果: 1 真实结果: 1 预测结果: 1 真实结果: 1 预测结果: 2 真实结果: 2 预测结果: 1 真实结果: 1 预测结果: 0 真实结果: 0 预测结果: 1 真实结果: 1
预测结果: 2 真实结果: 2 预测结果: 1 真实结果: 1 预测结果: 2 真实结果: 2 预测结果: 2 真实结果: 2 预测结果: 0 真实结果: 1 预测结果: 0 真实结果: 0 预测结果: 0 真实结果: 1
预测结果: 2 真实结果: 2 预测结果: 0 真实结果: 0 预测结果: 2 真实结果: 2 预测结果: 0 真实结果: 0 预测结果: 1 真实结果: 1 预测结果: 0 真实结果: 0 预测结果: 1 真实结果: 1 预测结果: 0 真实结果: 0
预测结果: 1 真实结果: 1 预测结果: 1 真实结果: 2 预测结果: 1 真实结果: 1 预测结果: 2 真实结果: 2 预测结果: 1 真实结果: 1 预测结果: 2 真实结果: 2 预测结果: 0 真实结果: 0
预测结果: 2 真实结果: 2 预测结果: 2 真实结果: 2 预测结果: 2 真实结果: 2 预测结果: 1 真实结果: 1 预测结果: 1 真实结果: 1 预测结果: 0 真实结果: 0 预测结果: 0 真实结果: 0 预测结果: 2
真实结果: 2 预测结果: 2 真实结果: 2 预测结果: 1 真实结果: 1