python已知酒的酒精含量权重为2,苹果酸的权重为1糖和甘油得权重为0.5，计算新样本的分类？

AutoCAD | 瓷砖 | 三国人物 | 中央处理器(cpu) | 按键精灵 | 特许加盟 | 计算机专业 | 运动锻炼 | 林黛玉 | 足球彩票 | 台湾省 | 硬盘 | 几何学 | 曹操 | 头发护理 | 道教 | exo | solidworks | 蜂蜜 | 葡萄酒 | 环境保护 | 精酿啤酒 | Excel技巧 | c4d | 陶渊明 | 电学 | 国家队 | PHP | 方言 | 室内装修 | 办公软件 | 吸尘器 | 男士护肤 | 日语学习 | 海淘 | 新疆维吾尔自治区 | 梦幻西游电脑版 | 威士忌 | 抑郁症 | 电源 | 孙悟空 | 人口 | 算命 | 洛阳 | 蚊子 | 网络语言 | 植保无人机 | 实验 | centos | 街机 | 美术生 | 巧克力 | 武侠小说 | 户型 | 动物保护 | 外国人 | 写字楼 | 魔力宝贝 | 联想(lenovo) | 多肉植物 | 大学生活 | 率土之滨 | 服装面料 | 房子 | 产品 | CSS | 极限挑战(综艺节目) | 虚拟机 | 云主机 | 魏无羡 | 米粉 | 魔兽争霸3混乱之治 | 游戏原画 | 周易 | Spss数据分析 | 北京美食 | 劲舞团 | 电子产品 | 牙齿美白 | 游戏手柄 | 赋 | 糕点 | 身体乳 | 金庸小说 | unity（游戏引擎） | 彩虹六号（游戏） | 汉字 | 乳头 | 御龙在天 | 鱼类 | 茶叶 | 智能手环 | 南京市 | 日语翻译 | 运载火箭 | 戒指 | 眼袋 | 疤痕修复 | 用户界面设计 | 运动损伤 | Xbox One | 培训班 | 王老吉 | 保定 | 后期特效 | 移民 | 动画制作 | 植物种植 | 红木艺术 | 跑步鞋 | 闺蜜 | 寻仙 | 遗传学 | 咖啡馆 | 食品 | 外汇 | 白兰地 | 日语 | 我的英雄学院 | 古剑奇谭ol | 日本漫画 | 双色球 | 3D Max | 眼镜选购 | 建筑施工 | galgame | 五粮液 | 兰蔻（lancome） | 手机摄影 | 葫芦 | 清朝 | 冬奥会 | 机器学习 | 家装 | 家庭教育 | 航拍 | 牙膏 | 面包 | 外貌 | 眉毛 | 留学 | 冰箱 | 农业 | 通辽市 | 话剧 | 粤语 | 第五人格（手游） | 易经 | 奔驰（Mercedes-Benz） | 青岛 | 字体设计 | 梦三国（游戏） | 欧洲 | 甄姬 | 酱油 | logo设计 | 苏州市 | OneNote | 净水器 | 羊奶粉 | 亲子鉴定 | 超级战队 | 琅琊榜 | 汉语拼音 | 篮球鞋 | 小叶紫檀 | 济南市 | 音响 | 秦岭 | 街头霸王（游戏） | 酱料 | 竞赛 | 八字算命 | 美的 | 进化 | 酸奶 | 拉萨市 | 街机游戏 | 尧山 | 计算器 | 红米手机 | 家具设计 | 黑洞 | 任天堂3ds | 方便面 | 国有企业 | 进击的巨人 | 装机 | 吸烟 | 婚礼 | 玫瑰花 | Flash | 城市规划 | 植物 | 论文写作 | 身材 | 传统文化 | Microsoft SQL Server | 菠萝 | 老师 |

你的位置：网站首页 >> 频道首页 >>数据分析 >>python已知酒的酒精含量权重为2,苹果酸的权重为1糖和甘油得权重为0.5，计算新样本的分类？

python已知酒的酒精含量权重为2,苹果酸的权重为1糖和甘油得权重为0.5，计算新样本的分类？

来源：蜘蛛抓取(WebSpider) 时间：2022-09-27 11:53 标签： python神经网络编程是什么

- 计算复杂度不高，易于理解和解释，甚至比线性回归更直观；
- 与人类做决策思考的思维习惯契合；
- 模型可以通过树的形式进行可视化展示；
- 可以直接处理非数值型数据，不需要进行哑变量的转化，甚至可以直接处理含缺失值的数据；
- 可以处理不相关特征数据。

- 对于有大量数值型输入和输出的问题，特别是当数值型变量之间存在许多错综复杂的关系，如金融数据分析，决策树未必是一个好的选择；
- 决定分类的因素更倾向于更多变量的复杂组合；
- 模型不够稳健，某一个节点的小小变化可能导致整个树会有很大的不同。
- 可能会产生过度匹配（过拟合）问题。

使用数据类型：数值型和离散型（标称型）。

　　决策树算法通常是一个递归的选择最优特征的过程，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类过程。这一过程对应着特征空间的划分，也对应着决策树的构建。开始，构建根结点，将所有训练数据都放在根结点。选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。如果这些子集已经能够被基本正确分类，那么构建叶节点，并将这些子集分到所对应的叶节点中去；如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的节点。如此递归的进行下去，直到所有的训练数据子集被基本正确分类，或者没有合适的特征为止。最后每个子集都被分到叶节点上，即都有了明确的类，这就生成了一颗决策树。

决策树可以看作if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。

将决策树转换成if-then规则的过程如下：

由决策树的根节点到叶节点的每一条路径构建一条规则；
路径内部结点的特征对应规则的条件；
叶节点的类对应规则的结论.

决策树的路径具有一个重要的性质：互斥且完备,即每一个样本均被且只能被一条路径所覆盖。

决策树由结点和有向边组成。结点有两种类型: 内部结点和叶节点。内部节点表示一个特征或属性，叶节点表示一个类。

决策树通常有三个步骤：特征选择、决策树生成、决策树的修剪。

　　如果利用一个特征进行分类的结果与随机分类的结果无异，则可以认为这个特征是不具备分类能力的。而我们应该基于什么准则来判定一个特征的分类能力呢？这时候，需要引入一个概念：信息增益。特征选择原则：对训练数据集，计算其每个特征的信息增益，并比它们的大小，从而选择信息增益最大的特征。

　　以信息增益作为特征选择准则，会存在偏向于选择取值较多的特征的问题。可以采用信息增益比对这一问题进行校正。原则也是选择信息增益比最大的特征。

　　决策树的生成算法有很多变形，这里介绍几种经典的实现算法：ID3算法，C4.5算法和CART算法。这些算法的主要区别在于分类结点上特征选择的选取标准不同。下面详细了解一下算法的具体实现过程。

　　ID3算法的核心是在决策树的各个结点上应用信息增益准则进行特征选择。具体做法是：

从根节点开始，对结点计算所有可能特征的信息增益，选择信息增益最大的特征作为结点的特征，并由该特征的不同取值构建子节点；
对子节点递归地调用以上方法，构建决策树；
直到所有特征的信息增益均很小或者没有特征可选时为止。

C4.5算法（是ID3的升级，考虑自身熵值）

　　C4.5算法与ID3算法的区别主要在于它在生产决策树的过程中，使用信息增益比来进行特征选择。

　　分类与回归树（classification and regression tree,CART）与C4.5算法一样，由ID3算法演化而来。CART假设决策树是一个二叉树，它通过递归地二分每个特征，将特征空间划分为有限个单元，并在这些单元上确定预测的概率分布。CART算法中，对于回归树（数值型），采用的是平方误差最小化准则；对于分类树（离散型），采用基尼指数最小化准则。

　　如果对训练集建立完整的决策树，会使得模型过于针对训练数据，拟合了大部分的噪声，即出现过度拟合的现象。为了避免这个问题，有两种解决的办法：

当熵减少的数量小于某一个阈值时，就停止分支的创建。这是一种贪心算法。
先创建完整的决策树，然后再尝试消除多余的节点，也就是采用减枝的方法。

　　方法1存在一个潜在的问题：有可能某一次分支的创建不会令熵有太大的下降，但是随后的子分支却有可能会使得熵大幅降低。因此，我们更倾向于采用剪枝的方法。

预剪枝（实用）：边建立决策树边进行剪枝操作。方法：限制树的深度，叶子节点的个数，叶子节点包含的样本树，信息增益量等。
后剪枝：当建立完决策树后来进行剪枝操作。

函数为创建一个决策树模型，其函数的参数含义如下所示：

splitter： best or random 前者是在所有特征中找最好的切分点后者是在部分特征中，默认的”best”适合样本量不大的时候，而如果样本数据量非常大，此时决策树构建推荐”random” 。
min_samples_split：设置结点的最小样本数量，当样本数量可能小于此值时，结点将不会在划分。
min_samples_leaf：这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。
min_weight_fraction_leaf：这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝默认是0，就是不考虑权重问题。
max_leaf_nodes：通过限制最大叶子节点数，可以防止过拟合，默认是"None”，即不限制最大的叶子节点数。
class_weight：指定样本各类别的的权重，主要是为了防止训练集某些类别的样本过多导致训练的决策树过于偏向这些类别。这里可以自己指定各个样本的权重，如果使用“balanced”，则算法会自己计算权重，样本量少的类别所对应的样本权重会高。
min_impurity_split：这个值限制了决策树的增长，如果某节点的不纯度(基尼系数，信息增益，均方差，绝对差)小于这个阈值则该节点不再生成子节点。即为叶子节点。

#导入红酒数据集,数据集包含来自3种不同起源的葡萄酒的共178条记录。 #13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。起源为三个产地 #值得一提的是所有属性变量都是连续变量 #导入训练集和测试集切分包 #红酒数据集的数据探索 #显示数据集的标签分类 #70%为训练数据，30%为测试数据 #初始化树模型，criterion：gini或者entropy,前者是基尼系数，后者是信息熵。 #生成一颗决策树，该部分未成功

测试集的准确度： 0.4074 预测结果： 0 真实结果： 0 预测结果： 0 真实结果： 0 预测结果： 1 真实结果： 1 预测结果： 2 真实结果： 2 预测结果： 0 真实结果： 1 预测结果： 0 真实结果： 0 预测结果： 0 真实结果： 0 预测结果： 0 真实结果： 0 预测结果： 2 真实结果： 2 预测结果： 1 真实结果： 1 预测结果： 1 真实结果： 1 预测结果： 2 真实结果： 1 预测结果： 0 真实结果： 0 预测结果： 1 真实结果： 1 预测结果： 0 真实结果： 0 预测结果： 2 真实结果： 2 预测结果： 1 真实结果： 1 预测结果： 1 真实结果： 1 预测结果： 2 真实结果： 2 预测结果： 1 真实结果： 1 预测结果： 0 真实结果： 0 预测结果： 1 真实结果： 1 预测结果： 2 真实结果： 2 预测结果： 1 真实结果： 1 预测结果： 2 真实结果： 2 预测结果： 2 真实结果： 2 预测结果： 0 真实结果： 1 预测结果： 0 真实结果： 0 预测结果： 0 真实结果： 1 预测结果： 2 真实结果： 2 预测结果： 0 真实结果： 0 预测结果： 2 真实结果： 2 预测结果： 0 真实结果： 0 预测结果： 1 真实结果： 1 预测结果： 0 真实结果： 0 预测结果： 1 真实结果： 1 预测结果： 0 真实结果： 0 预测结果： 1 真实结果： 1 预测结果： 1 真实结果： 2 预测结果： 1 真实结果： 1 预测结果： 2 真实结果： 2 预测结果： 1 真实结果： 1 预测结果： 2 真实结果： 2 预测结果： 0 真实结果： 0 预测结果： 2 真实结果： 2 预测结果： 2 真实结果： 2 预测结果： 2 真实结果： 2 预测结果： 1 真实结果： 1 预测结果： 1 真实结果： 1 预测结果： 0 真实结果： 0 预测结果： 0 真实结果： 0 预测结果： 2 真实结果： 2 预测结果： 2 真实结果： 2 预测结果： 1 真实结果： 1

上面文章《决策树模型(一)理论》中，已详细介绍了决策树原理，包括决策树生长原理，决策树的特征选择原理，决策树剪枝策略以及决策树处理缺失值原理等等。如果您还没有阅读，可点击跳转，或关注公众号获取文章详情。

本文将继决策树理论后，通过实际的案例应用，加深对决策树工作原理的理解。本文直接使用sklearn中决策树模型，sklearn自带的红酒数据集作为数据源。「本文字数8253」

导入本次实例子所需要的python包

读者可联系笔者免费获取数据集。

调节参数 max_depth ，并查看模型拟合情况

机器学习 | 决策树模型(一)理论