当前位置: 首页 > 情怀

小胖的深度学习之旅一0002 机器学习决策树笔记（一）|每日动态

2023-06-22 17:01:11 来源：哔哩哔哩

推荐去看菜菜的sklearn

决策树

核心算法参数：criterion 不不纯度（一般来说不纯度越低，决策树对训练集的拟合越好）

【资料图】

输入”entropy“，使用信息熵（Entropy）

输入”gini“，使用基尼系数（Gini Impurity）

推导公式：p(i/t) 代表标签分类i在节点t上所占的比例,c总样本数

边角料参数：max_depth、min_samples_leaf & min_samples_split、max_features & min_impurity_decrease

误差衡量：使用均方误差mean squared error(MSE)、使用费尔德曼均方误差、"使用绝对平均误差MAE

下面是MSE均方误差的推到公式N样本个数 fi为实际值，yi为预测值；

tips：误差的本身用于衡量算法和训练后模型的好坏。

调参心得（非数据预处理）：随机种子，不纯度算法，树深，剪枝

决策树优点（下面的话摘抄至原文）

易于理解和解释，因为树木可以画出来被看见

需要很少的数据准备。其他很多算法通常都需要数据规范化，需要创建虚拟变量并删除空值等。但请注意，sklearn中的决策树模块不支持对缺失值的处理。

使用树的成本（比如说，在预测数据的时候）是用于训练树的数据点的数量的对数，相比于其他算法，这是一个很低的成本。

能够同时处理数字和分类数据，既可以做回归又可以做分类。其他技术通常专门用于分析仅具有一种变量类型的数据集。

能够处理多输出问题，即含有多个标签的问题，注意与一个标签中含有多种标签分类的问题区别开

是一个白盒模型，结果很容易能够被解释。如果在模型中可以观察到给定的情况，则可以通过布尔逻辑轻松解释条件。相反，在黑盒模型中（例如，在人工神经网络中），结果可能更难以解释。

可以使用统计测试验证模型，这让我们可以考虑模型的可靠性。

即使其假设在某种程度上违反了生成数据的真实模型，也能够表现良好。

决策树的缺点

决策树学习者可能创建过于复杂的树，这些树不能很好地推广数据。这称为过度拟合。修剪，设置叶节点所需的最小样本数或设置树的最大深度等机制是避免此问题所必需的，而这些参数的整合和调整对初学者来说会比较晦涩

决策树可能不稳定，数据中微小的变化可能导致生成完全不同的树，这个问题需要通过集成算法来解决。

决策树的学习是基于贪婪算法，它靠优化局部最优（每个节点的最优）来试图达到整体的最优，但这种做法不能保证返回全局最优决策树。这个问题也可以由集成算法来解决，在随机森林中，特征和样本会在分枝过程中被随机采样。

有些概念很难学习，因为决策树不容易表达它们，例如XOR，奇偶校验或多路复用器问题。

如果标签中的某些类占主导地位，决策树学习者会创建偏向主导类的树。因此，建议在拟合决策树之前平衡数据集。

关键词：

上一篇下一篇

精彩推荐

推荐阅读

小胖的深度学习之旅一0002 机器学习决策树笔记（一）|每日动态
2023-06-22
当前头条：失联潜水器“泰坦”号氧气供应不足10小时，“全球最精密设备”正赶往救援
2023-06-22
这座千年古村里有了天文馆——钱塘江源头开化县乡村走访记
2023-06-22
给包装“瘦身”，助力绿色消费
2023-06-22
头条焦点：金兰之好的近义词_金兰之好
2023-06-22
天天热门:持续强降雨致武夷山景区暂时闭园福建紧急响应
2023-06-22
每日热讯!大雨中校长毕业典礼致辞：只念了标题为了让学生少淋雨
2023-06-22
“千万工程”调研行丨这座千年古村里有了天文馆——钱塘江源头开化县乡村走访记世界滚动
2023-06-22
世界新资讯：神功皇后（关于神功皇后介绍）
2023-06-22
neglect_neg-环球关注
2023-06-22
天天微头条丨43岁港星欧倩怡硕士逆袭
2023-06-22
因预告差点错过的5部好剧，全看过的说明你慧眼识珠今日热讯
2023-06-22
泛海控股连续十二个月累计涉诉金额约6.548亿元占净资产11.99%
2023-06-22
全球资讯：iQOO 11 Pro 618会降价吗
2023-06-22
重做系统怎么做_重做系统
2023-06-22
回乡偶书二首诗意和写作背景（回乡偶书二首诗意）
2023-06-22
juice sh juice时尚
2023-06-22
快讯：WHY？巴萨选择签32岁京多安，而不签35岁梅西，你怎么看？
2023-06-22
全球热文：粽香端午话传承邻里和谐一家亲
2023-06-22
炎亚纶代言纷纷解约损失千万,江疏影曾经的评价一语中的,很实在_每日快播
2023-06-22
一不小心被油到了...这部剧还是藏好吧世界热讯
2023-06-22
世界热点！腾讯游戏_玫瑰小镇魔杖任务怎么做
2023-06-22
日本品牌服装有哪些（日本品牌服装）天天最资讯
2023-06-22
金汇得手：黄金1919企稳上涨今日主多辅空操作
2023-06-22
2023年健康中国行暨青海省第二十三届健康教育万里行活动启动
2023-06-22

x 广告

旅游

户外

河南艺考生请注意！这份备考提醒请查收 2023-03-08
【河南青年网评大赛】以人才的澎湃活力激荡人才强豫走向新高 2023-03-08
图说 | 河南14条高速公路集中通车经过你家乡吗？ 2023-03-08
河声：守好粮食关，谱写“三农”工作新篇章 2023-03-08
河声：争做新时代忠诚干净担当的高素质青年干部 2023-03-08
河南省三八红旗手社会化推荐评选启动 2023-03-08

露营

沈阳公开发放三孩育儿补贴实施方案三孩每月发放500元育儿补贴

沈阳公开发放三孩育儿补贴实施方案三孩每月发放500元育儿补贴

梨园街道打造“梨小二”智慧治理服务平台打通服务群众的“神经末梢”

梨园街道打造“梨小二”智慧治理服务平台打通服务群众的“神经末梢”

暴雨突袭常州 7名患者半夜被蛇虫咬醒

暴雨突袭常州 7名患者半夜被蛇虫咬醒

30余人滞留！2023年水下隧道应急演练在太湖隧道举办

30余人滞留！2023年水下隧道应急演练在太湖隧道举办

100万保时捷“帕纳梅拉”撞翻路边标志牌为什么也要逃逸？

100万保时捷“帕纳梅拉”撞翻路边标志牌为什么也要逃逸？

自驾

x 广告