推荐去看菜菜的sklearn
核心算法参数:criterion 不不纯度(一般来说不纯度越低,决策树对训练集的拟合越好)
【资料图】
输入”entropy“,使用信息熵(Entropy)
输入”gini“,使用基尼系数(Gini Impurity)
推导公式:p(i/t) 代表标签分类i在节点t上所占的比例,c总样本数
边角料参数:max_depth、min_samples_leaf & min_samples_split、max_features & min_impurity_decrease
误差衡量:使用均方误差mean squared error(MSE)、使用费尔德曼均方误差、"使用绝对平均误差MAE
下面是MSE均方误差的推到公式N样本个数 fi为实际值,yi为预测值;
tips:误差的本身用于衡量算法和训练后模型的好坏。
调参心得(非数据预处理):随机种子,不纯度算法,树深,剪枝
决策树优点 (下面的话摘抄至原文)
易于理解和解释,因为树木可以画出来被看见
需要很少的数据准备。其他很多算法通常都需要数据规范化,需要创建虚拟变量并删除空值等。但请注意,sklearn中的决策树模块不支持对缺失值的处理。
使用树的成本(比如说,在预测数据的时候)是用于训练树的数据点的数量的对数,相比于其他算法,这是一个很低的成本。
能够同时处理数字和分类数据,既可以做回归又可以做分类。其他技术通常专门用于分析仅具有一种变量类型的数据集。
能够处理多输出问题,即含有多个标签的问题,注意与一个标签中含有多种标签分类的问题区别开
是一个白盒模型,结果很容易能够被解释。如果在模型中可以观察到给定的情况,则可以通过布尔逻辑轻松解释条件。相反,在黑盒模型中(例如,在人工神经网络中),结果可能更难以解释。
可以使用统计测试验证模型,这让我们可以考虑模型的可靠性。
即使其假设在某种程度上违反了生成数据的真实模型,也能够表现良好。
决策树的缺点
决策树学习者可能创建过于复杂的树,这些树不能很好地推广数据。这称为过度拟合。修剪,设置叶节点所需的最小样本数或设置树的最大深度等机制是避免此问题所必需的,而这些参数的整合和调整对初学者来说会比较晦涩
决策树可能不稳定,数据中微小的变化可能导致生成完全不同的树,这个问题需要通过集成算法来解决。
决策树的学习是基于贪婪算法,它靠优化局部最优(每个节点的最优)来试图达到整体的最优,但这种做法不能保证返回全局最优决策树。这个问题也可以由集成算法来解决,在随机森林中,特征和样本会在分枝过程中被随机采样。
有些概念很难学习,因为决策树不容易表达它们,例如XOR,奇偶校验或多路复用器问题。
如果标签中的某些类占主导地位,决策树学习者会创建偏向主导类的树。因此,建议在拟合决策树之前平衡数据集。