Python 决策树的生成算法介绍-千锋教育

校区

首页课程师资教程资讯关于

校区精品课程

互联网前瞻热门课程从入门到成神

鸿蒙生态开发 HTML5培训 Java培训 Python培训云计算培训软件测试培训网络安全培训大数据培训物联网培训 Unity培训全媒体营销培训影视剪辑培训游戏原画培训区块链培训商业插画培训产品经理培训

全国旗舰校区

不同学习城市同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口 +

培训课程
师资团队
关于千锋

培训机构
面试题
就业前景

零基础学IT

当前位置：首页 > 技术干货

Python 决策树的生成算法介绍

发布时间:2023-11-07 23:06:24

发布人:xqq

划分数据集的最大原则是：使无序的数据变的有序。如果一个训练数据中有20个特征，那么选取哪个做划分依据?这就必须采用量化的方法来判断，量化划分方法有多重，其中一项就是“信息论度量信息分类”。基于信息论的决策树算法有ID3、CART和C4.5等算法，其中C4.5和CART两种算法从ID3算法中衍生而来。

决策树的生成算法由很多变形，这里简单说一下几种经典的实现算法：ID3算法，C4.5算法和CART算法。这些算法的主要区别在于分类结点熵特征选择的选取标准不同，下面了解一下算法的具体实现过程。

一：ID3算法

ID3算法所采用的度量标准就是我们前面提到的“信息增益”。当属性a的信息增益最大时，则意味着用a属性划分，其所获得的“纯度”提升最大，我们所要做的，就是找到信息增益最大的属性。

ID3算法的核心是在决策树的各个节点上应用信息增益准则进行特征选择，具体的做法是：

从根节点上开始，对结点计算所有可能特征的信息增益，选择信息增益最大的特征作为结点的特征，并由该特征的不同取值构建子节点;

对于子节点递归的调用以上方法，构建决策树;

直到所有特征的信息增益均很小或者没有特征可选择的时候为止。

ID3算法具体的算法过程如下：

输入的是m个样本，样本输出集合为D，每个样本有n个离散特征，特征集合为A，输出为决策树T。

1，初始化信息增益的阈值€

2，判断样本是否为同一类输出Di，如果是则返回单节点树T，标记类别为Di

3，判断特征是否为空，如果是则返回单节点树T，标记类别为样本值红输出类别D实例数最多的类别

4，计算A中的各个特征(一共n个)对输出D的信息增益，选择信息增益最大的特征Ag

5，如果Ag的信息增益小于阈值€，则返回单节点树T，标记类别为样本中输出类别D实例树最多的类别

6，否则，按特征Ag的不同取值Agi将对应的样本输出D分成不同的类别Di，每个类别产生一个子节点。对应特征为Agi，返回增加了节点的数T

7，对于所有的子节点，令D=Di，A=A-{Ag}递归调用2~6步，得到子树Ti并返回

ID3算法存在的缺点：

1.ID3算法在选择根节点和内部节点中的分支属性时，采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多是属性，在有些情况下这类属性可能不会提供太多有价值的信息。

2.ID3算法只能对描述属性为离散型属性的数据集构造决策树。

3.ID3算法对于缺失值的情况没做考虑。

4.没有考虑过拟合的问题。

以上内容为大家介绍了Python决策树的生成算法介绍，希望对大家有所帮助，如果想要了解更多Python相关知识，请关注 IT培训机构:千锋教育。

python培训

上一篇Python C4.5算法

下一篇Python 决策树算法思想

相关文章

Python NumPy

Python NumPy

Python 函数内变量的作用域

Python 函数内变量的作用域

Python 内嵌函数和闭包

Python 内嵌函数和闭包

Python 递归函数

Python 递归函数

最新文章

武汉新媒体行业公司排名

武汉新媒体行业公司排名

武汉新媒体就业现状好吗

武汉新媒体就业现状好吗

武汉全媒体行业发展现状及趋势

武汉全媒体行业发展现状及趋势

武汉全媒体现状

武汉全媒体现状

热门频道

IT培训机构

培训费用、培训周期你关心的都有

就业前景

学会能干什么，IT培训就业前景介绍

零基础学习

零基础学习IT，大神也是零基础起步

面试题

常见经典面试题及答案解析

千锋问问

搜集常见技术关键点，高效答疑

网站地图

明晰网站布局，快速定位学习内容

在线咨询免费试学教程领取