哪些机器学习算法不需要做归一化处理-千锋教育

哪些机器学习算法不需要做归一化处理

发布时间:2022-09-07 17:15:29

发布人:syq

　　在实际应用中，需要归一化的模型：

　　基于距离计算的模型：KNN。

　　通过梯度下降法求解的模型：线性回归、逻辑回归、支持向量机、神经网络。

　　但树形模型不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、随机森林(Random Forest)。

　　树形结构为什么不需要归一化？

　　因为数值缩放不影响分裂点位置，对树模型的结构不造成影响。

　　按照特征值进行排序的，排序的顺序不变，那么所属的分支以及分裂点就不会有不同。而且，树模型是不能进行梯度下降的，因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的，因此树模型是阶跃的，阶跃点是不可导的，并且求导没意义，也就不需要归一化。

　　在k-means或kNN，我们常用欧氏距离来计算最近的邻居之间的距离，有时也用曼哈顿距离，请对比下这两种距离的差别欧氏距离，最常见的两点之间或多点之间的距离表示法，又称之为欧几里得度量，它定义于欧几里得空间中。

　　数据归一化(或者标准化，注意归一化和标准化不同)的原因

　　能不归一化最好不归一化，之所以进行数据归一化是因为各维度的量纲不相同。而且需要看情况进行归一化。

　　有些模型在各维度进行了不均匀的伸缩后，最优解与原来不等价(如SVM)需要归一化。有些模型伸缩有与原来等价，如：LR则不用归一化，但是实际中往往通过迭代求解模型参数，如果目标函数太扁(想象一下很扁的高斯模型)迭代算法会发生不收敛的情况，所以最好进行数据归一化。

上一篇泛型类如何定义使用

下一篇请简要说说一个完整机器学习项目的流程

scrum master的核心竞争力是什么?

什么项目适合使用Scrum?

scrum敏捷软件开发是什么?

敏捷BI和传统BI有什么区别?

校区精品课程

互联网前瞻热门课程从入门到成神

全国旗舰校区