1. 特征工程是什么?有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面
逻辑回归的基本概念:这个最好从广义线性模型的角度分析,逻辑回归是假设y服从Bernoulli分布。其实稀疏的根本还是在于L0-norm也就是直接统计参数不为0的个数作为规则项,但实际上却不好执行于是引入了L1-norm;而L1norm本质上是假设参数先验是服从Laplace分布的,而L2-norm是假设参数先验为Gaussian分布,我们在网上看到的通常用图像来解答这个问题的原理就在这。
相同点:都是由多棵树组成,最终的结果都是由多棵树一起决定。不同点:a 组成随机森林的树可以分类树也可以是回归树,而GBDT只由回归树组成;b 组成随机森林的树可以并行生成,而GBDT是串行生成c 随机森林的结果是多数表决表决的,而GBDT则是多棵树累加之和;d 随机森林对异常值不敏感,而GBDT对异常值比较敏感。
线性和非线性是针对,模型参数和输入特征来讲的。比如输入x,模型y=ax+ax^2那么就是非线性模型,如果输入是x和X^2则模型是线性的。
判别方法:由数据直接学习决策函数 Y = f(X),或者由条件分布概率 P(Y|X)作为预测模型,即判别模型。生成方法:由数据学习联合概率密度分布函数 P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。 由生成模型可以得到判别模型,但由判别模型得不到生成模型。