《Python Machine Learning By Example》 Third Edition 第五章笔记

文章目录

1 本章内容介绍2 逻辑回归原理3 带正则化的逻辑回归

1 本章内容介绍

通过本章我们可以学习到:

逻辑函数与逻辑回归原理梯度下降带正则化的逻辑回归(L1,L2)特征选择

2 逻辑回归原理

仅能处理离散型数据,所以在模型的训练之前,要数据集内对类别型的特征进行编码,可以使用scikit-learn库的OneHotEncoder或者DictVectorizer来实现。当测试集内出现新的特征时,它将被忽略。顺序型的编码其实也有一定作用,比如当特征之间有大小(顺序)关系时,就可以采用这种编码。 模型建立:

逻辑回归模型本质上是条件概率分布。分为二项逻辑回归和多项逻辑回归。

模型策略:

应用极大似然估计法,损失函数最大最优。 MSE损失函数非凸,容易陷入局部最小值,因此这里使用交叉熵损失,而乘积形式的损失函数容易导致计算下溢,而对数形式的交叉熵损失函数为凸函数,且可以写成累加的形式,计算方便。 故损失函数为:

训练算法(参数估计):

对损失函数求极大值,即可得到参数w的估计值。 具体算法为梯度下降法,朝着负梯度方向进行更新,用得较多的是stochastic gradient descent (SGD,随机梯度下降)。

预测时,比较条件概率的大小,取概率值最大的类别。 逻辑回归模型的可扩展性很强,可以使用在线学习,即数据集是不断在动态变化着的,当有新的数据集到来时,模型不必重新训练,而是在之前基础上利用新到来的数据集进行训练,适用于数据不断产生(如股票价格预测)或海量数据的情况(无法一次性加载完)。

3 带正则化的逻辑回归

有L1和L2两种正则化,都是通过先验知识来限制参数(惩罚),区别在于是否需要进行特征选择。L2正则化不允许有较大或较小的参数出现,而L1正则化允许部分参数值较大,而其余为0或接近于0,以达到特征选择的目的。随机森林也能进行特征选择,因为每棵树每次递归时会选择最优特征,且有部分特征被抛弃,那么将所有树视为整体,选中次数最多的特征即较为重要的特征。

参考链接

评论可见,请评论后查看内容,谢谢!!!评论后请刷新页面。