0%

机器学习与人工智能技术分享-第三章 机器学习中的统一框架

本章介绍了机器学习中一些“上帝视角”,包括对目标函数的理解、统一的神经网络框架等。

3. 机器学习中的统一框架

很多机器学习问题都可以放在一个统一框架下讨论,这样大家在理解各种模型时就是相互联系的。

3.1 目标函数

回忆一下目标函数的定义:

w=argminwi=1NL(mi(w))Bias+λReg(w)Variance

很多模型可以用这种形式框起来,比如linear regression、logistic regression、SVM、additive models、k-means,neural networks 等等。其中损失函数部分用来控制模型的拟合能力,期望降低偏差,正则项部分用来提升模型泛化能力,期望降低方差,最优模型是对偏差和方差的最优折中。

3.1.1 损失函数

损失函数反应了模型对历史数据的学习程度,我们期望模型能尽可能学到历史经验,得到一个低偏差模型。

Q:大家想想横坐标是什么?

0-1 loss: L01(mi(w))=⨿(mi(w)0)squared loss: L2(mi(w))=12(mi(w)1)2hinge loss: Lhinge(mi(w))=max(0,1mi(w))log loss: Llog(mi(w))=log(1+emi(w))where m is called 'margin'.

实践当中很少直接使用0-1损失做优化(当然也有这么用的如:Direct 0-1 Loss Minimization and Margin Maximization with BoostingAlgorithms for Direct 0–1 Loss Optimization in Binary Classification,但总的来说应用有限),原因如下:

  • 0-1损失的优化是组合优化问题且为NP-hard,无法在多项式时间内求得;
  • 损失函数非凸非光滑,很多优化方法无法使用;
  • 对权重的更新可能会导致损失函数大的变化,即变化不光滑;
  • 只能使用L0正则,其他正则形式都不起作用;
  • 即使使用L0正则,依然是非凸非光滑,优化求解困难。

由于0-1损失的问题,所以以上损失函数都是对它的近似。原理细节可以参考:Understanding Machine Learning: From Theory to Algorithms

不同损失函数在相同数据集下的直观表现如下:

3.1.2 正则化项

正则化项影响的是模型在未知样本上的表现,我们希望通过它能降低模型方差提高泛化性。

如果有数据集:

D={(xi,yi)|i=1,2,3,...N} 在给定假设下,通常采用极大似然估计(MLE)求解参数:

w=argminwi=1Np(yi|xi;w)=argminwi=1Nlog p(yi|xi;w)

假设模型参数也服从某种概率分布: wp(w), 可以采用极大后验概率估计(MAP)求解参数。 w=argminwi=1Np(w|xi,yi)    =argminwi=1Nlog p(w|xi,yi)    =argminwi=1Nlog p(xi,yi|w)p(w)    =argminwi=1Nlog p(xi,yi|w)log p(w)    ={generative modelargminwi=1N[log p(xi,yi|w)Biaslog p(w)Variance]discriminative modelargminwi=1N[log p(yi|xi;w)Biaslog p(w)Variance]

3.1.3 L2 正则

假设 wjN(0,δj2) p(wj)=12πδew22δ2Reg(w)=i=1mwi2, m is the number of weights.

3.1.4 L1 正则

假设 wjLaplace(0,bj)

p(wj)=12be|wj|bReg(w)=i=1m|wi|, m is the number of weights.

3.1.5 正则化的几何解释

L1 and L2 Regularization

给定向量w=(w1,...,wn), 定义 Lq正则,其中 n>0

wq=i=1n|wi|qqwhen q=0 we define l0-norm to be the number of non-zero elements of the vector:w0=# (i|xi0)

不同q的取值下正则项的几何表现如下:
from wiki

3.1.6 Dropout正则化与数据扩充

这两类方法在神经网络中比较常用,后面会专门介绍。

3.2 神经网络框架

很多模型可以看做是神经网络,例如:感知机、线性回归、支持向量机、逻辑回归等

3.2.1 Linear Regression

线性回归可以看做是激活函数为f(x)=x的单层神经网络:

3.2.2 Logistic Regression

逻辑回归可以看做是激活函数为f(x)=11+ex的单层神经网络:

3.2.3 Support Vector Machine

采用核方法后的支持向量机可以看做是含有一个隐层的3层神经网络:

3.2.4 Bootstrap Neural Networks

采用bagging方式的组合神经网络:

3.2.5 Boosting Neural Network

采用boosting方式的组合神经网络:

欢迎关注我的其它发布渠道

表情 | 预览
快来做第一个评论的人吧~
Powered By Valine
v1.3.10