Deep Learning 17 优化目标

[TOC]

优化目标

概念区分

1、整体理解:损失函数,代价函数,目标函数,熵=>都是最优化问题下的的优化目标,通过设定优化目标获取最优化问题的最优解

2、设计原理:为什么要设计这样的优化目标

  • 用交叉熵的原因,交叉熵和KL散度的关系
  • 用平方损失的原因,平方损失和最大似然的关系
  • 添加正则子的原因,为什么能添加这样的正则子

回归问题

平方「Square」

平方根「Square Root」

分类问题-熵「Entropy」

与熵相关的为信息论相关内容

熵「Entropy」

信息量

事件A的自信息量,A这个事件包含了多少信息

$s(x)=\sum_{i}P_A(x_i)log(P_A(x_i))\$

验证:

交叉熵「Cross Entropy」

分类问题-二分类,对数似然

事件AB,从A的角度看,如何描述B

信息论公式:

$H(A,B)=-\sum_{i}P_A(x_i)log(P_B(x_i))\$

对于样本集上的数据,两种表达形式,单个样本Loss & 整个样本集然后除样本数Cost

Loss => $L=yln\hat{y}+(1-y)ln(1-\hat{y})$​

Cost => $C=-\frac{1}{n}\sum_{x}^{}[yln\hat{y}+(1-y)ln(1-\hat{y}]\$

验证:当真实$y=1$,如果$\hat{y}$越接近1,则损失函数Loss越小;如果$\hat{y}$越接近0,则损失函数Loss越大。因而达到忘Loss损失函数变小的方向变化。(当真实$y=0$亦然,看下图左边是$y=1$的情况,右边是$y=0$的情况)

imgimg

多分类交叉熵「Categorical Cross Entropy」

分类问题-多分类,对数似然

相对熵「Relative Entropy」

衡量两个分布的不同

事件AB,从A的角度看,B有多大不同

$D_{KL}(A|B)=\sum_{i}P_A(x_i)log(P_A(x_i))-\sum_{i}P_A(x_i)log(P_B(x_i))\$ (对于离散事件是求和,对于连续事件是求积分)

相对熵包含了交叉熵的内容,$D_{KL}(A|B)=\sum_{i}P_A(x_i)log(P_A(x_i))-\sum_{i}P_A(x_i)log(P_B(x_i))=s(A)+H(A,B)\$,也就是相对熵=坐标系自己的熵+交叉熵

验证:由于坐标系选取不同,对于事件A和事件B,从A的角度看,$D_{KL}(A|B)\neq D_{KL}(B|A)$

交叉熵VS相对熵/KL散度

一般情况下,都用交叉熵,不用KL散度。

首先理解分类问题的目标 =>看模型学习到的分布P(model)和真实分布P(real)是否接近 =>看模型学习到的分布P(model)和训练数据P(training)的分布是否接近 =>因而可以用KL散度来进行计算$D_{KL}(P(training)|P(model))$ =>将KL散度进行展开$D_{KL}(P(training)|P(model))=s(P(training))+H(P(training),P(model))$ =>由于训练数据固定,那么对应的训练数据的熵也是不变的,所以$D_{KL}$等价于交叉熵,而因为交叉熵方便计算,所以一般都使用交叉熵

Posted on Jan 29, 2020