Deep Learning 17 优化目标

[TOC]

优化目标

概念区分

1、整体理解：损失函数，代价函数，目标函数，熵=>都是最优化问题下的的优化目标，通过设定优化目标获取最优化问题的最优解

2、设计原理：为什么要设计这样的优化目标

用交叉熵的原因，交叉熵和KL散度的关系
用平方损失的原因，平方损失和最大似然的关系
添加正则子的原因，为什么能添加这样的正则子

回归问题

平方「Square」

平方根「Square Root」

分类问题-熵「Entropy」

与熵相关的为信息论相关内容

熵「Entropy」

信息量

事件A的自信息量，A这个事件包含了多少信息

$s(x)=\sum_{i}P_A(x_i)log(P_A(x_i))\$

验证：

交叉熵「Cross Entropy」

分类问题-二分类，对数似然

事件AB，从A的角度看，如何描述B

信息论公式：

$H(A,B)=-\sum_{i}P_A(x_i)log(P_B(x_i))\$

对于样本集上的数据，两种表达形式，单个样本Loss & 整个样本集然后除样本数Cost

Loss => $L=yln\hat{y}+(1-y)ln(1-\hat{y})$

Cost => $C=-\frac{1}{n}\sum_{x}^{}[yln\hat{y}+(1-y)ln(1-\hat{y}]\$

验证：当真实$y=1$，如果$\hat{y}$越接近1，则损失函数Loss越小；如果$\hat{y}$越接近0，则损失函数Loss越大。因而达到忘Loss损失函数变小的方向变化。（当真实$y=0$亦然，看下图左边是$y=1$的情况，右边是$y=0$的情况）

多分类交叉熵「Categorical Cross Entropy」

分类问题-多分类，对数似然

相对熵「Relative Entropy」

衡量两个分布的不同

事件AB，从A的角度看，B有多大不同

$D_{KL}(A|B)=\sum_{i}P_A(x_i)log(P_A(x_i))-\sum_{i}P_A(x_i)log(P_B(x_i))\$ （对于离散事件是求和，对于连续事件是求积分）

相对熵包含了交叉熵的内容，$D_{KL}(A|B)=\sum_{i}P_A(x_i)log(P_A(x_i))-\sum_{i}P_A(x_i)log(P_B(x_i))=s(A)+H(A,B)\$，也就是相对熵=坐标系自己的熵+交叉熵

验证：由于坐标系选取不同，对于事件A和事件B，从A的角度看，$D_{KL}(A|B)\neq D_{KL}(B|A)$

交叉熵VS相对熵/KL散度

一般情况下，都用交叉熵，不用KL散度。

首先理解分类问题的目标 =>看模型学习到的分布P(model)和真实分布P(real)是否接近 =>看模型学习到的分布P(model)和训练数据P(training)的分布是否接近 =>因而可以用KL散度来进行计算$D_{KL}(P(training)|P(model))$ =>将KL散度进行展开$D_{KL}(P(training)|P(model))=s(P(training))+H(P(training),P(model))$ =>由于训练数据固定，那么对应的训练数据的熵也是不变的，所以$D_{KL}$等价于交叉熵，而因为交叉熵方便计算，所以一般都使用交叉熵

Posted on Jan 29, 2020