Cross_Entropy-交叉熵
# Cross Entropy - 交叉熵
Tags: #InformationTheory #DeepLearning
# Intuition
熵是编码一个事件所需要的最短平均长度
而交叉熵则是一种特殊情况下编码的平均最短长度: 事件真实的概率分布是 , 但是我们以为事件的分布是 .
- 因此, 交叉熵可以看作每个信息片段在错误分布 下的期望编码位长度,而信息实际分布为 。这就是期望 $\operatorname{E}ppq$ 的原因.1 $$\begin{aligned} H(p, q)&=\sum{x_{i}} p\left(x_{i}\right) \log \frac{1}{q\left(x_{i}\right)} \\ &=-\sum_{x} p(x) \log q(x) \end{aligned}$$
# Formal Definition
在指定集合下, 分布 相对于分布 的交叉熵定义如下: 其中符号 的含义是 相对于分布 的期望值.
交叉熵的定义也可以从 KL散度
KL_Divergence-KL散度
Kullback–Leibler divergence 2022-02-11 Tags: #Math/Probability #DeepLearning KL散度可以衡量两个概率分布之间的相似性 KL散度也称为相对熵 - Wikipedia: In mathematical statistics, the Kullback–Leibler divergence, ...
Entropy-熵
Entropy - 熵 2022-02-11 Tags: #InformationTheory 理解 熵是Surprise的期望 Entropy (for data science) Clearly Explained!!! - YouTube 熵是对事件复杂度的衡量, 即我们最少需要多少信息才能完整地描述这个事件 Intuitively Understanding the Shannon Entropy - YouTube 换句话说, 熵的大小是编码一个随机事件所需要的最短平均编码长度 联系: ...
对于离散分布 和 : 2
# 性质
交叉熵不是对称的: i.e.
- KL散度也不是对称的
- 尽管不是对称的,但是无论是 还是 其实都可以作为概率相似程度的衡量标准
交叉熵是非负的: 其中
# 交叉熵: 作为损失函数
交叉熵是怎样衡量输出和真实值的差别的呢? 交叉熵作为损失函数
在作为损失函数的时候, 构成交叉熵的概率分布为:
真实分布:
模型输出:
作为损失函数, 交叉熵的作用是 衡量模型输出与真实值的差距, 作为优化算法的优化对象, 还需要尽量简洁, 减少训练模型的开销.
为什么交叉熵可以衡量输出与真实值的差别?
我们由KL_Divergence一节知道, KL散度可以作为衡量两个分布差距的指标: KL散度越接近0, 两个分布的相似度越高.
我们可以证明: 最小化 的过程, 就是最小化 的过程:
证明视频阐述得非常好...D2L-14-Cross Entropy as Loss
# Cross Entropy in Neural Networks
- 在
Softmax回归
D2L-13-Softmax_Regression
Softmax 回归 2022-02-11 Tags: #SoftmaxRegression #MachineLearning #Classification #MulticlassClassification Softmax回归解决的是多分类问题, 它可以看作是二分类的Logistic_Regression.md)的推广. Softmax函数 Softmax回归 Softmax回归就是在线性回归的基础上套上一个Softmax函数, 取输出结果中概率最大的项作为预测结果. 交叉熵作为损失函数 D2L-14-Cross Entropy as Loss Softmax and Argmax 不像Softmax输出K个概率值, Argmax函数直接将输入向量里面最大的元素设置为1, 其他均置为0. Argmax常常用于输出预测结果, 但是Argmax有个很严重的缺点: 它的结果没法用于反向传播优化参数: (因为它要么不可导要么导数为0) 解释:...
One-hot_Encoding-独热编码
独热编码 One-hot Encoding 2022-02-09 Tags: #One-hot #DeepLearning #Encoding $$\begin{array}{ll} apple &=\quad [\space 1\quad 0\quad 0\space ] \\ ...
交叉熵 - 维基百科,自由的百科全书 Cross entropy - Wikipedia 详解机器学习中的熵、条件熵、相对熵和交叉熵 - 知乎 ↩︎
其中 指的是测度论里面的"支撑集". Reference: Support (measure theory) - Wikipedia ↩︎