Cyan's Blog

Search

Search IconIcon to open search

D2L-25-让训练更加稳定-Xavier初始化

Last updated Feb 18, 2022 Edit Source

# 让训练更加稳定

2022-02-18

Tags: #DeepLearning

# 要点

# 改进方向

# 梯度归一化

目标: 我们可以将每层的输出 $h_i^s$ 和梯度 $\frac{\partial \ell}{\partial h_{i}^{s}}$ 都看做随机变量, 通过让它们的均值和方差都保持一致, 实现对梯度的归一化 $$\begin{gathered} \text{正向:}\quad\mathbb{E}\left[h_{i}^{s}\right]=0 \quad \operatorname{Var}\left[h_{i}^{s}\right]=a \\\ \text{反向:}\quad\mathbb{E}\left[\frac{\partial \ell}{\partial h_{i}^{s}}\right]=0 \quad \operatorname{Var} \left[\frac{\partial \ell}{\partial h_{i}^{s}}\right]=b \quad \forall i, s\end{gathered}$$ 其中 $a,b$ 均为常数.

# 权重初始化

# Xavier初始化1

Xavier初始化的详细例子

# 损失函数的选择


  1. 它以其提出者 Glorot & Bengio, 2010 第一作者的名字命名 ↩︎