Tag: allApr 18, 2022D2L-59-双向循环神经网络 D2L-59-双向循环神经网络 Bidirectional Recurrent Neural Networks 2022-04-18 Tags: #RNN #DeepLearning #BidirectionalRNN 双向神经网络增加了反向扫描的隐藏层, 使网络拥有了"前瞻能力" 正向层和反向层的输入是相同的, 是并行进行的, 最后正向和反向的结果一起生成输出. 在D2L教程里面将正向反向扫描的过程和隐马尔科夫模型动态规划的正向与反向传递进行了类比: 这种转变集中体现了现代深度网络的设计原则: 首先使用经典统计模型的函数依赖类型,然后将其参数化为通用形式。 形式化定义 对于任意时间步 ttt,对于一个批量的输入 Xt∈Rn×d\mathbf{X}_t \in \mathbb{R}^{n \times d}Xt∈Rn×d(nnn 为样本数,ddd... 11/19/2023 AllRNNDeepLearningBidirectionalRNNApr 18, 2022凸组合 - Convex Combination 凸组合 - Convex Combination Convex Combination 2022-04-18 Tags: #NonlinearProgreamming #Math #ConvexCombination A convex combination of points x(1),x(2),…,x(k)∈Rn\mathbf{x}^{(1)}, \mathbf{x}^{(2)}, \ldots, \mathbf{x}^{(k)} \in \mathbb{R}^{n}x(1),x(2),…,x(k)∈Rn is a "weighted... 11/19/2023 AllNonlinearProgreammingMathConvexCombinationApr 12, 2022前馈神经网络(Feedforward neural network) 前馈神经网络(Feedforward neural network) 前馈神经网络: Feedforward Neural Network 2022-04-12 Tags: #FeedforwardNeuralNetwork 多层前馈神经网络的结构如下图所示: 每层神经元与下一层神经元全部互连 同层神经元之间不存在连接 跨层神经元之间也不存在连接 ... 11/19/2023 AllFeedforwardNeuralNetworkApr 3, 2022D2L-56-门控循环单元GRU D2L-56-门控循环单元GRU Gated Recurrent Units (GRU) 2022-04-03 Tags: #GRU #RNN #DeepLearning GRU在RNN的基础上添加了"门"(Gate), 针对性地解决了RNN里面存在的以下问题: 长期依赖问题: 序列早期的部分可能对未来所有观测值都有非常重要的影响, 我们需要能够保留序列早期信息的网络结构. GRU里面体现在: 重置门减少重置, 更新门更多地保留上一个隐状态 序列里面可能有干扰信息, 我们需要能够跳过(遗忘)这些信息的机制 GRU里面体现在: 更新门更多地保留上一个隐状态 序列里面可能有逻辑中断, 比如一本书里面章节的变化往往会导致主题的变化. 我们需要有重置网络状态的机制. GRU里面体现在: 重置门屏蔽掉上一个隐状态 Gated... 11/19/2023 AllGRURNNDeepLearningApr 3, 2022Latex White Spaces Latex White Spaces Latex 里面的空格 2022-04-03 Tags: #Latex There are a number of horizontal spacing macros for LaTeX : \, inserts a .16667em space in... 11/19/2023 AllLatexApr 2, 2022D2L-54-Gradient Clipping-梯度剪裁 D2L-54-Gradient Clipping-梯度剪裁 Gradient Clipping 2022-04-02 Tags: #GradientClipping 梯度剪裁是预防梯度爆炸的一种方法, 它直接给梯度设置一个上限. g←min(1,θ∥g∥)g\mathbf{g} \leftarrow \min \left(1, \frac{\theta}{\|\mathbf{g}\|}\right) \mathbf{g}g←min(1,∥g∥θ)g 上面的写法有点绕, 因为为了保持梯度 g\mathbf{g}g 的方向不变, 剪裁时需要作用于 g\mathbf{g}g 的每一个分量, 整体上来说其实就是: $$\mathbf{g} \leftarrow \min \left(\|\mathbf{g}\|,... 11/19/2023 AllGradientClippingApr 2, 2022D2L-55-在时间上反向传播 D2L-55-在时间上反向传播 Backpropagation Through Time 2022-04-02 Tags: #Backpropagation #RNN 和正向传播的时候一样, RNN在反向传播的时候需要在时间步上面进行迭代, 这可能导致梯度问题. 下面我们先大概分析在"时间上"反向传播的不同之处, 然后简要介绍一些缓解梯度问题的训练方法, 最后, 我们详细的分析一下在时间上反向传播的细节问题. 这篇笔记以 8.7. Backpropagation Through Time — Dive into... 11/19/2023 AllBackpropagationRNNApr 2, 2022汉字排检法 汉字排检法 汉字排检法 2022-04-02 Tags: #ChineseCharacters 汉字作为象形文字, 在信息化的过程中面临着先天的困难. 其实除了拼音, 汉字是有许多索引方式的, 这些方法统称汉字排检法. 比如过去的四角号码检字法. 其实相比基于语音的拼音, 四角号码就像五笔一样, 你即使认不到这个字, 也可以输入, 这是基于字形的检索方法的优势. 汉字排检法_百度百科 四角号码查字法_百度百科 ... 11/19/2023 AllChineseCharactersApr 2, 2022递推公式 at=bt+ctat−1a_{t}=b_{t}+c_{t}a_{t-1}at=bt+ctat−1 转通项公式 递推公式 at=bt+ctat−1a_{t}=b_{t}+c_{t}a_{t-1}at=bt+ctat−1 转通项公式 递推公式 at=bt+ctat−1a{t}=b{t}+c{t}a{t-1}at=bt+ctat−1 转通项公式 2022-04-02 Tags: #Math at=bt+ctat−1+ct(bt−1+ct−1at−2)+ct−1(bt−2+ct−2at−3)⋮+c2(b1+c1a0)↑0\begin{aligned} a{t}=b{t} &+c{t} a{t-1} \\ &+ c{t}\left(b{t-1}+c{t-1} a{t-2}\right) \\ &\hspace{4.25em}+c{t-1}\left(b{t-2}+c{t-2} a{t-3}\right) \\ &\hspace{13em}\vdots \\ &\hspace{12.5em}+c{2}\left(b{1}+c{1} a{0}\right) \\ &\hspace{17.5em}\uparrow\\ &\hspace{17.8em}0\\ \end{aligned}at=bt+ctat−1+ct(bt−1+ct−1at−2)+ct−1(bt−2+ct−2at−3)⋮+c2(b1+c1a0)↑0 右边: $$\begin{aligned} &\textcolor{blue}{b{t}}+\textcolor{darkorange}{c{t}}(\textcolor{blue}{b{t-1}}+\cdots \textcolor{darkorange}{c{4}}(\textcolor{blue}{b{3}}+\textcolor{darkorange}{c{3}}(\textcolor{blue}{b{2}}+\textcolor{darkorange}{c{2}} \textcolor{blue}{b_{1}})))\\ =&\textcolor{darkorange}{c{t}c{t-1}\cdots c{4}c{3}c{2}}\textcolor{blue}{b{1}}+\textcolor{darkorange}{c{t}c{t-1}\cdots... 11/19/2023 AllMathApr 1, 2022D2L-53-循环神经网络RNN D2L-53-循环神经网络RNN Recurrent Neural Networks 2022-04-01 Tags: #RNN #DeepLearning #NeuralNetwork Motivation 基于马尔可夫假设的N元语法(n-gram)需要存储大量的参数。在 nnn 逐渐增大的过程中,n-gram模型的参数大小 ∣W∣|W|∣W∣ 与序列长度 nnn 是指数关系:∣W∣=∣V∣n|W|=|\mathcal{V}|^n ∣W∣=∣V∣n (∣V∣|\mathcal{V}|∣V∣ 是单词的数目) 因此, 我们将目光转向了 隐变量自回归模型. 隐状态... 11/19/2023 AllRNNDeepLearningNeuralNetwork«««34567»»»