Tag: Seq2Seq
D2L-70-Seq2Seq with Attention - Bahdanau Attention
D2L-70-Seq2Seq with Attention - Bahdanau Attention
含注意力机制的Seq2Seq 2022-04-22 Tags: #Seq2Seq #Attention #DeepLearning #RNN Motivation 在Seq2Seq模型里面, Encoder向Decoder传递的仅仅是最后一个时间步的隐状态, 也就是上下文变量 , 我们假设里面已经包含了输入序列的所有信息: 但这样每一步Decoder的输入都是原序列的一个"全局, 笼统的总结", 这是不太合理的: 在下图中, 在翻译"Knowledge"的的时候, 显然"力量"这个词是不太重要的. 在原始的Seq2Seq模型里面, 输入序列里面的所有元素都是同等重要的,...
D2L-61-Sequence to Sequence Learning - Seq2Seq
D2L-61-Sequence to Sequence Learning - Seq2Seq
Seq2Seq: 序列到序列模型 2022-04-19 Tags: #Seq2Seq #EncoderDecoder #DeepLearning #RNN Seq2Seq也就是Sequence to Sequence, 顾名思义, 它实现的是一种序列到另一种序列的转换(比如从英语到中文). Seq2Seq符合Encoder-Decoder架构 总览 如上图所示, 首先Encoder输入长度可变的序列, 并将其转换为固定形状的隐状态。然后隐状态输入Decoder, 解码器根据隐状态和输入来生成最后的输出. 我们如何将Encoder的结果输入到Decoder呢? 其实有两个方式: 我们可以利用Encoder最后的隐状态来初始化Decoder的隐状态. 这要求Encoder和Decoder的隐藏层大小是一样的. 我们可以把Encoder最后的隐状态作为Decoder输入的一部分. 也就是说, Decoder每一次的输入既包括前一个词, 又包括Encoder的隐状态. 这两种方式可以同时使用. Encoder 上下文变量: Encoder的输出 Encoder不仅将长度不定的序列转换为固定长度的上下文变量...