简单说下RNN与 LSTM 有什么区别?
lee:写的太好,强推:如何简单的理解LSTM——其实没有那么复杂
指 LSTM 与标准 RNN的区别, LSTM 是一种使用细胞状态的特殊 RNN。
- RNN处理一定的短依赖,但 LSTM 可以处理短期、长期依赖。
- 序列长时,序列后部的梯度很难反向传播到前面的序列(梯度消失)。
- 激活函数不同,RNN 只有 tanh,但 LSTM 引入 sigmoid 并结合 tanh,添加求和操作,减少梯度消失和梯度爆炸的可能性。
- RNN 没有细胞状态,LSTM 通过细胞状态记忆信息。
时间序列异常检测?
- 时间序列异常检测是指发现序列数据中与正常行为显著不同的潜在模式。
- 在处理时序数据时,卷积网络通常通过在数据上滑动一个一维的卷积滤波器来预测序列的未来元素。递归神经网络(RNN)由于能够存储时间序列中的历史信息,在序列任务中得到了广泛应用。长短期记忆(LSTM)神经网络和门控循环单元克服了RNN中的消失梯度问题,并成功地应用于语音和自然语言处理中。
什么是transformer,以及什么是 self-attention?
transformer 模型(self-attention自注意力)、The Illustrated Transformer
self-attention 分为以下步骤:
- 从每个Encoder的输入向量上创建3个向量。对于每个单词,我们创建一个Query向量,一个Key向量和一个Value向量。这些向量是通过词嵌入乘以我们训练过程中创建的3个训练矩阵而产生的。
- 计算得分(中间值)。每个单词的 self-attention 的计算:当前单词的query向量和其他各个key向量点积。
- 计算最终得分。第 2 步的得分除以根号dk(即 key 向量的维度开根号),再将得到的数值通过softmax函数标准化,使得最后的列表和为1。这个softmax的分数决定了当前单词在每个句子中每个单词位置的表示程度。
- 将每个Value向量乘以softmax后的得分。这里实际上的意义在于保存对当前词的关注度不变的情况下,降低对不相关词的关注。
- 累加加权值的向量。 这会在此位置产生self-attention层的输出(对于第一个单词)。