深度学习入门到跑路

指 LSTM 与标准 RNN的区别， LSTM 是一种使用细胞状态的特殊 RNN。

时间序列异常检测是指发现序列数据中与正常行为显著不同的潜在模式。
在处理时序数据时，卷积网络通常通过在数据上滑动一个一维的卷积滤波器来预测序列的未来元素。递归神经网络(RNN)由于能够存储时间序列中的历史信息，在序列任务中得到了广泛应用。长短期记忆(LSTM)神经网络和门控循环单元克服了RNN中的消失梯度问题，并成功地应用于语音和自然语言处理中。

self-attention 分为以下步骤：

从每个Encoder的输入向量上创建3个向量。对于每个单词，我们创建一个Query向量，一个Key向量和一个Value向量。这些向量是通过词嵌入乘以我们训练过程中创建的3个训练矩阵而产生的。
计算得分（中间值）。每个单词的 self-attention 的计算：当前单词的query向量和其他各个key向量点积。
计算最终得分。第 2 步的得分除以根号dk（即 key 向量的维度开根号），再将得到的数值通过softmax函数标准化，使得最后的列表和为1。这个softmax的分数决定了当前单词在每个句子中每个单词位置的表示程度。
将每个Value向量乘以softmax后的得分。这里实际上的意义在于保存对当前词的关注度不变的情况下，降低对不相关词的关注。
累加加权值的向量。这会在此位置产生self-attention层的输出（对于第一个单词）。