Batch Normalization 和 Layer Normalization的推导与Pytorch实现。
阅读更多
Batch Normalization 和 Layer Normalization的推导与Pytorch实现。
AMP(Automatic Mixed Precision)自动混合精度。
可以帮助减少深度学习网络的运行时间和内存占用。本文将简单介绍使用方法。
多头自注意力机制-MultiHead Self-Attention
在Transformer中的多头自注意力机制的讲解和代码实现。
理解 Sigmoid 激活函数:公式、特点与应用
对激活函数:
进行定义介,包括公式定义、代码实现和优缺点,以及适用场景。
从概率角度看 Softmax:公式推导、数值稳定性与代码实现
简单介绍交叉熵(Cross Entropy)
根据B站视频整理的笔记,看完基本可以入门Pytorch。