BitNet是微软在2025年发布的,可以在CPU上运行的本地大模型。
之间搞好的wsl终于有了用武之地,成功在ubuntu上完成了部署。本文将介绍部署方法并进行效果展示。
Batch Normalization 和 Layer Normalization的推导与Pytorch实现。
AMP(Automatic Mixed Precision)自动混合精度。
可以帮助减少深度学习网络的运行时间和内存占用。本文将简单介绍使用方法。
深度学习实验,后期有许多要交叉验证或者需要多对比的实验,一个一个在终端修改命令参数再执行太麻烦了,可以用subprocess
的方法,在某文件中录入所有需要执行的命令,程序自动书序读取执行。
多头自注意力机制-MultiHead Self-Attention
在Transformer中的多头自注意力机制的讲解和代码实现。
理解 Sigmoid 激活函数:公式、特点与应用
对激活函数:
进行定义介,包括公式定义、代码实现和优缺点,以及适用场景。
Attention Gate in Attention UNet
对Attention UNet中使用的Attention Gate(AG)进行介绍和代码分析。
从概率角度看 Softmax:公式推导、数值稳定性与代码实现
简单介绍交叉熵(Cross Entropy)