LoRA笔记

LoRA (Low-Rank Adaptation),一种LLM的微调方法

选择LoRA是因为它通过向变换器层注入可训练的低秩矩阵,主要针对语言模型组件,从而高效适应大型预训练模型。这种方法显著减少了可训练参数的数量,使微调在计算上更轻松,同时保持了强有力的性能。(Kvasir-VQA-x1数据集中介绍)

阅读更多

Transformer精读-AttentionIsAllYouNeed

阅读思路

  • 以往的模型存在的问题/瓶颈——结构的哪些缺陷导致了性能的有限
    • Intro和BG
  • 论文提出的注意力结构解决了什么问题,为什么可以解决
    • 核心:Transformer架构和Self-Attention机制
    • 对应:Model ,Why Self-Attention
阅读更多

杂记-1

十月下旬的仙台,已经有些凉了。

两件衣服已经无法抵御随风而来的寒意,不过街上的人似乎也没有反应过来该如何穿衣,毛衣或单穿衬衫的都有,最多的还是西装革履。

阅读更多
+ + +