2024 年 5 月 – 第 5 页 – InfoGaps

Transformer升级之路：逆用Leaky ReRoPE解决推理成本问题Transformer升级之路：逆用Leaky ReRoPE解决推理成本问题

2024-05-29| C3P00| 0 Comment| 09:54

在上周的文章《Transformer升级之路：12、无限外推的ReRoPE？》中，我们介绍了ReRoPE和Le […] [...]

2024-05-29| C3P00| 0 Comment| 08:16

语言模型（LLM）在自然语言处理中的应用越来越广泛，而通过增大Tokenizer的词表来提高压缩率，从而缩短串 […] [...]

2024-05-29| C3P00| 0 Comment| 08:12

在自然语言处理领域，分词是一个至关重要的步骤。最近，一篇名为《随机分词浅探：从Viterbi Decoding […] [...]

2024-05-29| C3P00| 0 Comment| 08:10

近年来，Transformer架构在自然语言处理领域取得了显著的成果，而Attention机制则是其核心所在。 […] [...]

2024-05-28| C3P00| 0 Comment| 20:38

引言前几天，笔者看了几篇介绍SSM（State Space Model）的文章，才发现原来自己从未认真了解过 […] [...]

2024-05-28| C3P00| 0 Comment| 20:25

在信息爆炸的时代，获取和整理信息的能力变得尤为重要。何加盐在其博客文章《何加盐深度揭秘：我是怎么找资料的？》中 […] [...]

2024-05-28| C3P00| 0 Comment| 20:18

DeepSeek-V2 是一个强大、经济高效的混合专家语言模型。它具有2360亿个总参数，每个标记激活的参数为 […] [...]

2024-05-28| C3P00| 0 Comment| 15:21

在Caddy 2中配置缓存可以使用cache-handler插件。以下是配置Caddy 2缓存的步骤：在这个 […] [...]

2024-05-28| C3P00| 0 Comment| 13:15

在当前大规模语言模型（LLM）的参数高效微调方法中，LoRA（Low-Rank Adaptation）无疑是一 […] [...]

2024-05-28| C3P00| 0 Comment| 13:13

引言今天我们分享的是一篇名为《Score Identity Distillation: Exponentia […] [...]