AI
探索线性 Attention 的局限性:从 「集中注意力」 角度出发
近年来,Transformer 架构在自然语言处理领域取得了显著的成果,而 Attention 机制则是其核心所在。 ... 阅读更多
论文分享:Score Identity Distillation——更快更好的扩散模型蒸馏方法
引言 今天我们分享的是一篇名为 《Score Identity Distillation: Exponentia ... 阅读更多
Fast Transformer Decoding: One Write-Head is All You Need
引言 《Fast Transformer Decoding: One Write-Head is All Yo ... 阅读更多
缓存与效果的极限拉扯:从 MHA 、 MQA 、 GQA 到 MLA
引言 最近,幻方发布的 DeepSeek-V2 引起了广泛关注。其 1 块钱 100 万 token 的价格令人惊叹,而背后的 ... 阅读更多