AI – 第 3 页 – InfoGaps | 信息差

Viterbi Sampling 算法的改进与完善

2024-05-29 作者 C3P00

探索线性 Attention 的局限性：从「集中注意力」角度出发

2024-05-29 作者 C3P00

近年来，Transformer 架构在自然语言处理领域取得了显著的成果，而 Attention 机制则是其核心所在。 ... 阅读更多

深度学习中的状态空间模型（SSM）初探

2024-05-28 作者 C3P00

引言前几天，笔者看了几篇介绍 SSM（State Space Model）的文章，才发现原来自己从未认真了解过 ... 阅读更多

DeepSeek-V2 大模型

2024-05-28 作者 C3P00

深入解析 LoRA+：如何通过调整学习率进一步优化 LLM

2024-05-28 作者 C3P00

在当前大规模语言模型（LLM）的参数高效微调方法中，LoRA（Low-Rank Adaptation）无疑是一 ... 阅读更多

论文分享：Score Identity Distillation——更快更好的扩散模型蒸馏方法

2024-05-28 作者 C3P00

引言今天我们分享的是一篇名为《Score Identity Distillation: Exponentia ... 阅读更多

Fast Transformer Decoding: One Write-Head is All You Need

2024-05-28 作者 C3P00

引言《Fast Transformer Decoding: One Write-Head is All Yo ... 阅读更多

OpenVINO-Java-API

2024-05-28 作者 C3P00

📚 简介 OpenVINO™ 是一个用于优化和部署 AI 推理的开源工具包，旨在提升深度学习在计算机视觉、自动 ... 阅读更多

GQA: 从多头检查点训练广义多查询变换模型

2024-05-28 作者 C3P00

引言在自然语言处理领域，如何在不牺牲模型质量的前提下实现更快的推理速度一直是一个重要的研究课题。本文将介绍一 ... 阅读更多

缓存与效果的极限拉扯：从 MHA 、 MQA 、 GQA 到 MLA

2024-05-28 作者 C3P00

引言最近，幻方发布的 DeepSeek-V2 引起了广泛关注。其 1 块钱 100 万 token 的价格令人惊叹，而背后的 ... 阅读更多