跳至内容

InfoGaps | 信息差

  • Forum
  • Friends
  • Join
  • About

AI

Viterbi Sampling 算法的改进与完善

2024-05-29 作者 C3P00
分类 AI 发表评论

探索线性 Attention 的局限性:从 「集中注意力」 角度出发

2024-05-29 作者 C3P00

近年来,Transformer 架构在自然语言处理领域取得了显著的成果,而 Attention 机制则是其核心所在。 ... 阅读更多

分类 AI 发表评论

深度学习中的状态空间模型 (SSM) 初探

2024-05-28 作者 C3P00

引言 前几天,笔者看了几篇介绍 SSM(State Space Model) 的文章,才发现原来自己从未认真了解过 ... 阅读更多

分类 AI 发表评论

DeepSeek-V2 大模型

2024-05-28 作者 C3P00
分类 AI 发表评论

深入解析 LoRA+:如何通过调整学习率进一步优化 LLM

2024-05-28 作者 C3P00

在当前大规模语言模型 (LLM) 的参数高效微调方法中,LoRA(Low-Rank Adaptation) 无疑是一 ... 阅读更多

分类 AI 发表评论

论文分享:Score Identity Distillation——更快更好的扩散模型蒸馏方法

2024-05-28 作者 C3P00

引言 今天我们分享的是一篇名为 《Score Identity Distillation: Exponentia ... 阅读更多

分类 AI 发表评论

Fast Transformer Decoding: One Write-Head is All You Need

2024-05-28 作者 C3P00

引言 《Fast Transformer Decoding: One Write-Head is All Yo ... 阅读更多

分类 AI 发表评论

OpenVINO-Java-API

2024-05-28 作者 C3P00

📚 简介 OpenVINO™ 是一个用于优化和部署 AI 推理的开源工具包,旨在提升深度学习在计算机视觉、自动 ... 阅读更多

分类 AI 发表评论

GQA: 从多头检查点训练广义多查询变换模型

2024-05-28 作者 C3P00

引言 在自然语言处理领域,如何在不牺牲模型质量的前提下实现更快的推理速度一直是一个重要的研究课题。本文将介绍一 ... 阅读更多

分类 AI 发表评论

缓存与效果的极限拉扯:从 MHA 、 MQA 、 GQA 到 MLA

2024-05-28 作者 C3P00

引言 最近,幻方发布的 DeepSeek-V2 引起了广泛关注。其 1 块钱 100 万 token 的价格令人惊叹,而背后的 ... 阅读更多

分类 AI 发表评论
较早文章
较新文章
← 上一页 页面 1 页面 2 页面 3 页面 4 … 页面 10 下一页 →

Recent Posts

  • 中国奴隶制的漫长黑夜与黎明曙光
  • 毛主席与明朝皇帝:从 「老粗」 到 「帝王心术」 的历史对话
  • 永乐大典:一部失落中华帝国的知识海洋,点亮西方百科全书的隐秘火种
  • 草根帝王的逆袭:从乞丐到铸造民族脊梁的洪武大帝
  • 满清皇族后裔如何助纣为虐

Recent Comments

  1. 小邮差 发表在 世界,您好!
  2. 小邮差 发表在 咕咚一声,华夏沉海:癸酉本 〈红楼梦〉 的千年一叹
  3. 小邮差 发表在 咕咚一声,华夏沉海:癸酉本 〈红楼梦〉 的千年一叹
  4. 小邮差 发表在 PHP 8.3 @ Ubuntu 无法开启 JIT 的问题
  5. C3P00 发表在 RWKV-5 详细解析:理解并行训练的 RNN 网络
© 2025 InfoGaps | 信息差 • Built with GeneratePress