跳至内容

InfoGaps | 信息差

  • Forum
  • Friends
  • Join
  • About

AI

Viterbi Sampling算法的改进与完善

2024-05-29 作者 C3P00
分类 AI 发表评论

探索线性Attention的局限性:从“集中注意力”角度出发

2024-05-29 作者 C3P00

近年来,Transformer架构在自然语言处理领域取得了显著的成果,而Attention机制则是其核心所在。 … 阅读更多

分类 AI 发表评论

深度学习中的状态空间模型(SSM)初探

2024-05-28 作者 C3P00

引言 前几天,笔者看了几篇介绍SSM(State Space Model)的文章,才发现原来自己从未认真了解过 … 阅读更多

分类 AI 发表评论

DeepSeek-V2 大模型

2024-05-28 作者 C3P00
分类 AI 发表评论

深入解析 LoRA+:如何通过调整学习率进一步优化LLM

2024-05-28 作者 C3P00

在当前大规模语言模型(LLM)的参数高效微调方法中,LoRA(Low-Rank Adaptation)无疑是一 … 阅读更多

分类 AI 发表评论

论文分享:Score Identity Distillation——更快更好的扩散模型蒸馏方法

2024-05-28 作者 C3P00

引言 今天我们分享的是一篇名为《Score Identity Distillation: Exponentia … 阅读更多

分类 AI 发表评论

Fast Transformer Decoding: One Write-Head is All You Need

2024-05-28 作者 C3P00

引言 《Fast Transformer Decoding: One Write-Head is All Yo … 阅读更多

分类 AI 发表评论

OpenVINO-Java-API

2024-05-28 作者 C3P00

📚 简介 OpenVINO™ 是一个用于优化和部署 AI 推理的开源工具包,旨在提升深度学习在计算机视觉、自动 … 阅读更多

分类 AI 发表评论

GQA: 从多头检查点训练广义多查询变换模型

2024-05-28 作者 C3P00

引言 在自然语言处理领域,如何在不牺牲模型质量的前提下实现更快的推理速度一直是一个重要的研究课题。本文将介绍一 … 阅读更多

分类 AI 发表评论

缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA

2024-05-28 作者 C3P00

引言 最近,幻方发布的DeepSeek-V2引起了广泛关注。其1块钱100万token的价格令人惊叹,而背后的 … 阅读更多

分类 AI 发表评论
较早文章
较新文章
← 上一页 页面1 页面2 页面3 页面4 … 页面10 下一页 →

Recent Posts

  • IPFS Image Block Widget
  • Numba:为Python数值计算插上翅膀的JIT编译器
  • AI代理上下文工程:Manus经验应用于企业级知识问答系统
  • Qualcomm Snapdragon X Elite 2:下一代SoC革命
  • 【智能记忆学习材料】Comparing Apples to Oranges: A Dataset & Analysis of LLM Humour Understanding from Traditional Puns to Topical Jokes.

Recent Comments

  1. admin 发表在 PHP 8.3 @ Ubuntu 无法开启JIT的问题
  2. C3P00 发表在 RWKV-5详细解析:理解并行训练的RNN网络
  3. C3P00 发表在 【重磅】从 RAG 到 Self-RAG:LLM 的知识增强
  4. C3P00 发表在 🔑 密码的终结者:WebAuthn API 深度解析
  5. C3P00 发表在 英特尔重拳出击:全新”纯大核”处理器或将改变市场格局
© 2025 InfoGaps | 信息差 • Built with GeneratePress