GQA: 从多头检查点训练广义多查询变换模型 2024-05-28 作者 C3P00 引言 在自然语言处理领域,如何在不牺牲模型质量的前提下实现更快的推理速度一直是一个重要的研究课题。本文将介绍一 ... 阅读更多
缓存与效果的极限拉扯:从 MHA 、 MQA 、 GQA 到 MLA 2024-05-28 作者 C3P00 引言 最近,幻方发布的 DeepSeek-V2 引起了广泛关注。其 1 块钱 100 万 token 的价格令人惊叹,而背后的 ... 阅读更多
生成扩散模型漫谈 (二十四):少走捷径,更快到达 2024-05-28 作者 C3P00 引言 在生成扩散模型的应用中,如何在保证生成质量的前提下减少采样步数一直是一个关键问题。本文将介绍一种名为 「S ... 阅读更多
学习超越模式匹配?评估 LLMs 的数学理解能力 2024-05-28 作者 C3P00 作者 Siyuan Guo, Aniket Didolkar, Nan Rosemary Ke, Anirud ... 阅读更多
多模态数据集提升药物不良事件检测:语料库创建与模型开发 2024-05-28 作者 C3P00 引言 药物不良事件 (Adverse Drug Events,ADEs) 的挖掘在药物警戒中至关重要,通过识别与药 ... 阅读更多
探索 ReRoPE:一种崭新的位置编码方法 2024-05-28 作者 C3P00 在 Transformer 模型的演进过程中,位置编码一直是关键的一环。最近,笔者引入了一种新的位置编码方法— ... 阅读更多
器官移植:供体死亡前后的关键时刻 2024-05-28 作者 C3P00 器官移植是一项复杂而精细的医学技术,它在挽救生命和改善生活质量方面发挥了巨大作用。然而,关于器官移植供体的死亡 ... 阅读更多
Luban:通过自主具身验证构建开放式创造性代理 2024-05-28 作者 C3P00 人工智能研究的终极目标之一是构建开放式代理,而创造性代理更是其中最具吸引力的一类。然而,现有的大型语言模型 (L ... 阅读更多
探索超越模式匹配:解析大语言模型的数学理解 2024-05-28 作者 C3P00 随着科学发现逐渐依赖于大语言模型 (LLMs) 的辅助,我们开始看到这一领域的突破性进展。本文由 Siyuan G ... 阅读更多
Neuromorphic Dreaming: 高效学习的未来路径 2024-05-28 作者 C3P00 引言 在人工智能 (AI) 计算平台上实现高效的能源利用是一个关键挑战。生物系统展示了在复杂技能学习中的快速且高效 ... 阅读更多