Codestral Mamba:AI 架构的新里程碑


在 Codestral 家族发布之后,Codestral Mamba 的诞生标志着我们在研究和提供新型架构方面的又一步努力。这款模型可以免费使用、修改和分发,我们希望它能够为架构研究带来新的视角。

设计与合作
Codestral Mamba 是在 Albert Gu 和 Tri Dao 的帮助下设计的。这款模型不仅在技术上具有创新性,其设计过程中的合作精神也值得称道。

超越 Transformer
与 Transformer 模型不同,Mamba 模型提供了线性时间推理的优势,理论上能够处理无限长度的序列。这使得它在处理代码生产力用例时表现出极高的效率。

能力与测试
Codestral Mamba 经过了高级代码和推理能力的培训,使其能够与最先进的基于 Transformer 的模型相媲美。它允许用户进行广泛的交互,并能够快速响应,无论输入的长度如何。我们已经测试了其在上下文检索能力上的表现,能够处理高达 256k 令牌的输入,这使得它有望成为一个出色的本地代码助手。

部署选项
Codestral Mamba 可以通过 mistral-inference SDK 进行部署,该 SDK 依赖于 Mamba 的 GitHub 存储库中的参考实现。此外,它还可以通过 TensorRT-LLM 进行部署。对于本地推理,可以期待在 llama.cpp 中获得支持。

可用性
为了便于测试,Codestral Mamba 已在 la Plateforme 上提供 (标识为 codestral-mamba-2407) 。它与它的 「大姐姐」Codestral 22B 一起提供。 Codestral Mamba 在 Apache 2.0 许可下可用,而 Codestral 22B 则在商业许可下可用于自我部署,或在社区许可下用于测试目的。

参数数量
Codestral Mamba 是一个指导模型,拥有惊人的参数数量:7,285,403,648 。

图像与图标
文章中包含了多张图像,包括基准测试和标志,展示了该模型的能力以及组织的品牌形象。

Codestral Mamba 在 AI 架构中是一个重要的进步,特别是对于那些对代码生产力和高效处理大型序列感兴趣的人来说。


发表评论