S3:一个简单高效的多模态对话系统S3:一个简单高效的多模态对话系统
近年来,人工智能 (AI) 领域见证了多模态系统的兴起。这些系统能够无缝整合文本、图像和音频等多种形式的数据,在模拟人类认知能力方面正变得越来越娴熟。然而,该领域的研究人员面临的主要挑战之一是需要大量数据和计算资源来训练最先进的模型。 本文介绍了一种全新的范式,即只需少量数据和计算资源即可构建强大的多模态系统。我们提出了一个简单而有效的基线模型 S3,它挑战了大型数据集和过度计算能力是开发具有竞争力的多模态 AI 系统的先决条件的传统观念。通过使用包含不到 150,000 个多模态样本的精简语料库、预训练的冻结模态编码器、7B 语言模型,以及利用单个 A100-80GB GPU 的计算经济性,我们创建了一个架构简洁优雅、性能可与目前领域内更复杂系统相媲美的模型。我们方法的核心是一个模态投影器,它使用一个简单的多层感知器 (MLP) 将多模态特征映射到标记嵌入中。 S3 的强大之处 S3 的贡献可以概括如下: 深入 S3 的核心技术 多模态数据预处理的艺术 为了实现多模态对话的目标,我们以标准聊天布局格式化了每个数据集。这种格式将每条消息表示为一个 JSON 对象,其中包含“角色”(指示消息是来自用户还是机器人)、“类型”(指示消息包含图像、音频还是文本)以及消息内容本身(在图像和音频的情况下,这将是文件路径)。 图1:多模态对话数据 json 格式示例 我们为每个数据集创建了一个自定义系统提示,以引出与原始数据集紧密匹配的机器人响应。例如,对于 [...]