联合示例选择:加速多模态学习的新方法

引言

在人工智能和机器学习领域,数据质量一直是影响模型性能的关键因素。无论是在语言、视觉还是多模态建模中,精心策划的数据集都能显著提高模型性能,同时减少所需的数据量。然而,传统的数据策划方法主要依赖人工,成本高昂且难以扩展。

近年来,基于模型的数据策展方法开始受到关注。这些方法利用正在训练的模型的特征来选择高质量数据,有望改善大规模预训练的效率。然而,现有方法大多关注单个数据点的质量,忽视了批次组成对学习效果的影响。

本文介绍了一种新颖的方法 – 联合示例选择的多模态对比学习(JEST),它通过选择整个批次而非单独的数据点来加速多模态学习。JEST利用多模态对比目标暴露出的数据间依赖关系,提出了一种衡量批次整体可学习性的标准,并开发了一种高效算法来选择最佳批次。实验表明,JEST显著加快了训练速度,比现有最先进模型减少了13倍的迭代次数和10倍的计算量。

JEST方法概述

基于模型的批次选择标准

JEST的核心是一种基于模型的批次选择标准。与传统方法不同,JEST不是对单个样本进行评分,而是对整个子批次进行评分,然后根据这些批次级别的分数进行采样。具体而言,JEST考虑了以下几种评分函数:

  1. 困难学习者:优先选择当前模型下损失较高的批次。这种方法可以丢弃琐碎数据,但对于大型、噪声数据集可能弊大于利。
  2. 简单参考:使用预训练参考模型,优先选择损失较低的批次。这种方法已被成功用于识别高质量样本,但可能过度依赖参考模型的选择。
  3. 可学习性:结合上述两种方法,优先选择当前模型损失高但参考模型损失低的批次。这种方法既考虑了数据的难度,又考虑了其质量,被证明能有效加速大规模学习。

JEST主要采用可学习性评分,但也提供了简单参考评分作为对照。

联合示例选择算法

对于多模态学习,JEST采用了一种受块吉布斯采样启发的顺序方法来选择批次。算法的主要步骤如下:

  1. 从超级批次中随机选择一个初始子集。
  2. 计算剩余候选样本的条件可学习性。
  3. 根据条件可学习性概率,独立且不重复地采样一个新的样本块。
  4. 将新块添加到当前子集中。
  5. 重复步骤2-4,直到达到所需的批次大小。

这种方法能够快速生成具有高可学习性的批次,效果与暴力吉布斯采样相当,但计算效率更高。

高效评分和多分辨率训练

为了进一步提高计算效率,JEST采用了以下策略:

  1. 基于在线模型近似的高效评分:使用FlexiViT架构降低图像分辨率进行评分,显著减少了计算成本。
  2. 多分辨率训练:将批次随机分为两半,分别用低分辨率和高分辨率进行编码。这不仅允许高效评分,还能直接提高训练效率。

通过这些优化,JEST在保持高效率的同时,显著减少了评分的计算开销。

实验结果与分析

联合示例选择的有效性

实验结果表明,JEST能够有效地选择高可学习性的批次:

  1. 可视化分析显示,批次的可学习性矩阵具有强烈的非对角线结构,证明了联合选择的必要性。
  2. JEST仅需少量迭代就能生成具有高可学习性的子批次,效果与需要数千次迭代的暴力吉布斯采样相当。
  3. 随着过滤比率的增加(即从更大的超级批次中选择),子批次的可学习性显著提高。

JEST加速多模态学习的效果

在多个下游任务(包括ImageNet分类和COCO图像-文本检索)上的实验表明:

  1. JEST显著加速了学习过程。在50%、80%和90%的过滤比例下,JEST分别仅需2B、1B和0.67B个训练样本就达到了3B-统一基线的最终性能。
  2. 在90%的过滤比例下,JEST还提供了高达6%的最终性能提升。
  3. 与独立优先级选择方法相比,JEST展现出更好的缩放行为,尤其是在高过滤比率下。
  4. JEST不仅适用于可学习性评分,也能提高简单参考优先级的效果,尽管可学习性评分在更激进的过滤条件下表现更佳。

JEST的优势与创新

  1. 批次级别的选择:JEST考虑了整个批次的组成,而不仅仅是单个数据点的质量,从而捕捉到了数据之间的相互作用和依赖关系。
  2. 高效算法:通过巧妙的设计,JEST能够快速生成高质量批次,计算效率远高于暴力方法。
  3. 灵活的评分标准:JEST可以适应不同的评分函数,包括可学习性和简单参考,为不同场景提供了灵活性。
  4. 计算优化:通过在线模型近似和多分辨率训练,JEST大幅降低了计算开销,使得大规模应用成为可能。
  5. 显著的性能提升:JEST不仅加速了训练过程,还在多个任务上提高了最终性能,展现出强大的泛化能力。

结论与展望

联合示例选择的多模态对比学习(JEST)为加速多模态学习提供了一种新颖而有效的方法。通过考虑批次级别的可学习性,JEST能够更好地捕捉数据之间的相互作用,从而显著提高学习效率和模型性能。实验结果表明,JEST不仅能大幅减少训练时间和计算资源,还能在多个下游任务上取得更好的性能。

未来的研究方向可能包括:

  1. 探索JEST在更多模态和任务上的应用,如视频-文本学习、跨语言学习等。
  2. 进一步优化JEST的算法和实现,以适应更大规模的数据集和模型。
  3. 研究JEST与其他数据管理和模型优化技术的结合,如梯度缓存、混合精度训练等。
  4. 探索JEST在持续学习和在线学习场景中的潜力,以适应动态变化的数据分布。
  5. 深入分析JEST选择的批次特征,以获得对多模态学习本质的更深入理解。

总之,JEST为多模态学习领域开辟了一个新的研究方向,有望推动更高效、更强大的AI系统的发展。

参考文献

  1. Evans, T., Parthasarathy, N., Merzic, H., & Hénaff, O. J. (2023). Accelerating Multimodal Learning with Joint Sample Selection. arXiv preprint arXiv:2406.17711v1.

Leave a Comment