LLMs与多模态生成及编辑:一项综述LLMs与多模态生成及编辑:一项综述
引言 内容概述 近年来,随着大型语言模型(LLMs)的快速发展,越来越多的研究开始关注将LLMs与多模态学习相结合。以往的多模态大语言模型(MLLMs)研究主要集中在理解上,而本综述将详细探讨多模态生成领域,涵盖图像、视频、3D和音频等多个领域,并重点介绍这些领域中的里程碑式工作。 研究范围 本综述探讨了包括图像、视频、3D模型和音频在内的多种模态的生成。多模态生成包括不同模态的单独生成以及多模态的联合生成。我们不会深入讨论纯文本生成,因为已有许多专门针对该领域进展的综述。我们的主要关注点是近年来出现的大型语言模型如何在生成其他视觉和音频模态方面提供帮助,特别是在开放领域生成中的应用。 相关研究 单模态生成综述 许多综述文章专注于单一模态的生成,例如图像生成[115]、视频生成[116]、3D生成[117]和音频生成[118]。这些研究主要采用预训练的CLIP或T5等语言编码器进行开放领域的文本指导生成。随着LLMs的出现,越来越多的生成工作利用强大的LLMs来增强每种模态的生成能力。我们的工作主要讨论LLMs在各个模态生成中的作用,这是以前的综述中缺乏的。 LLMs综述 大量综述文章探讨了LLMs的各个方面。例如,[121]对基于LLMs的自主代理进行了全面审查。此外,[122]和[123]介绍了多模态LLMs,介绍了将LLMs与其他非文本模态结合的论文。这些综述既介绍了多模态理解,也介绍了多模态生成,但主要侧重于多模态理解。相比之下,我们的工作主要集中在生成方面,旨在探讨LLMs在每种模态生成过程中带来的性能和功能改进。 预备知识 生成模型 生成模型可以归纳为从先验分布中抽取潜在样本并将其转换为与目标数据分布对齐的生成样本的过程。以下是几种主要的生成模型: 多模态对齐模型 CLIP[23]是一种开创性的图像-语言对齐模型,通过对比学习同时学习图像编码器和文本编码器。它在多个下游任务中表现出色,如物体识别和视频动作识别。CLAP[131]则对齐文本和音频信息,用于文本指导的音频生成。 大型语言模型 现代大型语言模型利用Transformer架构生成上下文丰富的嵌入,这些模型在大量文本语料库上进行训练,然后针对特定任务进行微调。[137][138][139][140] 例如,GPT系列模型主要使用Transformer解码器,经过大规模多样化数据集的预训练后,能够生成高质量的文本。 多模态大型语言模型 多模态大型语言模型(MLLMs)最近开始兴起,旨在赋予LLMs理解或生成其他模态的能力。这些模型通常包含额外的预训练模态特定编码器,用于特征提取和输入投影,以及与LLM骨干对齐的多模态隐藏特征。[142][143][144][145][146] 图像生成与编辑 图像生成 使用CLIP进行文本指导的图像生成 过去,图像-文本对齐模型如CLIP[23]在文本指导的图像生成中发挥了重要作用,确保生成的图像与给定的文本提示相符。这些模型通过对齐文本编码器和图像编码器的嵌入,生成与文本描述相匹配的图像。[12][169][200][10][201][202] 使用LLMs进行文本指导的图像生成 随着MLLMs的发展,LLMs在视觉内容处理中的应用越来越广泛。MLLMs提供了统一的界面,用于理解和生成文本及视觉信息,增强了生成过程的交互性和可控性。例如,CM3Leon是一种自回归MLLM,能够同时生成文本和图像输出[156]。DreamLLM是第一个能够生成自由形式交错内容的MLLM,支持多轮对话,并且在图像描述和视频问答任务中表现出色[151]。这些模型通过结合视觉和语言信息,显著提高了图像生成的质量和用户体验。 图像编辑 使用CLIP/T5进行图像编辑 CLIP模型支持基于语言的图像编辑,例如SDEdit通过用户输入的描边、草图或掩码生成逼真的图像,并通过文本指令编辑现有图像。[226] DiffusionCLIP[227]和Imagic[231]等方法通过调整预训练的扩散模型来编辑目标图像,展示了出色的编辑能力。 [...]