InstructBLIP 是一种指令感知的多模态基础模型, 通过微调 BLIP-2 和丰富指令微调数据获得。它在图像理解、推理和描述上有很强的表现, 实现了 SOTA, 有更好的泛化能力。值得期待其在更广泛的数据集和任务上持续创新。
- GPT-4 尚未上线, 但已被 InstructBLIP 超越, 尤其在图像理解、推理和描述上表现更强。
- InstructBLIP 基于 BLIP-2 进行微调得到, 能进行多轮视觉对话, 有更强的泛化能力。
- InstructBLIP 通过收集 11 个任务类别下 28 个数据集, 生成 10-15 个指令模板, 得到更丰富的指令微调数据。
- InstructBLIP 利用 BLIP-2 中的 Q-Former, 实现了指令感知的视觉特征提取方法。指令不仅输入到 LLM, 也输入到 Q-Former, 这有助提高模型从不同指令中学习的能力。
- 考虑数据集数量和大小差异,InstructBLIP 使用加权采样和平滑方法进行训练。为某些数据集手动调整权重, 提高其收敛性。
- InstructBLIP 在 13 个数据集上取得 SOTA, 超过 BLIP-2 和 Flamingo 。在视频 QA 上未见过的数据集上,InstructBLIP 超过 SOTA47.1% 。
- 消融研究显示, 指令感知视觉特征提取和数据集平衡策略对性能有明显提升。特别是在需空间/时间视觉推理的任务上, 指令输入 Q-Former 更为关键。
- 定性研究显示,InstructBLIP 比 GPT-4 、 LLaVA 和 MiniGPT-4 有更全面、视觉化和逻辑的表现。 InstructBLIP 可以自适应生成不同长度的响应, 解决用户意图。
- InstructBLIP 通过指令微调和多任务训练, 在特定数据集上有更好表现。与 Flamingo 和 BLIP-2 相比,InstructBLIP 在微调时图像分辨率和视觉编码器保持不变, 降低了训练参数, 提高了效率。
gfodor/instructblip-replicate: InstructBLIP replicate cog package (github.com)