标签: AGI

  • 机器的良心:安全强化学习如何拯救人类反馈

    在人工智能的快速发展中,如何确保这些智能系统既有效又安全,成为了一个日益重要的话题。尤其在大型语言模型(LLMs)逐渐成为人们生活中不可或缺的一部分时,如何平衡它们的“有用性”(helpfulness)和“无害性”(harmlessness)更是面临着巨大的挑战。本文将聚焦于一项新兴的研究——安全强化学习(Safe RLHF),探索这一框架如何通过人类反馈来引导模型的安全发展。

    人类的智慧与机器的学习:二者的博弈

    随着大型语言模型的崛起,这些模型在理解指令、总结信息和执行复杂推理任务方面展现出了惊人的能力。然而,这些技术的进步伴随着潜在的风险。例如,模型可能会生成歧视性、误导性或违反社会规范的内容。因此,确保这些模型的输出不具危害性成为了研究者们的首要任务。

    传统的强化学习方法通常依赖于人类反馈来调整模型的行为,但在实际操作中,“有用性”和“无害性”这两个目标之间往往存在着矛盾。例如,一个模型在某些情况下可能拒绝回答问题,这虽然是安全的,但在极端情况下却会显得不够有用。这种矛盾使得在训练阶段实现两者之间的平衡变得困难重重。

    为了解决这一问题,研究团队提出了“安全强化学习从人类反馈”(Safe RLHF)这一新框架。该框架的核心思想是将人类对“有用性”和“无害性”的偏好明确区分开来,从而有效避免了因混淆而导致的反馈偏差。

    解构反馈:重塑人类的价值观

    在Safe RLHF框架中,研究者们采取了两阶段的人类注释策略来评估文本生成的“有用性”和“无害性”。这一方法确保了反馈的独立性,避免了注释者因目标矛盾而产生的混淆。在第一阶段,注释者对每个问答对进行安全性分类,仅当其在14个预定义的伤害类别上均无风险时,才标记为“安全”。在第二阶段,注释者分别对生成的响应进行有用性和无害性的排名。

    通过这种方式,研究者们能够生成两个不同的数据集——一个用于“有用性”,另一个用于“无害性”。这一数据的独立性为后续模型的优化提供了良好的基础。

    重构目标:优化与约束的平衡

    在Safe RLHF的训练过程中,研究者们提出了一种新的成本模型(Cost Model),该模型通过引入约束来确保模型生成的内容在保持“有用性”的同时,也不偏离“无害性”的轨道。这一过程采用了拉格朗日方法(Lagrangian Method),动态调整在优化过程中两者之间的平衡。

    具体来说,Safe RLHF的目标可以表述为最大化有用性,同时满足一定的无害性约束。研究者们通过实验验证了这一方法的有效性,发现与传统的强化学习方法相比,Safe RLHF在降低有害响应的同时,显著提升了模型的有用性。

    实验验证:数据与结果的双重保障

    研究团队在其实验中,使用了Alpaca-7B模型,并对其进行了三轮的Safe RLHF微调。每轮训练后,都会进行严格的评估,以确保模型的输出不仅具备良好的有用性,还能有效避免有害内容的生成。

    实验结果显示,经过三轮训练后,模型的有用性和无害性均得到了显著提升。例如,在人类评估中,经过Safe RLHF微调的模型在处理敏感话题时,能够有效回避生成有害内容,并保持较高的回答准确性。

    未来的探索:安全与效率的统一

    尽管Safe RLHF取得了初步的成功,但研究者们也意识到,这一领域仍有许多挑战亟待解决。例如,如何进一步增强模型的适应性,使其在面对多轮对话时仍能保持高效的安全性,是未来研究的重要方向。此外,研究团队还希望能够引入更多的偏好类别,以进一步细化模型的输出。

    总之,Safe RLHF不仅为大型语言模型的安全性提供了一种新的解决方案,更为人类如何与机器协作指明了方向。在未来,我们期待在这一框架的基础上,能够看到更加智能和安全的AI系统悄然走入我们的生活。


    参考文献

    1. Juntao Dai, et al. “SAFE RLHF: SAFE REINFORCEMENT LEARNING FROM HUMAN FEEDBACK.” ICLR 2024.
    2. Ouyang et al. “Training language models to follow instructions with human feedback.” 2022.
    3. Christiano, et al. “Deep reinforcement learning from human preferences.” 2017.
    4. Ganguli, et al. “Red-teaming language models.” 2022.
    5. Bertsekas, D. P. “Nonlinear Programming.” 1997.
  • 当合成模型遇上合成数据:深度学习的循环游戏

    在深度学习的世界中,生成模型如同一位魔术师,能够生成出让人惊叹的合成数据。然而,随着合成数据的不断涌现,生成模型的训练也面临着前所未有的挑战。正如《华尔街日报》中的一篇文章所述,我们需要深入探讨在自我生成的数据上反复迭代训练生成模型的稳定性问题。本文将依据Quentin Bertrand及其合作者的研究,从多个角度解读这一复杂而又迷人的话题。

    合成数据的崛起:一场无止境的循环

    生成模型在过去几年中取得了巨大的进展,尤其是在处理复杂数据方面。它们的生成质量甚至超越了人类对样本真实性的识别能力。生成模型的成功,离不开海量的网络规模数据的支持。然而,随着这些模型的普及,网络上的合成内容也在不断增加,未来的生成模型将不可避免地在清洁数据与由过去模型生成的合成数据之间进行训练。

    研究团队提出了一个理论框架,用于研究在混合数据集上训练生成模型的影响,从经典的真实数据训练到完全依赖合成数据的自我消耗型生成模型。核心问题是:在有限的真实数据和自生成数据的混合数据集上训练,是否会改变模型的性能?

    理论框架的建立

    为了回答上述问题,研究团队首先证明了在初始生成模型能够足够好地逼近数据分布的条件下,迭代训练的稳定性。具体而言,稳定性要求两个条件:

    1. 初始生成模型需要足够“训练好”。
    2. 每次迭代时,保持足够的真实数据比例。

    在实验中,研究者们通过对CIFAR10和FFHQ等数据集的迭代训练,验证了这一理论框架。

    实证与理论的结合

    在实际操作中,研究者们使用了一些先进的生成模型,包括条件流匹配模型(OTCFM)、去噪扩散概率模型(DDPM)和阐明扩散模型(EDM)。通过多次迭代训练,研究者们观察到,单纯依靠合成数据进行迭代训练会导致模型崩溃。相反,当模型在混合的真实数据和合成数据上进行训练时,模型的生成质量与在真实数据上训练的结果相似。

    实验结果的启示

    实验结果表明,当生成模型仅在其生成的数据上进行训练时,样本的质量会显著下降,甚至最终导致模型崩溃。相反,如果在训练过程中引入足够比例的真实数据,则可以有效维持模型的稳定性。

    研究团队通过图表清晰地展示了这一现象。例如,图1显示了在不同迭代次数下,模型的生成样本在真实数据和合成数据的质量对比。随着迭代次数的增加,单独使用合成数据的模型生成的图像质量开始显著下降,而使用混合数据的模型则保持了较高的图像质量。

    理论与实践的结合

    在理论的支持下,研究者们还提出了生成模型的迭代训练过程的数学表达式。具体公式为:

    $$
    \Theta_{n}^{t+1} := \text{local-argmax}{\theta’ \in \Theta} \left( E{x \sim \hat{p}{data}} [\log p{\theta’}(x)] + \lambda E_{\tilde{x} \sim \hat{p}{\theta_t}} [\log p{\theta’}(\tilde{x})] \right)
    $$

    这一公式展示了在真实数据和合成数据之间的权衡,以及如何通过调整参数$\lambda$来控制模型的训练过程。

    未来的研究方向

    尽管目前的研究为生成模型的训练提供了新的视角和理论基础,但仍然存在许多未解之谜。例如,我们需要更深入地探讨合成数据对模型训练的长远影响,以及如何在未来的研究中更好地利用合成数据。

    结论

    总的来说,生成模型在自生成数据上的迭代训练是一个复杂而富有挑战性的领域。通过建立理论框架和实证研究,我们可以更好地理解如何在混合数据集上进行有效训练,从而推动生成模型的进一步发展和应用。


    参考文献

    1. Quentin Bertrand, Avishek (Joey) Bose, Alexandre Duplessis, Marco Jiralerspong, Gauthier Gidel. “On the Stability of Iterative Retraining of Generative Models on Their Own Data”. ICLR 2024.
    2. Shumailov et al. (2023).
    3. Alemohammad et al. (2023).
    4. Kaplan et al. (2020).
    5. Heusel et al. (2017).

    通过对这一研究的深入探讨,本文希望能为读者提供对生成模型迭代训练稳定性的更全面理解。未来的研究将进一步推动这一领域的发展,助力科学家们更好地利用生成模型。

  • 梦想中的模型:DREAMLLM 引领多模态理解与创造的新时代

    在科技的快速发展潮流中,人工智能的进步无疑是最引人注目的焦点之一。尤其是多模态大型语言模型(MLLMs)的出现,开启了机器理解与创造的新篇章。最近,一项名为 DREAMLLM 的研究突破了现有的技术瓶颈,将多模态理解与创造的能力进行了前所未有的结合。本文将深入探讨 DREAMLLM 的核心思想、技术细节及其在多模态任务中的表现,展现这个模型如何在理解与创造之间架起了一座桥梁。

    1. 理论背景与问题陈述

    “我无法创造的,我无法理解。”这句出自物理学家理查德·费曼的名言,恰如其分地道出了理解与创造之间的紧密联系。多模态理解与创造被认为是机器智能的核心目标之一。随着大型语言模型的成功,研究者们逐渐将其扩展到视觉领域,形成了多模态大型语言模型(MLLMs)。这些模型通过整合图像作为输入,增强了语言输出的多模态理解能力。然而,如何让这些模型同时具备生成图像、文本或两者的能力,仍然是一个未被充分探讨的领域。

    1.1 现有方法的局限性

    现有的多模态模型通常依赖于外部特征提取器(如 CLIP)来捕捉多模态之间的关系,但这种方法常常导致信息的损失和理解的局限。更重要的是,现有研究大多集中于条件图像生成,未能充分利用多模态理解与创造之间的潜在学习协同效应。

    2. DREAMLLM:突破性的学习框架

    DREAMLLM 作为一个全新的学习框架,旨在实现图像和文本后验的通用学习,并强调理解与创造之间的协同效应。该模型基于两个核心原则展开。

    2.1 直接生成原始数据

    DREAMLLM 不同于现有的多模态模型,它直接在原始的多模态空间中进行生成。这意味着输入和输出均为原始的图像和文本数据,而不是经过中间转换的特征表示。这样,模型能够在不丢失信息的情况下,学习到更为丰富的多模态后验分布。为了实现这一点,研究者们引入了“梦查询”(dream queries),这些可学习的嵌入捕捉了模型编码的语义信息。

    2.2 交错生成预训练(I-GPT)

    DREAMLLM 通过交错生成预训练(I-GPT)来学习从互联网获取的交错多模态文档。与以往的方法不同,DREAMLLM的解码过程能够处理复杂的交错布局结构,允许模型在生成过程中自主决定图像的位置。这一机制不仅提升了生成内容的多样性,还增强了模型的理解能力。

    3. 实验与结果

    DREAMLLM 的实验结果显示了其在多个多模态任务中的优越性能。例如,在 MS-COCO 数据集上,DREAMLLM-7B 模型的 Fréchet Inception Distance (FID) 达到了 8.46,显著优于现有的其他模型。此外,在 MMBench 和 MM-Vet 评估中,DREAMLLM 也取得了新的标杆分数,显示了其作为零-shot 多模态通才的能力。

    3.1 多模态理解的评估

    在多模态理解任务中,DREAMLLM 在图像到文本的描述、视觉问答等任务上表现优异。实验中,DREAMLLM的零-shot 评估显示出其在复杂多模态任务中的卓越能力。与传统模型相比,DREAMLLM 更好地捕捉了图像与文本之间的关系,展现了更强的空间与关系推理能力。

    3.2 文本条件的图像合成

    DREAMLLM 在文本条件图像合成任务中的表现也同样令人瞩目。在与其他文本到图像生成模型的比较中,DREAMLLM 显示出竞争力的结果,特别是在长文本描述上,其生成的图像质量显著优于基于 CLIP 的对比模型。

    4. 理论与实践的结合

    DREAMLLM 的成功不仅在于其实验性能的提升,更在于其理论上的创新。通过直接在像素空间中建模图像后验,DREAMLLM 避免了中间表示目标可能带来的信息损失。此外,交错文档的生成方式也为未来的多模态学习研究奠定了基础。

    5. 结论与未来展望

    DREAMLLM 的出现,标志着多模态理解与创造领域的一次重大进步。通过实现理解与创造之间的协同效应,该模型为未来的多模态学习提供了新的研究方向。随着技术的不断发展,我们期待 DREAMLLM 能够激发更多的创新思维,推动人工智能在多模态领域的进一步应用。

    参考文献

    1. Dong, R., Han, C., Peng, Y., Qi, Z., Ge, Z., Yang, J., Zhao, L., Sun, J., Zhou, H., Wei, H., Kong, X., Zhang, X., Ma, K., Yi, L. (2024). DREAMLLM: Synergistic Multimodal Comprehension and Creation. ICLR 2024.
    2. Huang, C., et al. (2023). Recent Advances in Multimodal Learning.
    3. Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision.
    4. Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models.
    5. Bommasani, R., et al. (2021). On the Opportunities and Risks of Foundation Models.

  • 逆袭的混合:Adversarial AutoMixup的深度学习革命

    在深度学习的海洋中,总有一些创新如同浪潮般汹涌而来,Adversarial AutoMixup便是其中一朵引人注目的浪花。它不仅仅是一个简单的数据增强方法,更是通过对抗性训练的巧妙设计,彻底改变了我们对图像分类的理解。这一切的背后,是一群来自重庆科技大学、巴黎综合理工学院以及重庆邮电大学的研究者们的智慧结晶。

    数据增强的演变

    数据增强(Data Augmentation)在深度学习中扮演着至关重要的角色,尤其是在图像分类任务中。传统的手工混合方法,如CutMix和ResizeMix,通过简单的拼接或区域替换来生成新的训练样本,虽然有效,但往往忽略了样本的上下文信息,导致标签不匹配的现象。随着技术的发展,自动化的数据增强方法逐渐崭露头角,它们通过神经网络自动生成混合样本,试图克服这些局限。

    然而,现有的自动混合方法如AutoMix仍然存在一个问题:它们在优化两个子任务时,往往导致生成的样本缺乏多样性,进而可能导致模型过拟合。这就是Adversarial AutoMixup(简称AdAutoMixup)应运而生的原因。

    AdAutoMixup的核心理念

    AdAutoMixup的核心在于其对抗性训练的策略。该方法通过交替优化分类器和混合样本生成器,旨在生成具有挑战性的样本,以提高分类器的鲁棒性。具体而言,AdAutoMixup包含两个模块:混合样本生成器和目标分类器。

    混合样本生成器的任务是生成具有挑战性的混合示例,以考验目标分类器的能力。而目标分类器则需要从这些困难的混合样本中学习到更为稳健的特征。为了避免图像固有含义的崩溃,AdAutoMixup还引入了指数移动平均(EMA)教师模型和余弦相似性来进行端到端的训练。这种方法的独特之处在于,它不仅生成了新的样本,还通过对抗性训练强化了模型的学习能力。

    实验验证

    在七个图像基准数据集上的广泛实验中,AdAutoMixup的表现超越了现有的最先进技术。例如,在CIFAR-100数据集上,使用ResNet18模型经过AdAutoMixup训练后,其分类准确率比第二名提高了0.28%。类似地,在Tiny-ImageNet和ImageNet-1K等数据集上,AdAutoMixup也展现了卓越的性能。

    精确度的提升

    通过实验数据可以清晰地看到,AdAutoMixup在多个数据集上均有显著的提升。例如,ResNet18在Tiny-ImageNet上的准确率提升了1.86%,而ResNeXt50在同一数据集上的提升则达到了2.17%。这种性能的提升不仅归功于对抗性样本的生成,还得益于模型在训练过程中对样本多样性的有效捕捉。

    鲁棒性与稳定性

    AdAutoMixup在鲁棒性测试中表现也相当优异。在面对不同类型的图像污染时,该方法能够保持较高的分类准确率,明显优于其他混合方法。此外,通过校准测试,AdAutoMixup的预期校准误差(ECE)达到了最低值,表明其在分类任务中能够有效减轻模型的过度自信现象。

    总结与展望

    Adversarial AutoMixup的提出为深度学习领域的数据增强方法带来了新的思路。它通过对抗性训练,生成高质量的混合样本,不仅提升了分类器的性能,更为未来的研究提供了广阔的空间。随着对抗性训练的不断发展,我们可以期待在更复杂的场景下,AdAutoMixup将展现出更强大的能力。

    参考文献

    1. Qin, H., Jin, X., Jiang, Y., El-Yacoubi, M. A., & Gao, X. (2024). Adversarial AutoMixup. ICLR.
    2. Zhang, H., Cisse, M., Dauphin, Y. N., & Grosse, R. (2017). Mixup: Beyond Empirical Risk Minimization. ICLR.
    3. Yun, S., Han, D., Oh, S. J., & Rhee, K. H. (2019). CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features. ICCV.
    4. Verma, V., Lamb, A., & Grosse, R. (2019). Manifold Mixup: Better Representations by Interpolating Hidden States. ICLR.
    5. Liu, Z., et al. (2022). AutoMix: Automatic Mixup Data Augmentation. ICLR.

  • LoRA 大混战:看 Punica 如何玩转多租户模型服务

    各位看官,近年来,大型语言模型(LLM)如雨后春笋般涌现,令人眼花缭乱。而 LoRA(低秩适应)作为一种高效的 LLM 微调方法,更是备受瞩目。试想一下,如果能将多个 LoRA 模型部署到同一个 GPU 集群中,那该是多么美妙的事情啊!今天,就让我们走近 Punica,一窥它如何巧妙地实现多租户 LoRA 模型服务。

    一、 LoRA 模型服务:机遇与挑战并存

    俗话说,”好马配好鞍”,强大的 LoRA 模型也需要高效的部署方案才能发挥其最大威力。然而,传统的 LLM 服务系统却难以满足多租户 LoRA 模型服务的特殊需求。

    想象一下,如果将每个 LoRA 模型都视为独立的模型进行部署,就如同在一个本就拥挤的舞台上,硬生生地塞进更多演员,结果必然是资源紧张,性能低下。

    那么,如何才能打造一个高效的多租户 LoRA 模型服务系统呢? Punica 的设计者们总结了三条宝贵的设计准则:

    (G1) “寸土寸金”: GPU 资源宝贵,必须充分利用,将多租户 LoRA 工作负载整合到尽可能少的 GPU 上。

    (G2) “众人拾柴火焰高”: 批处理是提高性能和 GPU 利用率的有效手段,但如何对不同 LoRA 模型进行批处理,却是一个难题。

    (G3) “擒贼先擒王”: 解码阶段是模型服务的性能瓶颈,因此优化重点应放在解码阶段。

    二、 Punica:多租户 LoRA 模型服务的”妙计”

    Punica 就像一个技艺高超的”魔术师”,它巧妙地将多个 LoRA 模型”变”到同一个 GPU 集群中,并保证每个模型都能流畅运行。

    1. SGMV:批处理不同 LoRA 模型的”魔法棒”

    Punica 的核心创新在于其独特的 CUDA 内核设计——SGMV(分段收集矩阵向量乘法)。SGMV 就像一根神奇的”魔法棒”,能够将不同 LoRA 模型的 GPU 操作批处理起来,从而实现高效的并行计算。

    具体来说,SGMV 将来自不同 LoRA 模型的输入特征向量拼接成一个大的特征矩阵,并根据 LoRA 模型对矩阵进行分段。然后,SGMV 利用 GPU 的并行计算能力,对每个分段进行矩阵向量乘法运算,并将结果累加到对应的输出向量中。

    通过这种方式,Punica 只需要在 GPU 内存中存储一份预训练模型的副本,就能同时为多个 LoRA 模型提供服务,极大地提高了 GPU 的内存和计算效率。

    2. Punica 的调度策略:让 LoRA 模型”各就各位”

    除了 SGMV,Punica 还采用了一系列先进的系统优化技术,包括:

    • 按需加载模型: Punica 只在需要时才将 LoRA 模型的权重加载到 GPU 内存中,从而缩短模型加载时间。
    • 请求迁移: 当 GPU 内存不足时,Punica 会将部分请求迁移到其他 GPU 上,以保证服务的稳定性。
    • 可分离的 KvCache 布局: Punica 采用可分离的 KvCache 布局,避免了传统布局中存在的内存碎片问题,提高了 KvCache 的利用率。

    三、 Punica 性能评估:以实力说话

    Punica 的设计者们对系统进行了全面的性能评估,结果表明 Punica 在多租户 LoRA 模型服务方面表现出色。

    在使用 NVIDIA A100 GPU 集群进行的测试中,Punica 的吞吐量比现有的 LLM 服务系统高出 12 倍,而每个 token 的延迟仅增加了 2 毫秒。

    四、 Punica 的未来:充满无限可能

    Punica 的出现为多租户 LoRA 模型服务提供了一种高效可行的解决方案。未来,Punica 还将继续发展,支持更多类型的模型和硬件平台,为 LLM 的广泛应用铺平道路。

    参考文献

    • Hu, Edward J., et al. “Lora: Low-rank adaptation of large language models.” arXiv preprint arXiv:2106.09685 (2021).
    • Touvron, Hugo, et al. “Llama 2: Open foundation and fine-tuned chat models.” arXiv preprint arXiv:2307.09288 (2023).
    • Dao, Tri, et al. “Flashattention: Fast and memory-efficient exact attention with io-awareness.” Advances in Neural Information Processing Systems 35 (2022): 16345-16358.
    • Kwon, Youngjoon, et al. “vllm: Easy, performant, and scalable serving with pagedattention.” arXiv preprint arXiv:2309.01335 (2023).
    • Shoeybi, Mohammad, et al. “Megatron-lm: Training multi-billion parameter language models using model parallelism.” arXiv preprint arXiv:1909.08053 (2019).
  • 当机器试图理解因果:一场视觉与逻辑的角逐

    —— 新基准测试揭示人工智能视觉推理的优势与短板

    近年来,大型语言模型(LLMs)在理解文本信息、进行因果推理方面展现出了惊人的能力。然而,当面对纯粹的视觉线索时,这些擅长文字游戏的模型还能否像福尔摩斯一样洞察秋毫,推断出图像背后的因果关系呢?为了解答这个疑问,我们开发了一个名为MuCR的多模态因果推理基准测试,旨在挑战视觉大型语言模型(VLLMs)仅凭视觉线索推断因果关系的能力。

    想象一下,如果机器能够通过观察一系列图像,就能像经验丰富的侦探一样,识别出微妙的视觉线索,并推理出事件发生的来龙去脉,那将是多么令人兴奋!然而,现实中的VLLMs真的准备好了吗?

    MuCR:一场精心设计的视觉推理挑战赛

    MuCR基准测试的独特之处在于,它提供成对的图像,并要求VLLMs分析这些图像之间的因果关系。为了使挑战更具趣味性和真实性,我们采用了一种新颖的“提示驱动图像合成”方法。简单来说,我们首先使用LLMs生成描述因果关系的文本描述,例如“他吃了太多冰淇淋”和“他肚子疼”。然后,我们使用先进的图像生成模型,如DALL-E和Stable Diffusion,将这些文本描述转化为栩栩如生的图像。

    为了确保MuCR数据集的丰富性和多样性,我们涵盖了各种类别,包括人物、动物、植物、卡通角色以及它们的混合场景。此外,我们还采用了不同的图像风格,例如写实的摄影风格和夸张的漫画风格。

    三重考验:全方位评估VLLMs的推理能力

    为了全面评估VLLMs的因果推理能力,我们设计了三个层次的指标:

    1. 图像级别: 就像玩“连连看”游戏一样,我们为模型提供一张“原因”图像和四张候选的“结果”图像,让模型从中选择最符合逻辑的那一张。这个指标直接测试了VLLMs能否识别图像之间的因果关系。
    2. 短语级别: 我们为模型提供一组与图像相关的短语,其中只有一个短语准确地描述了图像之间的因果关系。例如,对于“他淋雨了”和“他感冒了”这两张图片,正确的短语应该是“感冒”,而不是“雨伞”或“鞋子”。
    3. 句子级别: 我们要求模型用完整的句子解释图像之间的因果关系,就像一个小学生在讲述故事一样。这个指标考察了VLLMs能否用自然语言清晰地表达因果关系。

    结果揭晓:喜忧参半,任重道远

    我们选择了当前最先进的开源和内部VLLMs,并进行了大量的实验。结果表明,开源模型在MuCR上的表现普遍不佳,甚至与随机猜测的结果相当。这主要是因为开源模型的视觉理解能力还比较薄弱,难以准确地识别图像中的关键信息。

    相比之下,内部模型的表现要好得多,但仍然无法达到人类的水平。例如,在短语级别测试中,即使是表现最好的GPT-4o模型,其准确率也只有57.25%,而人类的准确率高达90.50%。这表明,当前的VLLMs在多模态因果推理方面还有很大的提升空间。

    剖析不足:视觉与逻辑的博弈

    那么,究竟是什么原因导致VLLMs在MuCR上表现不佳呢?

    • 开源模型: 主要问题在于视觉感知能力不足。许多开源模型只能识别图像中的基本元素,例如人物、物体和场景,但无法理解更细微的视觉线索,例如人物的表情、动作和服装。
    • 内部模型: 主要问题在于语言模型中强大的因果知识先验。换句话说,这些模型可能过度依赖自身的语言知识,而忽略了图像中提供的视觉证据。

    展望未来:通往更强大的视觉推理之路

    MuCR基准测试的提出,为多模态因果推理的研究提供了一个宝贵的平台。为了进一步提升VLLMs的性能,未来的研究可以关注以下方向:

    • 增强视觉感知能力: 可以探索更强大的视觉编码器,或者采用多阶段的视觉推理机制,帮助模型更好地理解图像中的视觉线索。
    • 平衡语言知识与视觉证据: 可以设计新的训练目标,鼓励模型在进行因果推理时,更加重视视觉证据,而不是过度依赖自身的语言知识。
    • 探索更丰富的视觉输入形式: 可以尝试使用多张图像、视频或者3D场景作为输入,为模型提供更全面的视觉信息。

    总而言之,MuCR基准测试揭示了当前VLLMs在多模态因果推理方面的优势和不足,并为未来的研究指明了方向。相信随着技术的不断进步,VLLMs将最终具备像人类一样强大的视觉推理能力,并在各个领域发挥更大的作用。

    参考文献

    • Zhiyuan Li, Heng Wang, Dongnan Liu, Chaoyi Zhang, Ao Ma, Jieting Long, Weidong Cai. Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images. arXiv preprint arXiv:2408.08105v1, 2024.
    • Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805, 2018.
    • Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever. Language Models are Unsupervised Multitask Learners. OpenAI blog, 2019.
    • Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever. DALL-E: Creating Images from Text. arXiv preprint arXiv:2102.12092, 2021.
    • Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer. High-Resolution Image Synthesis with Latent Diffusion Models. arXiv preprint arXiv:2112.10752, 2021.
  • Poe:从复读机到PDF计数器,手把手教你打造爆款聊天机器人!

    “ChatGPT太卷了,我也想做聊天机器人!”

    别担心,Poe平台让你轻松成为“机器人大亨”!

    Poe是什么?简单来说,它是一个聊天机器人平台,提供了各种各样的机器人供用户使用。更重要的是,Poe还提供了一套工具,让你可以创建并部署自己的聊天机器人,无需从头开始构建复杂的架构。

    第一步:复读机入门

    俗话说,万事开头难。Poe平台深谙此道,特意准备了“复读机”入门教程。别小看复读机,它可是检验你是否成功搭建开发环境的关键!

    Poe平台推荐使用fastapi_poemodal进行部署。按照教程,运行modal deploy echobot.py,一个活灵活现的复读机就诞生了!

    第二步:进阶玩法,PromptBot

    掌握了基础,接下来就该学习进阶玩法了!PromptBot是一个基于Prompt的聊天机器人,它利用Poe平台承担推理成本,让你无需担心高昂的费用。

    Poe平台提供了一个使用Claude-3-Haiku模型的例子,这个机器人可以生成优美的俳句。运行modal deploy prompt_bot.py,并根据教程同步机器人设置,你的俳句生成器就上线了!

    第三步:OpenAI API加持,WrapperBot

    想要使用自己的模型?没问题!WrapperBot可以让你轻松调用OpenAI API,实现更个性化的功能。

    你需要准备自己的OpenAI API密钥,然后运行modal deploy wrapper_bot.py,一个基于OpenAI模型的聊天机器人就诞生了!

    第四步:花式炫技,CatBot和ImageResponseBot

    Poe平台支持Markdown语法,让你的机器人不仅能说会道,还能“图文并茂”!

    CatBot利用Markdown展示可爱的猫咪图片,运行modal deploy catbot.py即可体验。ImageResponseBot则更进一步,可以根据你的指令生成相应的图片,运行modal deploy image_response_bot.py,开启你的“AI画师”之旅!

    第五步:文件交互,VideoBot和PDFCounterBot

    想要实现更复杂的功能?Poe平台支持文件上传和下载,让你的机器人如虎添翼!

    VideoBot可以向你发送视频文件,运行modal deploy video_bot.py,并根据教程同步机器人设置,你的专属“视频号”就开播了!PDFCounterBot则可以统计PDF文件中的页数,运行modal deploy pdf_counter_bot.py,并同步机器人设置,你的PDF文件助手就位!

    第六步:高级功能,FunctionCallingBot

    Poe平台还提供了函数调用功能,让你可以轻松实现更复杂的任务。

    运行modal deploy function_calling_bot.py,并根据教程同步机器人设置,你的机器人就能调用各种函数了!

    第七步:调试利器,LogBot和HTTPRequestBot

    开发过程中难免遇到bug,Poe平台提供了LogBot和HTTPRequestBot帮助你快速定位问题。

    LogBot可以记录用户请求信息,运行modal deploy log_bot.py即可使用。HTTPRequestBot则可以访问HTTP请求信息,运行modal deploy http_request_bot.py,轻松排查网络问题!

    第八步:实时PK,TurboVsClaudeBot

    想体验不同模型之间的差异?TurboVsClaudeBot让你可以实时比较GPT-3.5-Turbo和Claude模型的输出结果。

    运行modal deploy turbo_vs_claude.py,并根据教程同步机器人设置,一场“AI巅峰对决”即将上演!

    结语

    Poe平台为广大开发者提供了一个便捷易用的聊天机器人创建平台,从简单的复读机到功能强大的函数调用机器人,Poe都能满足你的需求。

    还等什么?快来Poe平台 unleash your creativity,打造属于你的爆款聊天机器人吧!

    参考文献

  • Poe:从复读机到PDF计数器,手把手教你打造爆款聊天机器人!

    “ChatGPT太卷了,我也想做聊天机器人!”

    别担心,Poe平台让你轻松成为“机器人大亨”!

    Poe是什么?简单来说,它是一个聊天机器人平台,提供了各种各样的机器人供用户使用。更重要的是,Poe还提供了一套工具,让你可以创建并部署自己的聊天机器人,无需从头开始构建复杂的架构。

    第一步:复读机入门

    俗话说,万事开头难。Poe平台深谙此道,特意准备了“复读机”入门教程。别小看复读机,它可是检验你是否成功搭建开发环境的关键!

    Poe平台推荐使用fastapi_poemodal进行部署。按照教程,运行modal deploy echobot.py,一个活灵活现的复读机就诞生了!

    第二步:进阶玩法,PromptBot

    掌握了基础,接下来就该学习进阶玩法了!PromptBot是一个基于Prompt的聊天机器人,它利用Poe平台承担推理成本,让你无需担心高昂的费用。

    Poe平台提供了一个使用Claude-3-Haiku模型的例子,这个机器人可以生成优美的俳句。运行modal deploy prompt_bot.py,并根据教程同步机器人设置,你的俳句生成器就上线了!

    第三步:OpenAI API加持,WrapperBot

    想要使用自己的模型?没问题!WrapperBot可以让你轻松调用OpenAI API,实现更个性化的功能。

    你需要准备自己的OpenAI API密钥,然后运行modal deploy wrapper_bot.py,一个基于OpenAI模型的聊天机器人就诞生了!

    第四步:花式炫技,CatBot和ImageResponseBot

    Poe平台支持Markdown语法,让你的机器人不仅能说会道,还能“图文并茂”!

    CatBot利用Markdown展示可爱的猫咪图片,运行modal deploy catbot.py即可体验。ImageResponseBot则更进一步,可以根据你的指令生成相应的图片,运行modal deploy image_response_bot.py,开启你的“AI画师”之旅!

    第五步:文件交互,VideoBot和PDFCounterBot

    想要实现更复杂的功能?Poe平台支持文件上传和下载,让你的机器人如虎添翼!

    VideoBot可以向你发送视频文件,运行modal deploy video_bot.py,并根据教程同步机器人设置,你的专属“视频号”就开播了!PDFCounterBot则可以统计PDF文件中的页数,运行modal deploy pdf_counter_bot.py,并同步机器人设置,你的PDF文件助手就位!

    第六步:高级功能,FunctionCallingBot

    Poe平台还提供了函数调用功能,让你可以轻松实现更复杂的任务。

    运行modal deploy function_calling_bot.py,并根据教程同步机器人设置,你的机器人就能调用各种函数了!

    第七步:调试利器,LogBot和HTTPRequestBot

    开发过程中难免遇到bug,Poe平台提供了LogBot和HTTPRequestBot帮助你快速定位问题。

    LogBot可以记录用户请求信息,运行modal deploy log_bot.py即可使用。HTTPRequestBot则可以访问HTTP请求信息,运行modal deploy http_request_bot.py,轻松排查网络问题!

    第八步:实时PK,TurboVsClaudeBot

    想体验不同模型之间的差异?TurboVsClaudeBot让你可以实时比较GPT-3.5-Turbo和Claude模型的输出结果。

    运行modal deploy turbo_vs_claude.py,并根据教程同步机器人设置,一场“AI巅峰对决”即将上演!

    结语

    Poe平台为广大开发者提供了一个便捷易用的聊天机器人创建平台,从简单的复读机到功能强大的函数调用机器人,Poe都能满足你的需求。

    还等什么?快来Poe平台 unleash your creativity,打造属于你的爆款聊天机器人吧!

    参考文献

  • 当流程挖掘遇上AI智能体:一场效率革命?

    想象一下,你是一位经验丰富的侦探,正试图破解一桩复杂的案件。你面对着堆积如山的线索:目击证词、法医报告、嫌疑人背景等等。你该如何着手?你会依靠直觉,还是逐一分析每个细节?

    现在,假设你有一位能力超群的助手,他可以帮你整理线索、分析数据,甚至预测嫌疑人的下一步行动。这位助手,就是我们今天要探讨的主角——AI智能体。

    在流程挖掘领域,我们也面临着类似的挑战。企业每天都在产生海量的事件数据,这些数据就像散落在案发现场的线索,蕴藏着关于业务流程效率和问题的宝贵信息。传统的流程挖掘技术,就像一位经验丰富的侦探,可以帮助我们从这些数据中发现规律、识别瓶颈。然而,面对日益复杂的流程和海量的事件数据,传统的流程挖掘技术也显得力不从心。

    近年来,大型语言模型(LLM)的快速发展为流程挖掘带来了新的可能性。LLM就像那位能力超群的助手,可以理解自然语言、生成代码,甚至进行推理和决策。将LLM应用于流程挖掘,可以帮助我们更深入地理解流程、更快地识别问题、更有效地优化流程。

    流程挖掘的AI智能体时代

    早期的研究尝试直接将流程挖掘任务交给LLM处理,例如将流程挖掘的结果转换为文本,让LLM进行分析和解读。这种方法在处理简单的流程挖掘任务时取得了一定的效果,但对于需要多步骤推理和复杂分析的任务,LLM的表现却不尽如人意。

    为了解决这个问题,研究人员提出了基于AI智能体工作流(AgWf)的流程挖掘方法。AgWf将复杂的流程挖掘任务分解成多个简单的子任务,每个子任务由专门的AI智能体负责处理。

    举个例子,假设我们要分析一个事件日志,找出其中是否存在不公平现象。传统的流程挖掘方法可能会尝试直接从整个事件日志中寻找不公平的证据,而AgWf则会将这个任务分解成以下几个子任务:

    1. 识别受保护群体: 首先,我们需要确定哪些群体是需要特别关注的,例如不同性别、种族或年龄段的员工。
    2. 比较不同群体的行为: 然后,我们需要比较受保护群体和其他群体的行为,看看是否存在显著差异。
    3. 分析差异的原因: 最后,我们需要分析造成差异的原因,例如流程设计上的缺陷、人为的偏见或数据质量问题。

    每个子任务都可以由专门的AI智能体负责处理。例如,第一个子任务可以使用自然语言处理技术从事件日志中提取与受保护群体相关的信息;第二个子任务可以使用统计分析技术比较不同群体的行为;第三个子任务可以使用机器学习技术识别造成差异的原因。

    AgWf:流程挖掘的“瑞士军刀”

    AgWf就像一把“瑞士军刀”,可以根据不同的流程挖掘任务灵活地组合不同的AI智能体和工具。

    在AgWf中,常见的AI智能体类型包括:

    • 提示优化器: 负责将用户的自然语言查询转换为AI智能体可以理解的指令。
    • 集成器: 负责将多个AI智能体的结果整合起来,形成最终的结论。
    • 路由器: 负责根据任务的类型和数据的特点,将任务分配给最合适的AI智能体。
    • 评估器: 负责评估AI智能体的结果,并根据需要进行调整。
    • 结果改进器: 负责改进AI智能体的结果,例如提高结果的准确性、可读性或可解释性。

    除了AI智能体,AgWf还可以集成各种流程挖掘工具和技术,例如流程发现、一致性检查、预测分析等等。通过将AI智能体和传统工具相结合,AgWf可以充分发挥两者的优势,实现更高效、更智能的流程挖掘。

    未来展望:AgWf的挑战与机遇

    AgWf为流程挖掘带来了新的可能性,但也面临着一些挑战:

    • 自动构建AgWf: 目前,AgWf的构建主要依赖人工经验。如何自动地根据任务需求和数据特点构建最优的AgWf,是一个值得研究的问题。
    • 评估AgWf的效果: 如何评估AgWf的效果,以及如何比较不同AgWf的优劣,也是一个需要解决的问题。
    • 人机协同: 在AgWf中,如何实现人机协同,充分发挥人和机器的各自优势,也是一个重要的研究方向。

    尽管面临着挑战,但AgWf的未来充满希望。随着LLM技术的不断发展和AgWf研究的不断深入,AgWf将为流程挖掘带来一场效率革命,帮助我们更好地理解和优化业务流程,提升企业的效率和竞争力。

    参考文献

    [1] Abuelsaad, T., et al. (2024). Agent-e: From autonomous web navigation to foundational design principles in agentic systems. arXiv preprint arXiv:2407.13032.
    [2] Berti, A., et al. (2024). Pm-llm-benchmark: Evaluating large language models on process mining tasks.
    [3] Berti, A., et al. (2024). Evaluating Large Language Models in Process Mining: Capabilities, Benchmarks, Evaluation Strategies, and Future Challenges. In Proceedings of the BPM-DS 2024 Working Conference. Springer.
    [4] Jessen, U., et al. (2023). Chit-chat or deep talk: Prompt engineering for process mining.
    [5] Li, Y., et al. (2023). Metaagents: Simulating interactions of human behaviors for llm-based task-oriented coordination via collaborative generative agents.

  • 在长序列预测的战斗中,Informer如何逆转乾坤?

    在深度学习的世界中,时间序列预测是一项极具挑战性的任务,尤其是当我们面对长序列数据时。传统的模型在处理长序列时往往显得力不从心,尤其是在速度和内存使用方面。为了应对这一挑战,研究人员们提出了各种创新的解决方案。其中,Informer模型作为一种基于Transformer的架构,脱颖而出,成为了长序列时间序列预测领域的一颗新星。

    Transformer的局限性

    首先,让我们审视一下传统Transformer在时间序列预测中存在的几个主要问题。Transformer模型中的自注意力机制在处理输入序列时,其时间和空间复杂度为$O(L^2)$,其中$L$为序列的长度。这意味着,序列越长,计算的复杂度就越高。此外,多个编码器和解码器堆叠时,内存占用也急剧增加,导致模型无法有效处理长序列。而在预测长时间序列时,Transformer的逐步推理过程就像RNN一样缓慢,并且在动态解码中还可能出现错误传递的问题。

    因此,如何在保留Transformer优势的同时,克服这些局限性,成为了Informer模型设计的核心问题。

    Informer的创新设计

    Informer的设计灵感源于对Transformer模型的深刻理解与改进,其主要贡献可以归结为以下三点:ProbSparse自注意力机制、自注意力蒸馏和生成式解码器。

    1. ProbSparse自注意力机制

    在传统的自注意力机制中,每个Query都需要与所有的Key进行计算,这导致了计算量的急剧增加。为了解决这一问题,Informer引入了ProbSparse自注意力机制。该机制通过概率的角度来选择最重要的Query,从而降低计算复杂度。

    具体而言,Informer首先在Key中随机采样一定数量的元素,然后计算Query与这些Key的点积,形成得分矩阵。接下来,选择得分最高的Query进行后续计算。通过这种方式,Informer显著降低了计算复杂度,达到$O(L \log L)$,实现了高效的计算。

    2. 自注意力蒸馏

    为了进一步提高模型的效率,Informer采用了自注意力蒸馏技术。该技术通过在相邻的注意力块之间加入卷积池化操作,将输入序列的长度缩小为原来的二分之一。这一过程不仅降低了计算量,还能有效保留序列的主要特征。

    3. 生成式解码器

    传统的解码器通常是逐步生成输出,而Informer则采用了生成式解码器的设计。通过提供一个起始标记,Informer能够一次性生成所有预测结果。这种设计大幅度提高了预测的速度和准确性,避免了逐步推理带来的延迟。

    应用场景与实验结果

    Informer的设计使其在多个实际应用中表现出色,包括股票预测、机器人动作预测和疫情数据预测等。通过在多个公开数据集上进行实验,Informer展现出了超越传统模型的预测能力和效率。实验结果表明,Informer在长序列预测中显著提高了预测的准确性,并且在速度上也表现优异。

    源码解析与实施

    对于想要深入了解Informer模型的研究人员,阅读其源码是不可或缺的一步。Informer的实现代码可以在GitHub上找到,项目结构清晰,主要包括数据加载、模型训练及评估等模块。通过对代码的逐行分析,研究人员可以更好地理解Informer的工作原理,并在自己的项目中进行实施和改进。

    环境搭建

    在进行源码实验之前,需要搭建合适的开发环境。使用Anaconda和PyTorch进行环境配置,可以确保模型的顺利运行。通过安装必要的依赖和库,用户可以很快启动Informer的实验。

    数据输入与处理

    Informer支持多种类型的数据输入,包括CSV文件格式。用户可以根据自己的需求修改数据处理部分,以适配不同的数据集。通过合理的预处理,确保数据的标准化和特征提取,能够大幅提升模型的性能。

    模型训练与评估

    在模型训练阶段,用户需要设置合适的超参数,如批量大小、学习率和训练轮数等。通过监控训练过程中的损失函数变化,研究人员可以判断模型的学习效果,并进行必要的调整。

    总结

    Informer模型的提出,不仅仅是Transformer在长序列预测中的一次简单改进,而是对时间序列预测问题的深刻反思与创新。通过引入ProbSparse自注意力机制、自注意力蒸馏和生成式解码器,Informer在处理长序列任务时展现出了前所未有的速度和准确性。这使得它在多个领域中具备了广泛的应用前景。

    未来,随着对长序列时间序列预测需求的不断增加,Informer模型有望带来更多的研究与应用突破,成为这一领域的重要工具。

    参考文献

    1. Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting
    2. GitHub – zhouhaoyi/Informer2020
    3. CSDN博客:源码阅读及理论详解《Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting》