引言 🌟
在人工智能快速发展的今天,大语言模型(LLMs)如ChatGPT已经成为人们日常生活中不可或缺的助手。然而,当前大多数LLM仍然局限于文本输入和输出,限制了它们在语音交互场景中的应用。幸运的是,GPT-4o的出现为我们开启了一扇新窗口,使得LLM能够通过语音进行实时互动,极大地提升了用户体验。但在开源社区中,如何基于LLM构建语音交互模型仍然缺乏深入探索。
为了解决这一问题,研究者提出了LLaMA-Omni,一种新型模型架构,旨在实现低延迟和高质量的语音交互。LLaMA-Omni集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够直接从语音指令生成文本和语音响应,无需中间的语音转录过程。这一创新不仅使得响应延迟降至226毫秒,还大幅提升了语音交互的效率。
LLaMA-Omni模型架构 🏗️
LLaMA-Omni的模型架构如图1所示,主要由以下几部分组成:
- 语音编码器:我们采用Whisper-large-v3作为语音编码器,能够从用户的语音指令中提取出有意义的表示。 $$
\mathbf{H} = \mathcal{E}(X^S)
$$ - 语音适配器:为了使LLM能够理解输入的语音,我们引入了可训练的语音适配器,将语音表示映射到LLM的嵌入空间。 $$
\mathbf{S} = \mathcal{A}(\mathbf{H}) = \text{Linear}(\text{ReLU}(\text{Linear}(\text{DownSample}(\mathbf{H}))))
$$ - 大语言模型:我们使用Llama-3.1-8B-Instruct作为LLM,其强大的推理能力和与人类偏好的良好对齐使其成为理想选择。
- 流式语音解码器:流式语音解码器采用非自回归(NAR)流式Transformer结构,能够根据LLM的输出隐藏状态同时生成语音响应。 $$
P(a_i | \mathbf{O}) = \text{softmax}(\mathbf{W}\mathbf{o}_i + \mathbf{b})[a_i]
$$
通过以上架构,LLaMA-Omni能够在低延迟的情况下同时生成高质量的文本和语音响应。
语音指令数据集的构建 📊
为了训练LLaMA-Omni,我们构建了一种名为InstructS2S-200K的数据集,包含200K个语音指令和相应的语音响应。构建过程分为三个步骤:
- 指令重写:根据语音输入的特点,对现有文本指令进行重写,增加填充词和转换非文本符号。
- 响应生成:使用LLaMA-3-70B-Instruct模型生成适合语音交互的简洁响应,确保不包含无法合成的内容。
- 语音合成:通过TTS模型将指令和响应转化为语音,确保合成语音的自然性。
实验设置与评估 🧪
我们对LLaMA-Omni进行了多项实验,评估其在语音指令跟随(S2TIF)和语音到语音指令跟随(S2SIF)任务上的表现。实验中,我们使用GPT-4o对模型的响应进行评分,评估其内容和风格的适应性。同时,我们还计算了文本响应与语音响应的对齐度、生成语音的质量以及响应延迟等关键指标。
主要结果 🥇
根据实验结果,LLaMA-Omni在内容和风格的评分上均优于现有模型,显示出其在语音交互场景中的强大能力。特别是在ASR-WER和ASR-CER指标上,LLaMA-Omni也表现出最低的错误率,证明其在生成文本和语音响应的对齐性上具有显著优势。
语音质量与响应延迟的权衡 ⚖️
我们还探讨了语音质量与响应延迟之间的权衡关系。实验表明,较小的单位块大小能够显著降低系统延迟,但可能会影响语音的连贯性。通过调整单位块大小,我们可以在不同场景下实现响应延迟与语音质量的最佳平衡。
结论 🎉
LLaMA-Omni的提出标志着低延迟和高质量语音交互模型的新突破。通过合理的模型设计和高效的数据集构建,LLaMA-Omni不仅提升了语音交互的用户体验,还为未来更复杂的语音指令跟随任务奠定了基础。我们期待在未来进一步探索提升生成语音响应的表现力以及改进实时交互能力的可能性。
参考文献 📚
- OpenAI (2024). Hello gpt-4o. URL: OpenAI
- Zhu, Y., et al. (2023). SpeechGPT: Empowering large language models with intrinsic cross-modal conversational abilities. In Proceedings of EMNLP 2023.
- Zhang, D., et al. (2023). Audiopalm: A large language model that can speak and listen. arXiv preprint arXiv:2306.12925.
- Radford, A., et al. (2023). Robust speech recognition via large-scale weak supervision. In ICML.
- Kim, J., et al. (2021). Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.
通过以上内容,我们展示了LLaMA-Omni在语音交互领域的创新与成果。期待未来在这一领域的进一步突破与发展!