InfoGaps | 信息差

博客

利用大型语言模型提升客户支持服务的创新方法
作者：Dean Wyatte, Fatemeh Tahmasbi, Ming Li, Thomas Markovich

大型语言模型（Large Language Models，LLMs）在生成多样化查询的合理答案方面表现出色，代表了机器学习模型的一次重大飞跃。然而，这些模型在客户支持应用中也面临着一系列挑战，例如容易产生幻觉（hallucination）和数据泄露风险。本文将探讨如何通过将语言建模任务重新定义为判别性分类任务，来利用LLMs增强客户支持服务。

问题背景与研究目标

尽管LLMs在生成多样化查询的合理答案方面表现出色，但它们的短期应用在客户支持中面临挑战。幻觉答案和数据泄露风险使得它们的直接应用受到限制。为了解决这些问题，本文提出了一种系统，将语言建模任务重新定义为判别性分类任务，帮助客服代表选择最佳的模板回复。

方法论：两阶段训练流程

为了有效利用LLMs来增强客户支持服务，本文提出了一个两阶段训练流程：

领域适应性预训练（Domain Adaptive Pre-training）

首先，使用预训练的LLM，并在目标领域的数据上继续预训练。本文使用了Cash App客户支持记录的数据进行预训练，这有助于模型学习特定领域的语言和上下文。

判别性微调（Discriminative Fine-tuning）

在领域适应的基础上，添加一个新的线性层，并在标记了客服代表模板回复选择的较小数据集上进行端到端的微调，以产生最终的分类器。

数据集准备与模型选择

数据集准备

本文使用Cash App客户支持记录构建数据集，并进行了处理以去除个人识别信息（PII），确保数据安全和隐私。

模型选择

选用了基于GPTNeoX架构的Pythia系列LLMs，这些模型在预训练阶段已经学习了大量的通用网络数据。

实验设计与结果

离线训练和评估（Offline Training and Evaluation）

通过不同的指标（如FLOPs、语言模型损失、分类损失等）来评估模型在不同规模下的性能和效率。分析了模型大小、训练数据量与模型性能之间的关系。

在线案例研究（Online Case Study）

在实际的客户支持系统中部署模型，以评估模型在现实世界中的有效性。通过将预测结果从随机选择的2%的客服交互中移除，来衡量系统对客服代表选择模板的影响。

A/B测试与响应时间节省分析

对模型的不同版本进行A/B测试，以评估模型更新对客服效率指标的影响。评估模型预测对客服代表选择正确模板所需时间的影响，并与没有使用模板的情况进行了比较。

实际部署考虑

本文讨论了将这些模型投入生产时的实际考虑，包括模型的更新策略、延迟要求和业务指标的影响。研究了模型大小、延迟和准确性之间的权衡，并提出了针对不同需求的模型参数调整建议。

未来研究方向

本文在最后一部分提出了一些可能的未来研究方向和可以进一步探索的点：
- 模型大小与准确性的关系：研究不同大小的模型在特定任务上的表现。
- 领域适应的扩展性：探索在不同领域和不同规模的数据集上进行领域适应的效果。
- 判别性微调的策略：研究不同的判别性微调方法，提高模型的分类性能。
- 安全性和可靠性：研究如何提高模型的安全性和可靠性，特别是在客户支持等敏感应用中。
- 计算效率：研究如何优化模型的计算效率，减少延迟。
- 模型更新和维护：探索更有效的模型更新策略，以适应不断变化的业务需求和数据分布。
- 跨领域应用：研究如何将该系统扩展到其他领域，例如医疗、法律或金融服务。
- 用户交互和体验：研究如何改进用户界面和交互设计，提高客户支持代表使用LLM辅助系统的效率和满意度。
- 模型解释性：提高模型的可解释性，增强对模型的信任。
- 多模态数据处理：将文本数据与其他类型的数据（如语音、图像等）结合起来，以丰富模型的输入并提高其性能。
结论

通过重新定义语言建模任务为判别性分类任务，本文提出了一种利用LLMs增强客户支持服务的创新方法。通过领域适应性预训练和判别性微调，模型在特定任务上的性能得到了显著提升，同时避免了幻觉和数据泄露的风险。未来的研究方向为进一步提升LLMs在客户支持和其他领域的应用效果提供了广阔的空间。

Scaling Laws for Discriminative Classification in Large Language Models

https://papers.cool/arxiv/2405.15765

Authors: Dean Wyatte ; Fatemeh Tahmasbi ; Ming Li ; Thomas Markovich

Summary: Modern large language models (LLMs) represent a paradigm shift in what can plausibly be expected of machine learning models. The fact that LLMs can effectively generate sensible answers to a diverse range of queries suggests that they would be useful in customer support applications. While powerful, LLMs have been observed to be prone to hallucination which unfortunately makes their near term use in customer support applications challenging. To address this issue we present a system that allows us to use an LLM to augment our customer support advocates by re-framing the language modeling task as a discriminative classification task. In this framing, we seek to present the top-K best template responses for a customer support advocate to use when responding to a customer. We present the result of both offline and online experiments where we observed offline gains and statistically significant online lifts for our experimental system. Along the way, we present observed scaling curves for validation loss and top-K accuracy, resulted from model parameter ablation studies. We close by discussing the space of trade-offs with respect to model size, latency, and accuracy as well as and suggesting future applications to explore.
2024-05-27
重温SSM（一）：线性系统和HiPPO矩阵
引言

前几天，我看了几篇介绍SSM（State Space Model）的文章，才发现自己从未认真了解过SSM，于是决定深入学习相关内容，并记录下我的学习所得。SSM的概念由来已久，但我们这里特指的是深度学习中的SSM。一般认为它的开篇之作是2021年的S4，而SSM最新的变体大概是去年的Mamba。

SSM的背景与发展

SSM在深度学习中的应用起源于S4，但在S4之前有一篇重要的奠基之作《HiPPO: Recurrent Memory with Optimal Polynomial Projections》（简称HiPPO）。本文将从HiPPO开始，深入探讨其基本形式、数学推导及其在SSM中的应用。

基本形式

对于已经对SSM有所了解的读者，可能知道SSM建模所用的是线性ODE系统：
[
\begin{aligned}
x'(t) =&\, A x(t) + B u(t) \
y(t) =&\, C x(t) + D u(t)
\end{aligned}
]
其中 (u(t) \in \mathbb{R}^{d_i}, x(t) \in \mathbb{R}^{d}, y(t) \in \mathbb{R}^{d_o}, A \in \mathbb{R}^{d \times d}, B \in \mathbb{R}^{d \times d_i}, C \in \mathbb{R}^{d_o \times d}, D \in \mathbb{R}^{d_o \times d_i})。

线性系统的选择

线性系统之所以被选择，是因为它们既足够简单，也足够复杂。简单是指线性化是复杂系统的基本近似，而复杂是指即便简单的线性系统也可以拟合异常复杂的函数。

HiPPO的贡献

HiPPO的贡献在于当我们试图用正交基去逼近一个动态更新的函数时，其结果自然而然地成为了线性系统。HiPPO不仅证明了线性系统能够逼近复杂函数，还告诉我们如何去逼近，甚至近似程度如何。

邻近窗口计算与勒让德多项式

通过选取勒让德多项式为基函数，HiPPO在处理实时信号的邻近窗口时，推导出了一个线性ODE系统。这一推导过程展示了线性系统在记忆和逼近动态函数方面的强大能力。

应用与理论意义

HiPPO的理论框架为后来的诸多SSM提供了基础，特别是在深度学习模型中。SSM的应用不仅限于解决复杂的动态系统问题，还展示了其在处理大规模数据和长序列记忆方面的潜力。

总结

本文以尽可能简单的方式重复了HiPPO的主要推导，通过适当的记忆假设，自下而上地导出了线性ODE系统，并且针对勒让德多项式的情形求出了相应的解析解。HiPPO的结果被诸多SSM使用，成为SSM的重要奠基之作。

参考文献
- 《HiPPO: Recurrent Memory with Optimal Polynomial Projections》
以上内容是对SSM和HiPPO矩阵的简要介绍和总结，希望对大家有所帮助。

原文链接：
- 重温SSM（一）：线性系统和HiPPO矩阵
- 微信链接
2024-05-27
《文化和自然遗产：批判性思路》&《立地坡.上店耀州窑址》

Reblog via Libgen中文新书速递

《文化和自然遗产：批判性思路》
作者：罗德尼·哈里森（Rodney Harrison）
上海古籍出版社 2021
下載：https://libgen.is/book/index.php?md5=ACD7209D9FE6E3D426E21D2D0E1B459F
《立地坡.上店耀州窑址》
作者：耀州窑博物馆等
三秦出版社 2004
下載：https://libgen.is/book/index.php?md5=211C857571CF99CC2F26890DDCECD811

2024-05-26
现代计算中的内存需求：从多核处理到高频率内存
随着计算技术的不断进步，现代计算机尤其是高性能计算机对内存的需求越来越高。特别是在处理高分辨率视频渲染、科学计算等复杂任务时，对内存容量和频率的要求显得尤为重要。本文将结合Adobe官网的内存建议，探讨多核处理器对内存的需求，以及如何通过选择适当的内存配置来提升整体性能。

多核同时渲染：内存需求的公式

在现代计算中，利用多核处理器进行并行计算已成为常态。Adobe的多核渲染技术能够同时处理多帧，从而显著提高处理速度。然而，这种多核处理方式对内存容量提出了更高的要求。根据Adobe提供的公式：
```
建议内存容量 = 1核心 × 4GB内存 + 20GB总内存容量
```
通过这一公式，我们可以更准确地为不同核心数的处理器配置适当的内存。例如，以Intel i7-12700KF为例，这款处理器拥有8个性能核心（P core）和4个能效核心（E core），共计12核20线程。按照上述公式计算，其最低内存需求为：
```
8 × 4GB + 20GB = 52GB内存
```
高性能处理器与内存配置

对于像i7/i9这样的高端处理器，建议搭配32GB以上的内存以充分发挥其性能。这在处理4K/8K分辨率的视频渲染时尤为重要。如今，大多数视频文件已经升级到4K+分辨率，对于4K RAW视频文件的剪辑，32GB内存已经远远不够用。

内存频率与CPU性能的关联

内存频率与CPU性能高度相关，尤其在进行科学计算如仿真等对计算速度要求极高的任务时，内存频率显得尤为重要。在这些场景下，降频扩容的方式几乎没有提升效果，反而可能导致性能瓶颈。

例如，选择高频率内存条而不是仅仅扩充内存容量，可以显著提升性能。最近市场上推出的24GB×2的新方案，其频率普遍在5600MHz以上，甚至有6400/6800/7200MHz的高频率内存条，这样的配置不仅实现了大容量和高频率的需求，还解决了散热问题。

结论

在现代高性能计算中，内存的容量和频率对整体性能有着至关重要的影响。通过合理配置内存，尤其是选择高频率、大容量的内存条，可以显著提升计算效率，满足复杂任务的需求。为你的高端处理器选择适合的内存配置，将使你的工作流更加高效，从而达到最佳的生产力水平。
2024-05-26
深入解读 DeepSeek-V2 语言模型中的多头潜在注意力机制 (MLA)
在最新的 DeepSeek-V2 语言模型中，多头潜在注意力机制 (Multi-head Latent Attention, MLA) 作为一种创新架构，被设计用来保证高效的推理过程。本文将详细介绍 MLA 的关键特性及其在 DeepSeek-V2 中的应用和优势。

高效的推理过程

MLA 通过将 Key-Value (KV) 缓存压缩到一个潜在向量中，显著减少了推理过程中所需的内存和计算资源。这种压缩大大降低了内存占用和计算需求，从而实现更快、更高效的处理 [1]。

Key-Value (KV) 缓存压缩

在注意力机制中，KV 缓存是一个重要组件，负责存储输入序列中不同 token 之间的关系信息。MLA 将这个缓存压缩成一个潜在向量，显著减小其大小和内存占用 [1]。

稀疏计算

MLA 是 DeepSeekMoE 架构的一部分，该架构通过稀疏计算实现经济高效的强大语言模型训练。这意味着每个 token 仅激活模型参数的一个子集，从而减少了训练过程中的整体计算需求 [1]。

提升的性能

与其前身 DeepSeek 67B 相比，采用 MLA 的 DeepSeek-V2 实现了显著更强的性能。尽管仅激活了 21B 的参数，DeepSeek-V2 及其聊天版本仍在开源模型中达到了顶级性能 [1]。

结论

总的来说，MLA 是一种通过将 Key-Value 缓存压缩到潜在向量中来保证高效推理的创新架构。它显著减少了内存和计算需求，带来了更快、更高效的处理过程。采用 MLA 的 DeepSeek-V2 在降低训练成本和提高生成吞吐量的同时，仍实现了强大的性能 [1]。

了解更多：
2024-05-26
探索 ActivityPub：去中心化社交网络协议
引言

随着互联网的不断发展，去中心化的社交网络逐渐成为热点话题。ActivityPub 正是在这种背景下应运而生的，它是一种去中心化的社交网络协议，基于 ActivityStreams 2.0 数据格式。本文将详细介绍 ActivityPub 的工作原理及其实现方式。

什么是 ActivityPub？

ActivityPub 是一种去中心化的社交网络协议，旨在通过客户端到服务器和服务器到服务器的 API 实现内容的创建、更新和删除，以及通知和内容的分发。它的主要目标是让去中心化的网站能够共享信息，并让用户通过各种客户端与自己的账户进行互动。

ActivityPub 的两层协议

服务器到服务器的联邦协议

这种联邦协议使得不同的去中心化网站能够共享信息。例如，当一个用户在一个服务器上发布内容时，其他服务器上的用户也能够看到并互动。

客户端到服务器的协议

这种协议允许用户（包括真实用户、机器人和其他自动化进程）通过各种客户端（如手机、桌面应用或 Web 应用）与他们在服务器上的账户进行通信。

用户和演员

在 ActivityPub 中，用户通过服务器上的账户表示为“演员”。每个演员都有一个收件箱和一个发件箱，用于接收和发送消息。这些都是通过 URL 进行标识的。

示例
```
{
  "@context": "https://www.w3.org/ns/activitystreams",
  "type": "Person",
  "id": "https://social.example/alyssa/",
  "name": "Alyssa P. Hacker",
  "preferredUsername": "alyssa",
  "summary": "Lisp enthusiast hailing from MIT",
  "inbox": "https://social.example/alyssa/inbox/",
  "outbox": "https://social.example/alyssa/outbox/",
  "followers": "https://social.example/alyssa/followers/",
  "following": "https://social.example/alyssa/following/",
  "liked": "https://social.example/alyssa/liked/"
}
```
如何发送和接收消息？

发送消息
- POST 到收件箱：将消息发送到某人的收件箱（仅适用于服务器到服务器的通信）。
- POST 到发件箱：将消息发送到全世界（客户端到服务器）。
- GET 从发件箱：查看某人发送的消息（客户端到服务器和/或服务器到服务器）。
接收消息
- GET 从收件箱：查看最新收到的消息（客户端到服务器）。
一个完整的示例

假设 Alyssa 想给她的朋友 Ben 发送一条消息，询问他是否还记得归还一本借来的书。她可以创建一个 ActivityStreams 对象并将其发送到她的发件箱。
```
{
  "@context": "https://www.w3.org/ns/activitystreams",
  "type": "Note",
  "to": ["https://chatty.example/ben/"],
  "attributedTo": "https://social.example/alyssa/",
  "content": "Say, did you finish reading that book I lent you?"
}
```
服务器会将这条消息包装在一个 Create 活动中，并发送到 Ben 的收件箱。
```
{
  "@context": "https://www.w3.org/ns/activitystreams",
  "type": "Create",
  "id": "https://social.example/alyssa/posts/a29a6843-9feb-4c74-a7f7-081b9c9201d3",
  "to": ["https://chatty.example/ben/"],
  "actor": "https://social.example/alyssa/",
  "object": {
    "type": "Note",
    "id": "https://social.example/alyssa/posts/49e2d03d-b53a-4c4c-a95c-94a6abf45a19",
    "attributedTo": "https://social.example/alyssa/",
    "to": ["https://chatty.example/ben/"],
    "content": "Say, did you finish reading that book I lent you?"
  }
}
```
安全性和验证

在 ActivityPub 中，服务器应该验证收到的内容，以防止内容欺骗攻击。例如，当服务器接收到一个 Like 活动时，应该验证该活动的 id 是否存在并且是一个有效对象。

结论

ActivityPub 通过提供灵活的客户端到服务器和服务器到服务器的协议，使得创建、更新和分发内容变得更加简单和高效。它的去中心化特性也为社交网络带来了更多的自由和可能性。如果您对构建去中心化社交网络感兴趣，ActivityPub 将是一个非常有价值的工具。

希望这篇文章能帮助您更好地理解 ActivityPub 及其在去中心化社交网络中的重要作用。
2024-05-26
AI教父Hinton与神童创业家Hellermark的对话：人工智能的未来与挑战

近日，27岁的天才创始人Joel Hellermark与“AI教父”Geoffery Hinton进行了一次深度对话。Hinton在采访中回忆了自己的人工智能生涯，讨论了神经网络、Scaling Law、多模态学习、模拟计算和人工智能伦理安全等多个话题，并且聊到了他的得意门生Ilya Sutskever（前段时间离职的OpenAI首席科学家）。

神秘人物：Geoffery Hinton

受访者Hinton是人工智能领域的传奇人物，而采访者Joel Hellermark也颇有背景。他自幼在东京长大，13岁开始编码，14岁创立了一家视频推荐公司。19岁时，他创办了人工智能研究实验室Sana，并在2023年成功筹集了8000万美元的融资。Hellermark坚信学习的力量，因此他没有选择上大学，而是通过斯坦福公开课程自学编程，创办Sana的目标就是“改变教育”。

从研究大脑到编程

开始编程的故事

Hellermark：你是怎么开始编程的？

Hinton：我从英国刚到卡内基梅隆大学的时候。1982年，我前往卡内基梅隆大学担任计算机科学系教授，直至1987年。在英国的研究单位时，每晚六点钟大家都会去酒吧喝一杯。但到了卡内基梅隆几周后，我还没交到多少朋友。所以在某个周六晚上，我决定去实验室编写一些程序，因为实验室里有一台Lisp机器，家里没有。

剑桥时期的回忆

Hellermark：能不能把我们带回剑桥时期，试图理解人脑的经历？

Hinton：非常令人失望。我为了研究大脑，先是去学习生理学，但实际上他们只教了我们神经元如何传导动作电位……这非常有趣，但不是大脑工作的原理。于是我又转向了哲学，因为我以为他们会告诉我心灵是如何运作的，结果也是非常令人失望。最终，我选择到爱丁堡学习人工智能。

影响深远的书籍和导师

关键的启发

Hellermark：你还记得是什么激起了你对人工智能的兴趣吗？

Hinton：是唐纳德·赫布（Donald Hebb）的一本书，里面介绍了如何学习神经网络中的连接强度。早期我还读过约翰·冯·诺伊曼（John von Neumann）的一本书，书里介绍了大脑的计算方式以及大脑计算与普通计算机的区别。

导师和合作伙伴

Hellermark：你还记得以前经历过的合作吗？

Hinton：我在卡内基梅隆大学时曾与泰伦斯·塞诺夫斯基（Terry Sinofsky）有过许多交流，我们共同研究玻尔兹曼机。还有彼得·布朗（Peter Brown），他是一位非常优秀的统计学家，在IBM从事语音识别工作。他启发我采用“隐藏层”这一概念来描述神经网络中的中间层。

凭直觉思考的天才：Ilya Sutskever

初次见面

Hellermark：请带我们回忆你的另一位学生Ilya Sutskever。

Hinton：我当时在办公室编程，突然有人急促地敲门，是Ilya。他告诉我，比起暑期炸薯条的工作，他更渴望能在我的实验室工作。所以我给了他一篇关于反向传播的论文阅读，约定一周后再见面。他回来后说：“我没看懂。”但他的直觉非常敏锐，对事物有独特的看法。

合作与交流

Hellermark：你们俩是如何交流的？你们各自扮演着什么样的角色？

Hinton：非常有趣。我们曾试图用数据制作复杂的地图，Ilya对反复修改代码感到厌烦。一天早上，他告诉我已经搞定了编写接口的工作，这种高效的工作方式让我印象深刻。

规模与创造力：GPT-4的未来

模型的训练与预测

Hellermark：可以为我们科普一下这些模型是如何训练来预测下一个单词的吗？

Hinton：我制作了第一个使用嵌入和反向传播的神经网络语言模型。为了准确预测下一个词，模型必须理解上下文。随着模型规模的扩大，即使没有特别设计用于推理的组件，它们也展现出了推理的能力，并且随着规模继续增长，它们的推理能力也将随之增强。

GPT-4的创造力

Hellermark：你认为AI模型的创造力会如何发展？

Hinton：GPT-4在规模扩大后，将会变得非常有创造力。它的创造力甚至会超过人类，因为它能够在表面上截然不同的事物之间看到类比。

未来的应用与挑战

医疗保健与新材料领域

Hellermark：你认为未来最有前景的应用是什么？

Hinton：我认为医疗保健是一个重要的领域，我们希望AI在这些领域变得更好。还有一个应用是在新工程领域开发新材料，例如太阳能电池板或超导材料。

道德与安全

Hellermark：你是否担心AI的发展会带来负面影响？

Hinton：我确实担心不良分子利用AI做坏事，比如制造杀人机器人、操纵公众舆论、进行大规模监视等。

总结

Hinton和Hellermark的对话中，探讨了许多关于人工智能发展的核心问题。从神经网络的基础研究到大规模模型的应用，再到AI的伦理与安全，每一个话题都引发了深刻的思考。Hinton的智慧和远见，不仅推动了人工智能技术的发展，也为我们理解未来的AI世界提供了宝贵的见解。

2024-05-26
AI时代,教父Hinton谈创新思维与超越人类的未来

前言:
最近,27岁的天才创业家Joel Hellermark与人工智能教父Geoffery Hinton进行了一次深入采访。Hinton在对话中回顾了自己的人工智能研究历程,并就神经网络、算力扩展、多模态学习、模拟计算等前沿话题进行了分享。他还谈及了自己的得意门生Ilya Sutskever在人工智能领域的杰出表现。

正文:
一、从研究大脑到投身人工智能
Hinton从英国来到美国卡内基梅隆大学后,凭借对大脑工作原理的好奇,开始投身人工智能领域的研究。他先后接触过唐纳德·赫布和约翰·冯·诺依曼的著作,深受启发。Hinton认为大脑的学习方式必然与传统的逻辑推理不同,因此必须探寻神经网络中连接权重调整的奥秘。

二、与合作伙伴的心灵相通
Hinton回忆与泰伦斯·塞诺夫斯基、彼得·布朗等人的合作经历,他们一起探索了玻尔兹曼机等前沿技术,产生了许多有趣的研究成果。Hinton认为,与聪明的学生合作交流是最令人兴奋的,因为他们往往能提出突破性的想法。

三、Ilya Sutskever:凭直觉思考的天才
Hinton特别提到了自己的得意门生Ilya Sutskever。Sutskever对人工智能充满热情,在反向传播算法上提出了独到见解。Hinton认为,Sutskever的直觉非常敏锐,常能发现问题的本质。在两人的合作中,Sutskever总能提出启发式的想法,推动研究不断前进。

四、数据规模与计算能力推动进步
Hinton承认,早期他和团队曾低估了数据规模和计算能力的重要性。Ilya Sutskever很早就认识到,扩大模型规模是提升性能的关键。事实也证明,即使没有特殊设计,仅靠海量数据和计算能力,人工智能模型也能展现出推理能力。

五、多模态学习与创造力提升
Hinton认为,多模态输入(如图像、视频、音频等)可以丰富模型对世界的理解,提升其创造力。因为这种学习方式更贴近人类的感知方式。他设想,未来的人工智能系统将能够从多角度理解同一事物,从而产生与人类不同的创新。

结语:
Hinton的故事生动诠释了人工智能的发展轨迹,以及从单一算法到海量数据驱动的转变。他的经历也启示我们,保持好奇心和开放心态,不断探索,才是推动科技进步的关键所在。当下,人工智能正在重塑人类社会的方方面面,我们应该以积极、理性的态度拥抱这个时代的机遇与挑战。

2024-05-26
从996到自由的挣扎：互联网大厂的职场生态

在过去的几年里，中国的互联网大厂们一直是无数求职者心中的梦想之地。这些公司不仅提供高薪和优厚的福利，还承诺职业生涯的飞速发展。然而，随着时间的推移，这些光鲜亮丽的外表下开始显露出一些令人不安的问题。今天，我们来探讨一下互联网大厂的职场现状以及它给员工的生活带来的影响。

首先，让我们来看一下所谓的“996”工作制。这是一个指代从早上9点工作到晚上9点，每周工作6天的加班文化。虽然这种工作制度可以迅速推动项目进度，但它对员工的健康和私人生活造成了极大的压力。有员工表示，长时间的高强度工作让他们感到身心疲惫，甚至出现了严重的健康问题。例如，有报道称，一些员工因为长时间熬夜加班而需要靠吃药和打点滴来维持。

此外，互联网公司内部的竞争非常激烈。为了在公司中脱颖而出，员工不得不不断地推动自己的极限。一些公司甚至发明了“拼搏投入度”这样的新词，来评估员工的工作表现。在这种高压环境下，员工常常感到巨大的心理压力。

更加令人担忧的是，一些公司在处理裁员和员工监管方面采取了极端措施。例如，有报道指出，某些公司在裁员前会严格检查员工的考勤和工作量，甚至要求员工上交手机进行检查，以确定他们是否在网络上发表了不利于公司的言论。这种做法不仅侵犯了员工的个人隐私，也增加了工作场所的不信任气氛。

尽管面临这些挑战，许多员工仍然选择留在这些大公司工作，原因是这些公司能够提供无法抗拒的薪酬和职业发展机会。然而，随着经济环境的变化和技术的发展，一些曾经稳定的职位开始受到威胁。例如，人工智能的发展使得一些曾经由人类完成的技术工作可以由机器人来完成，这直接影响了程序员等技术人员的职业稳定性。

在这样一个快速变化的环境中，员工需要重新考虑他们的职业路径。与其完全依赖于一个可能随时都会改变的外部系统，不如建立起自己的技能和能力，以应对未来可能出现的任何挑战。是否依附于大平台或是寻求更灵活的工作方式，这是每个职场人都需要思考的问题。

虽然互联网大厂提供了许多吸引人的机会，但这些机会也伴随着不小的风险和挑战。职场人必须意识到，没有一份工作是永远安全的，只有不断提升自己的能力，才能在不断变化的世界中立于不败之地。

2024-05-26
知识编辑：弥补LLMs的不足
在当前的人工智能研究领域，将大型语言模型（LLMs）的能力应用于解决复杂的强化学习问题是一个前沿且具有挑战性的课题。大型语言模型，如GPT系列、BERT等，已经在自然语言处理领域证明了其强大的信息处理和生成能力。这些模型通过在大规模数据上的预训练，能够捕捉到丰富的语言结构和知识。然而，当这些模型被直接应用于传统的强化学习任务时，如OpenAI Gym中的控制任务或Atari游戏，它们面临着一系列新的挑战和问题。

大模型在强化学习中的应用挑战

尽管LLMs在语言理解和生成方面表现出色，但它们在直接处理强化学习任务时往往表现出不确定性。这主要是因为强化学习的环境具有高度的动态性和不确定性，这与LLMs通常处理的更为静态的语言数据存在本质区别。在强化学习中，智能体需要根据与环境的交互不断调整其行为策略，这要求模型具备高度的适应性和决策能力。

此外，虽然LLMs能够通过精细的提示工程（prompt engineering）来引导模型完成特定的任务，但这种方法依赖于大量的手工调整和试验，且其成功往往受限于模型对提示的敏感性和解释能力。这种方法的效率低下且可扩展性有限，难以适应快速变化的强化学习环境。

知识编辑技术的潜力

为了克服这些挑战，研究人员开始探索知识编辑技术，即通过修改模型的内部知识表示来直接提高LLMs在特定任务上的性能。这种方法的核心思想是在不重新训练整个模型的前提下，通过精确的修改来增强模型的任务相关能力。
1. 外部知识依赖：这一方法侧重于通过外部输入来动态调整模型的行为。具体来说，可以在模型接收输入之前提供相关的背景信息或示例，帮助模型建立起对特定任务的初步理解。
2. 外部知识注入：通过这种方法，可以将任务相关的知识直接注入到模型的某些部分。例如，可以通过修改模型的某些权重或参数，使其更好地适应特定的决策环境。
3. 内在知识编辑：这是一种更深入的编辑方法，它涉及到对模型内部表示的直接修改。这包括调整模型中负责存储和处理知识的部分，如神经网络中的特定神经元或层，以优化模型对特定任务的响应。
实践中的实现

实现知识编辑技术需要对LLMs的内部工作机制有深入的理解。例如，研究人员需要确定哪些部分的模型是存储和处理特定类型知识的，以及如何通过技术手段进行精确的修改。此外，还需要开发有效的算法来自动化这一过程，减少人工干预，并确保编辑操作不会破坏模型在其他任务上的性能。

最终，通过知识编辑技术，我们可以朝着创建更加智能和适应性强的语言模型迈进，这些模型不仅能够处理复杂的语言任务，还能有效地解决强化学习中的序列决策问题。这将大大扩展LLMs的应用范围，使其在游戏、机器人控制以及其他需要复杂决策的领域中发挥更大的作用。

在当今的人工智能研究领域中，如何有效地更新和优化大型语言模型（LLMs）已成为一个重要议题。下面我们将探讨四种主要的技术路线：参数高效的微调（PET）、知识增强（knowledge augmentation）、持续学习（continual learning）、以及机器遗忘（machine unlearning），这些技术路线在提升模型性能及其应用的可适应性方面起着关键作用。

参数高效的微调（PET）

参数高效的微调旨在通过只调整模型极小部分的参数来提升模型在特定任务上的表现，从而减少计算资源的消耗。这一技术的实现方式主要有三种：基于加法的方法、基于规范的方法和基于重参数化的方法。
1. 基于加法的方法：这种方法通过引入额外的可训练模块或参数来实现，这些模块或参数在原始模型中并不存在。典型的方法包括基于适配器的微调和基于提示的微调。例如，Adapter方法通过在Transformer层之间插入小型神经网络模块来增强模型的能力；而Prefix-tuning方法则是在模型输入的前缀部分添加可训练的上下文。
2. 基于规范的方法：这种方法仅微调模型的一部分固有参数，如Bitfit方法仅对模型的偏差部分进行调整，而不改变模型的内部结构。
3. 基于重参数化的方法：如LoRA方法，通过对自注意力模块中权重的增量矩阵进行低秩分解，达到优化效果。
知识增强

知识增强主要是针对LLMs在处理未知问题（如分布外或垂直细分领域问题）时的不足。检索增强生成（RAG）是一种流行的知识增强方法，它通过结合检索到的相关信息来增强模型的输出。RAG的核心思想是在模型的输入、中间层或输出端集成外部检索到的知识，从而提升模型的准确性和全面性。

持续学习

持续学习是指模型在学习新任务的同时，能够保持对旧任务的记忆。这一领域的研究主要集中在如何平衡模型的稳定性和可塑性，以及如何设计能够适应任务间和任务内分布变化的学习系统。持续学习的方法可以分为基于正则化、基于回放、基于表示、基于优化和基于架构的方法，每种方法都试图以不同的方式来缓解灾难性遗忘的问题。

机器遗忘

机器遗忘涉及到从模型中删除特定信息的需求，这通常是由于法律法规如GDPR或CCPA的要求。有效的机器遗忘方法需要能够在不重新训练整个模型的情况下，迅速准确地从模型中移除特定数据的影响。这一领域的方法通常分为两类：数据重组和模型操作。

这些技术路线各有其独特的优势和挑战。在实际应用中，通常需要根据具体需求和场景来选择合适的技术组合，以达到最佳的性能和效率。通过不断的研究和实验，这些技术有望为未来的人工智能发展提供更多可能性和灵活性。

知识编辑：弥补LLMs的不足

为了提高LLMs的准确性和适应性，研究者们开发了“知识编辑”技术。知识编辑的目的是在不重新训练整个模型的情况下，快速准确地修改模型中的特定知识。这种技术包括三个基本操作：知识插入、知识修改和知识擦除。
1. 知识插入：向模型中添加新的知识，扩展其识别和处理的信息范围。
2. 知识修改：更新模型中已有的过时或错误信息，提高信息的准确性。
3. 知识擦除：从模型中删除不再需要或不正确的信息，减少误导性或有害的内容。
知识编辑的实现方法

知识编辑的实现通常分为三个阶段：识别、关联和掌握阶段。
- 识别阶段：这一阶段涉及到向模型展示新知识，帮助模型初步识别需要编辑的信息。
- 关联阶段：在这一阶段，新知识将与模型中已有的知识形成联系，通过技术手段如增加参数或替换输出，实现知识的融合。
- 掌握阶段：最后阶段是模型通过内部参数的调整，彻底掌握并准确应用这些编辑后的知识。
每个阶段都有其特定的方法和技术挑战，例如在掌握阶段，如何避免模型在经过编辑后发生灾难性遗忘（catastrophic forgetting）是一个关键问题。此外，知识编辑的过程需要考虑到编辑的精确性和避免对模型其他功能的干扰。

未来展望

尽管知识编辑为提高LLMs的实用性和准确性提供了一种有效的手段，但这一领域仍处于发展阶段。目前，如何高效地实现知识编辑，以及如何处理由此可能引起的模型行为改变，都是需要进一步研究的问题。此外，随着技术的进步，未来可能会有更多创新的编辑方法出现，帮助我们更好地利用这些强大的语言模型。

知识编辑不仅提升了LLMs的功能，也为人工智能的应用开辟了新的可能性。随着研究的深入和技术的发展，我们有理由期待在未来，这些模型能更加智能和精准地服务于各种复杂的应用场景。

在当前的人工智能发展阶段，模型操纵技术已成为推动大语言模型（LLMs）应用和优化的重要手段。以下是几种主要的模型操纵方法，它们通过不同的机制实现对模型知识的控制和转移。

1. 知识蒸馏与迁移

知识蒸馏是一个有效的模型操纵技术，它允许从大型模型中提取关键知识并迁移到较小的模型中。这种方法不仅可以提高模型的运行效率，还能在资源有限的环境中部署先进的AI技术。例如，PKT技术通过分析模型中的知识神经元块，实现了从大模型到小模型的知识迁移，这对于模型的简化和应用具有重要意义。

2. 子网络修剪

另一种模型操纵技术是通过修剪关键子网络来消除模型对特定知识的依赖。这种方法不仅可以减轻模型的计算负担，还可以根据需要去除不必要或过时的信息。例如，Bayazit等人的研究通过修剪LLMs中的关键子网络，有效地移除了模型中的目标知识，从而避免了模型对特定信息的过度依赖。

3. 权重投影

在分析模型权重时，将不同模型的权重投影到同一嵌入空间中，可以实现模型间的知识连接和迁移。这种方法为模型间的信息共享和扩展提供了可能，使得不同模型之间可以通过共享嵌入空间更高效地交换和利用知识。

应用实例：人工智能内容生成

除了文本生成，LLMs的应用已扩展到多模态领域，如图像和声音。这些模型通过知识编辑技术能够更精准地控制生成内容的质量和相关性。例如，ReFACT技术通过编辑模型中的事实知识来提高图像生成的准确性和质量，这对于创造高质量的AI生成内容具有重要意义。

可信人工智能

知识编辑还可以用于构建更安全、更可信的AI系统。通过编辑模型中的知识，可以消除不安全特征，如有毒语言、偏见或不当内容。这不仅提高了模型的社会责任感，也增强了公众对AI系统的信任。

结论

通过这些高级的模型操纵技术，我们能够更有效地控制和优化大语言模型的行为和性能。无论是在提高模型效率、精确控制内容生成还是构建可信AI方面，这些技术都展现出巨大的潜力和价值。随着技术的进一步发展，我们期待这些方法能够为AI的应用和发展带来更多的创新和突破。
2024-05-26