博客

  • Intel发布全新Lunar Lake处理器:GPU和NPU升级,CPU微幅提升

    近年来,Intel在制造上的麻烦、AMD的崛起、Qualcomm的进入以及苹果从客户转变为竞争对手,让Intel的处理器经历了一段艰难时期。如今,计算机购买者拥有比以往更多的选择,而Intel的Meteor Lake架构在技术上的成就似乎比作为前一代Raptor Lake处理器的升级更加引人注目。

    然而,根据市场研究机构Canalys最新的分析报告,Intel仍然占据了绝大部分PC处理器市场,销售的计算机CPU中近四分之三是Intel的。因此,Intel在行业中仍然占据着重要的地位,并且它的行动仍然对整个行业产生影响。

    Lunar Lake:下一代CPU架构的亮点

    现在,让我们来看一看Intel的下一代CPU架构,代号为Lunar Lake。我们早就知道Lunar Lake的存在,因为在微软的Copilot+ PC发布会上,Qualcomm就已经抢先一步,提到了Lunar Lake。而在今年的Computex展上,Intel将在2024年第三季度正式发布Lunar Lake,并透露了更多细节。

    Lunar Lake将是Intel的首款满足微软Copilot+ PC要求的处理器,其中包含了神经处理单元(NPU)。除了人工智能技术的不断发展之外,Lunar Lake还对P核心和E核心进行了升级,采用了下一代GPU架构,并对Meteor Lake中的一些显著改变进行了扩展和还原。

    值得注意的是,对于将Meteor Lake的重大改变首次引入插槽式台式机主板的Arrow Lake架构,Intel并没有提供更多信息。但是,Intel表示Arrow Lake仍然按计划在2024年第四季度发布,并有可能在9月底的Intel年度创新活动上宣布。

    构建在Meteor Lake基础上

    Lunar Lake与Meteor Lake有一些共同之处,包括使用基于芯片组的设计,利用Intel的Foveros封装技术将多个硅芯片组合成一个大芯片。但是,与Meteor Lake相比,Lunar Lake在某些方面更加简单和传统。

    Meteor Lake的组件分布在四个平铺中:一个计算平铺主要用于CPU核心,一个由台积电制造的图形平铺用于GPU渲染硬件,一个IO平铺用于处理PCI Express和Thunderbolt连接等功能,以及一个混合平铺,内含额外的CPU核心、媒体编解码引擎、显示连接和NPU等。

    而Lunar Lake只有两个功能平铺,另外还有一个小的“填充平铺”,这个平铺似乎只是为了使Lunar Lake硅芯片组装在一起后能成为一个完美的矩形。计算平铺集成了处理器的所有P核心和E核心、GPU、NPU、显示输出以及媒体编解码引擎。而平台控制器平铺则负责有线和无线连接,包括PCIe、USB、Thunderbolt 4、Wi-Fi 7和Bluetooth 5.4等。

    这与Intel多年来一直在笔记本电脑芯片中使用的分割方式基本相同:一个芯片组芯片和一个CPU、GPU以及其他一切的芯片。不同的是,现在这两个芯片是同一个硅片上的一部分,而不是同一个处理器封装上的独立芯片。回顾起来,Meteor Lake中最引人注目的设计变化,如将与GPU相关的功能分散在不同的平铺中、在SoC平铺内增加额外的CPU核心等,似乎是因为Intel不得不应对另一家公司实际上是制造大部分GPU的情况。现在有了机会,Intel又回到了更加常见的组件构造方式。

    另一个重大的封装变化是,Intel将内存集成到Lunar Lake处理器封装中,而不是单独安装在主板上。Intel表示,这样做可以节省40%的功耗,因为数据传输的距离更短。同时,这也节省了主板空间,可以用于其他组件,使系统更小型,或者为电池腾出更多空间。苹果的M系列芯片也采用了内存集成在封装中的设计。

    据Intel表示,Lunar Lake处理器可以搭载高达32GB的LPDDR5x内存。不过,与此同时,这种封装方式会导致无法使用单独的压缩附加内存模块(CAM),CAM可以结合传统的可升级DIMM模块和焊接式笔记本内存的优点。

    结论

    Intel的全新Lunar Lake处理器代表着其下一代CPU架构的重要进展。它引入了神经处理单元(NPU),提供了升级的P核心和E核心架构,采用了下一代的GPU架构,并进行了封装方面的改进。尽管在近年来面临一系列挑战,但Intel仍然在PC处理器市场上占据主导地位。

    通过Lunar Lake的发布,Intel将进一步巩固其在计算机处理器领域的地位,并为整个行业设定了新的发展方向。随着Arrow Lake架构的即将到来,我们可以期待更多令人兴奋的创新和提升。

    参考文献:

    [1] Cunningham, A. “Intel details new Lunar Lake CPUs off AMD, Qualcomm, and Apple.” Ars Technica. Retrieved from here.

  • OLED 屏幕:美丽的陷阱?

    —— 谈谈低频 PWM 对眼睛的潜在危害

    近年来,OLED 屏幕以其鲜艳的色彩、深邃的黑色和轻薄的特性,迅速占领了手机、电视等电子产品的显示市场。然而,很少有人意识到,在这绚丽的背后,隐藏着一个不可忽视的健康隐患——低频 PWM 调光技术。

    看不见的闪烁:PWM 调光原理

    PWM,全称脉冲宽度调制,是一种通过快速开关屏幕背光来调节亮度的技术。试想一下,手持手电筒,快速开关,你就能感受到忽明忽暗的变化。PWM 调光正是利用了类似的原理,通过控制亮屏和暗屏的时间比例来实现不同的亮度等级。

    当 PWM 频率较高时,例如 2000Hz 以上,人眼难以察觉这种闪烁,会将其视为稳定的亮度。然而,目前主流 OLED 屏幕普遍采用低频 PWM 调光,频率通常低于 300Hz,这就为我们的眼睛埋下了隐患。

    大脑被骗了,眼睛却很累:低频 PWM 的危害

    你或许会说,我看 OLED 屏幕时并没有感觉到闪烁,怎么会伤眼呢?这是因为,虽然人眼无法感知高频闪烁,但并不代表我们的眼睛不受影响。

    想象一下,你正在观看一部动作电影,画面快速切换,虽然你能看清剧情,但长时间观看也会感到疲劳。低频 PWM 也是如此,虽然大脑被“欺骗”了,但我们的视锥细胞和眼部肌肉却在不断地根据光线变化进行高频调节,这会导致眼部肌肉疲劳,出现眼干、眼涩、视力下降等问题。

    “不敏感”只是错觉:长期危害不容忽视

    有些人声称自己对低频 PWM 不敏感,这其实是一种错觉。就像长期搬运重物,即使年轻力壮的人,也难免出现肌肉劳损。低频 PWM 对眼睛的伤害是一个日积月累的过程,短期内可能不易察觉,但长期使用会导致眼部健康状况下降,最终影响视力。

    如何选择护眼屏幕?

    那么,如何选择对眼睛更友好的屏幕呢?

    • 关注 PWM 频率: 选择 PWM 频率较高的屏幕,最好在 2000Hz 以上,可以有效减少眼部负担。
    • DC 调光更佳: DC 调光通过直接调节电流大小来改变屏幕亮度,不会产生闪烁,对眼睛更友好。
    • 注意使用习惯: 避免长时间使用电子设备,注意休息眼睛,保持良好的用眼习惯。

    结语

    科技发展日新月异,在享受科技带来的便利的同时,我们也要关注其潜在的健康风险。选择合适的电子产品,养成良好的使用习惯,才能更好地保护我们的视力健康,享受清晰明亮的世界。

  • OLED 屏幕:美丽的陷阱?

    —— 谈谈低频 PWM 对眼睛的潜在危害

    近年来,OLED 屏幕以其鲜艳的色彩、深邃的黑色和轻薄的特性,迅速占领了手机、电视等电子产品的显示市场。然而,很少有人意识到,在这绚丽的背后,隐藏着一个不可忽视的健康隐患——低频 PWM 调光技术。

    看不见的闪烁:PWM 调光原理

    PWM,全称脉冲宽度调制,是一种通过快速开关屏幕背光来调节亮度的技术。试想一下,手持手电筒,快速开关,你就能感受到忽明忽暗的变化。PWM 调光正是利用了类似的原理,通过控制亮屏和暗屏的时间比例来实现不同的亮度等级。

    当 PWM 频率较高时,例如 2000Hz 以上,人眼难以察觉这种闪烁,会将其视为稳定的亮度。然而,目前主流 OLED 屏幕普遍采用低频 PWM 调光,频率通常低于 300Hz,这就为我们的眼睛埋下了隐患。

    大脑被骗了,眼睛却很累:低频 PWM 的危害

    你或许会说,我看 OLED 屏幕时并没有感觉到闪烁,怎么会伤眼呢?这是因为,虽然人眼无法感知高频闪烁,但并不代表我们的眼睛不受影响。

    想象一下,你正在观看一部动作电影,画面快速切换,虽然你能看清剧情,但长时间观看也会感到疲劳。低频 PWM 也是如此,虽然大脑被“欺骗”了,但我们的视锥细胞和眼部肌肉却在不断地根据光线变化进行高频调节,这会导致眼部肌肉疲劳,出现眼干、眼涩、视力下降等问题。

    “不敏感”只是错觉:长期危害不容忽视

    有些人声称自己对低频 PWM 不敏感,这其实是一种错觉。就像长期搬运重物,即使年轻力壮的人,也难免出现肌肉劳损。低频 PWM 对眼睛的伤害是一个日积月累的过程,短期内可能不易察觉,但长期使用会导致眼部健康状况下降,最终影响视力。

    如何选择护眼屏幕?

    那么,如何选择对眼睛更友好的屏幕呢?

    • 关注 PWM 频率: 选择 PWM 频率较高的屏幕,最好在 2000Hz 以上,可以有效减少眼部负担。
    • DC 调光更佳: DC 调光通过直接调节电流大小来改变屏幕亮度,不会产生闪烁,对眼睛更友好。
    • 注意使用习惯: 避免长时间使用电子设备,注意休息眼睛,保持良好的用眼习惯。

    结语

    科技发展日新月异,在享受科技带来的便利的同时,我们也要关注其潜在的健康风险。选择合适的电子产品,养成良好的使用习惯,才能更好地保护我们的视力健康,享受清晰明亮的世界。

  • ActivityPub是一种开放的、基于分布式社交网络的协议

    Reblog via admin

    ActivityPub是一种开放的、基于分布式社交网络的协议,用于创建、更新和删除内容,并实现服务器之间的通信和内容传递。它为客户端到服务器和服务器到服务器提供了API接口,使得用户可以方便地在不同的社交网络平台之间进行交流和互动。

    ActivityPub的目标是构建一个去中心化的社交网络,让任何人都可以在网络上运行自己的节点,并与其他服务器上的用户进行关注、点赞、评论等互动。这种去中心化的架构使得用户可以更好地掌控自己的数据和隐私,并且不受单一平台的限制。

    ActivityPub使用ActivityStreams作为其词汇,它包含了表示社交网络中各种活动和内容的常用术语。ActivityStreams的词汇已经包含了大部分我们在社交网络中需要使用的词汇,但即使它没有覆盖到我们所需的所有情况,我们仍然可以通过扩展JSON-LD来自定义新的词汇。

    JSON-LD是一种用于表示语义数据的JSON扩展格式,它可以将数据组织成图形结构,并提供了一种机制来连接不同的数据源。对于了解JSON-LD的人来说,可以采取更加高级的链接数据方法;而对于不熟悉JSON-LD的人来说,JSON-LD文档和ActivityStreams可以被理解为普通的JSON格式。通过使用JSON-LD,我们可以更好地描述和表示社交网络中的各种活动和内容。

    在ActivityPub中,用户通过其在服务器上的帐户来表示为”actors”,每个帐户对应一个独立的”actor”。每个”actor”都有自己的收件箱(inbox)和发件箱(outbox),用于接收和发送消息。用户可以在发件箱中发布消息,其他用户可以通过收件箱接收到这些消息。服务器之间也可以相互传递消息和内容,以实现跨服务器的互联互通。

    举个例子,假设我们有两个用户Alyssa和Ben,他们分别在不同的服务器上拥有自己的帐户。当Alyssa想给Ben发送一条消息时,她会将消息发布到自己的发件箱中。然后,Alyssa的服务器会查找Ben的收件箱地址,并将消息发送到Ben的收件箱中。Ben可以通过检查自己的收件箱来读取Alyssa发送的消息。

    此外,ActivityPub还支持用户之间的关注、点赞、评论等互动。用户可以关注其他用户的帐户,以便在自己的收件箱中接收他们的消息。用户还可以对其他用户的帖子进行点赞或评论,这些互动也会通过服务器之间的通信进行传递。

    ActivityPub协议是世界广泛支持的社交网络标准,在Fediverse中得到了广泛应用。该标准由Evan Prodromou(StatusNet的创始人)等人共同编写,并于2018年1月被W3C发布为推荐标准。

    ActivityPub的独特之处在于它允许用户在不同的服务器上创建帐户,并与其他服务器上的用户进行互动。这种联邦架构使得用户可以选择自己喜欢的服务器,并与其他用户跨服务器进行关注、点赞、评论等互动。

    目前,许多社交网络平台已经实现了ActivityPub协议,包括Mastodon、PeerTube、Pixelfed等。这些平台都允许用户在自己的服务器上创建帐户,并与其他平台上的用户进行互动。用户可以通过关注其他用户的帐户,接收他们的消息和更新。他们还可以在自己的发件箱中发布消息,使其可供其他用户阅读和互动。

    此外,ActivityPub还支持用户之间的私信功能。用户可以通过私信功能与其他用户进行一对一的私密对话,这些对话只有双方能够看到。

    Mastodon是基于ActivityPub协议构建的一个开源微博平台,类似于Twitter。用户可以在Mastodon上创建自己的帐户,并与其他用户进行关注、点赞、评论等互动。Mastodon的一个独特之处在于它由许多独立的服务器组成,这些服务器之间通过ActivityPub协议进行通信,用户可以选择加入任何一个服务器。

    PeerTube是基于ActivityPub协议构建的一个开源视频分享平台,类似于YouTube。用户可以在PeerTube上上传和分享视频,并与其他用户进行互动。PeerTube的联邦架构允许用户自主选择他们信任的服务器,并在不同的服务器之间共享视频内容。

    Pixelfed是基于ActivityPub协议构建的一个开源图片分享平台,类似于Instagram。用户可以在Pixelfed上上传和分享图片,并与其他用户进行互动。Pixelfed的联邦架构使得用户可以选择他们喜欢的服务器,并与其他服务器上的用户进行互动。

    随着ActivityPub协议的不断发展和完善,越来越多的社交网络平台将采用这一标准。这将促进不同平台之间的互操作性和联邦互联,使用户能够更加自由地选择他们喜欢的平台,并与不同平台上的用户进行交流和互动。

    未来,我们可以期待更多创新和发展,例如更加智能化的内容推荐算法、更加灵活的隐私设置以及更加丰富的互动功能。ActivityPub将继续推动社交网络的去中心化和用户自主性的发展,为用户提供更加丰富、安全和自由的社交网络体验。

    参考文献:

    https://www.zhichai.net/activitypub%ef%bc%9a%e6%9e%84%e5%bb%ba%e5%88%86%e5%b8%83%e5%bc%8f%e7%a4%be%e4%ba%a4%e7%bd%91%e7%bb%9c%e7%9a%84%e5%bc%80%e6%94%be%e5%8d%8f%e8%ae%ae/

  • 探索Intel Ultra CPU中的NPU与DirectML的结合

    在人工智能(AI)逐渐融入各类应用的今天,新的技术正在不断改变我们的PC体验。Intel Ultra CPU中的神经处理单元(NPU)便是其中的一个亮点。本文将详细介绍NPU的功能和DirectML在Windows上的应用,帮助读者更好地理解这两者的结合如何推动AI的发展。

    什么是NPU?

    NPU,全称为神经处理单元(Neural Processor Unit),是一种专门用于执行机器学习工作负载的处理器。与传统的CPU和GPU不同,NPU专门设计用于处理AI计算任务,具有高性能和低功耗的特点。这种创新的处理器能够释放CPU和GPU的计算资源,专注于高效执行AI工作负载,从而为用户提供更流畅的AI体验。

    根据Intel社区博客《解锁Intel的神经处理单元与DirectML》[1],Intel Ultra CPU中的NPU集成在SoC中,能够以相对较低的功耗执行高性能AI计算任务。这种设计不仅提升了AI计算的效率,还为PC带来了更多的可能性,例如创新的AI应用和更强大的生产力工具。

    什么是DirectML?

    DirectML是Windows上的机器学习平台API,它提供了对硬件加速器的通用抽象层。DirectML最初支持GPU,现在也扩展支持NPU。它是DirectX家族的一部分,与DirectX 12兼容,并且可以与其他DirectX组件(如DirectX 12)集成。此外,DirectML还与流行的机器学习和工具框架(如ONNX Runtime和Olive)集成,简化了在Windows生态系统中开发和部署AI体验的过程。

    在《DirectML:加速Windows上的AI,现在支持NPU》[2]一文中提到,DirectML是一种低级别、硬件抽象的API,它能够直接访问现代设备(如GPU和NPU)的硬件功能。这种设计使得开发者可以利用DirectML在Windows平台上创建高效的AI应用。

    DirectML与Intel NPU的结合

    DirectML已经推出了对Intel Core Ultra处理器上NPU加速的开发者预览版本。这一版本支持在新的Windows 11设备上使用Intel Core Ultra处理器的NPU,并且可以运行一部分经过优化的机器学习模型。尽管目前的开发者预览版本仍处于初期阶段,只支持特定的模型,并且可能存在一些兼容性和性能方面的问题,但这个版本标志着AI PC时代的开始。

    根据DirectX开发者博客《Introducing Neural Processor Unit (NPU) support in DirectML (developer preview)》[3],DirectML团队正在努力改进兼容性和性能,并期待用户的反馈和经验。这一新功能的推出将为开发者提供更多的工具和资源,帮助他们在Windows平台上创建更强大的AI应用。

    总结

    NPU和DirectML的结合为PC带来了全新的AI体验。Intel Ultra CPU中的NPU能够高效地执行AI计算任务,而DirectML提供了与这些硬件加速器交互的简便途径。这种结合不仅提升了AI计算的性能,还为开发者提供了更多的可能性。

    未来,我们期待看到更多基于NPU和DirectML的创新AI应用,为用户带来更丰富的AI体验。


    Learn more:

    1. Introducing Neural Processor Unit (NPU) support in DirectML (developer preview) – DirectX Developer Blog
    2. DirectML: Accelerating AI on Windows, now with NPUs – DirectX Developer Blog
    3. Unlocking Intel’s Neural Processing Unit with DirectML – Intel Community
  • 波音“吹哨人”之死:安全与责任的双重危机

    引言

    2024年3月9日,波音公司前质量经理约翰·巴内特(John Barnett)的离奇死亡,让公众的目光再次聚焦于这家航空巨头的产品质量与安全问题。巴内特曾是波音的“吹哨人”,勇敢揭露了波音787梦想飞机的严重安全问题,却在退休后面临了来自公司的报复和敌对工作环境。

    巴内特的警示

    巴内特在波音北查尔斯顿工厂担任质量经理期间,发现了波音787梦想飞机存在的安全隐患。他曾向BBC透露:“在企业产量的压力之下,生产线上的工人们故意将有缺陷的零部件安装到飞机上。”^1 这一行为直接威胁到乘客的安全。

    波音的回应与后果

    波音公司对巴内特的指控拒不承认,但美国监管机构联邦航空管理局(FAA)的审查却揭露了相似的问题。2017年,FAA在审查中发现工厂内有53个有缺陷的零件下落不明^2。然而,波音公司并未采取有效措施解决问题,反而对巴内特进行了诋毁和职业上的阻碍。

    企业文化的质疑

    波音公司近年来推行的“多样性、平等与包容”(DEI)项目,引发了外界对其企业文化的质疑。埃隆·马斯克(Elon Musk)在社交媒体上指责波音公司,认为其优先考虑DEI而非乘客安全^3。波音公司年度计划中将DEI和气候目标与高管奖金挂钩,这可能导致公司在招聘和技术考量上偏离了安全和质量的核心^4

    FAA与波音的“亲密关系”

    美国联邦航空管理局(FAA)与波音公司之间的关系也受到了质疑。FAA在监管上的缺位,以及波音公司在安全测试上的“自我认证”,使得存在重大质量缺陷的飞机得以正常投入使用^5。这种监管上的松懈,不仅影响了波音公司的产品质量,更可能对其长期发展带来严重的后果。

    美国制造业的系统性缺陷

    波音公司的案例反映出美国制造业的系统性缺陷。过度依赖外包生产,以及政府与企业之间的密切合作,导致了监管的难度和范围的扩大。《华尔街日报》指出,外包策略虽然加快了技术开发的速度,但也增加了监管的挑战^6

    结语

    巴内特的死亡不仅是一场悲剧,更是对波音公司以及整个美国制造业安全与责任的一次严峻考验。企业在追求经济利益的同时,不应忽视对乘客安全的责任。政府机构在监管上也应保持警惕,避免因过度亲密的合作关系而导致监管缺位。

    参考文献

    1. Brandon Morse, “Flyers Purposefully Avoiding Flights on Boeing Planes as Safety Concerns Become Impossible to Ignore”, Red State, March 26, 2024
    2. Mark Walker, “F.A.A. Audit of Boeing’s 737 Max Production Found Dozens of Issues”, The New York Times, March 11, 2024
    3. John Cassidy, “How Boeing and the F.A.A. Created the 737 MAX Catastrophe”, The New Yorker, September 17, 2020
    4. Rod Dreher, “Diversity Is Going To Get Us Killed”, January 10, 2024
    5. Shannon Thaler, “Boeing prioritizing diversity and inclusion over flier safety, Elon Musk says after near-catastrophic Alaska Airlines mishap”, New York Post, January 11, 2024
    6. Theo Leggett, “Boeing: How much trouble is the company in?”, BBC News, March 17, 2024
  • 美国波音公司的质量经理莫名其妙的“自杀”身亡

    美国波音公司的质量经理约翰·巴尼特的自杀身亡引起了广泛关注。以下是关于这一事件的详细信息:

    1. 事件背景:
    • 约翰·巴尼特是一位曾在波音公司工作了32年的质量经理[1]
    • 他在2010年至2017年期间担任北查尔斯顿工厂的质控经理,并在2019年曝光了波音公司的生产安全问题[1]
    1. 自杀事件:
    • 今年3月9日,约翰·巴尼特原本计划出庭指认波音公司的诽谤,但被发现死于自己的卡车中[1]
    • 根据当地警方的调查,约翰·巴尼特的死因被确定为自杀[1]
    1. 波音公司安全问题:
    • 约翰·巴尼特是波音公司的吹哨人,他曾公开揭发波音公司存在的安全隐患[1]
    • 他在2016年向美国联邦航空局(FAA)举报了波音787的氧气系统失效问题,但FAA对此处理态度不力[2]
    • 在2019年波音737MAX飞机事故后,约翰·巴尼特再次引起了全球的关注,成为波音吹哨人的代表[2]
    1. 疑点和争议:
    • 有人对约翰·巴尼特的自杀事件提出了疑点,认为这其中存在许多不明确的因素[2]
    • 一些人认为波音公司可能对吹哨人采取了打压和报复行为,导致约翰·巴尼特选择自杀[2]

    综合来看,约翰·巴尼特作为波音公司的质量经理和吹哨人,在揭发公司安全问题的过程中承受了巨大的压力。他的自杀事件引发了对波音公司安全问题和内部打压行为的关注和争议。


    Learn more:

    1. 美警方确认波音安全问题举报人约翰·巴尼特因自杀身亡全球速报澎湃新闻-The Paper
    2. 波音吹哨人”自杀”,疑点实在是太多了澎湃号·媒体澎湃新闻-The Paper
    3. 数次举报波音安全问题的前员工,在提供证词前夕突然死亡澎湃号·媒体澎湃新闻-The Paper

    =除了约翰·巴尼特之外,波音公司还有其他员工因举报安全问题而遭到报复的情况。

    根据新华网的报道[1],两名波音工程师曾因飞机的技术事项与管理层意见不和,遭到打击报复。这两名工程师坚持要求遵循联邦航空局新指南,但上级认为这样会增加成本并且延误生产,因此不同意。在联邦航空局的支持下,上级最终不得不同意。然而,这两名员工后来被波音方面给予负面评定,其中一名员工已经离职。

    此外,根据半岛电视台的报道[2],波音公司在过去三年里向美国工作场所安全监管机构提出了32起举报投诉。这显示出这家陷入困境的飞机制造商正在接受越来越严格的标准审查,暗示可能存在其他员工因举报安全问题而遭到报复的情况。


    Learn more:

    1. 安全漏洞、“吹哨人”疑遭报复……波音公司乱象迭出-新华网
    2. 波音公司遭遇 32 名举报人指控与工人身亡案件复审 | 经济 | 半岛电视台
    3. 数次举报波音安全问题的前员工,在提供证词前夕突然死亡澎湃号·媒体澎湃新闻-The Paper
  • 教授大型语言模型表达自信心:SaySelf

    摘要

    大型语言模型(LLMs)经常会生成不准确或虚构的信息,并且通常在面对陌生问题时无法表达其不确定性,这限制了它们的广泛应用。以往的工作通过直接或自一致提示,或构建特定数据集进行监督微调来引导LLMs表达自信心。基于提示的方法表现较差,而基于训练的方法仅限于二进制或不准确的群体级别的置信度估计。在这项工作中,我们提出了先进的SaySelf训练框架,教会LLMs表达更准确细粒度的置信度估计。此外,除了置信度分数,SaySelf还引导LLMs生成自我反思的论证,清晰地识别其参数知识中的差距并解释其不确定性。这是通过使用LLMs自动总结特定知识中的不确定性的自然语言实现的。总结是基于对多个抽样推理链中的不一致性的分析,并利用得到的数据进行监督微调。此外,我们使用精心设计的奖励函数进行强化学习,来校准置信度估计,激励LLMs提供准确、高置信度的预测,并惩罚错误输出中的过度自信。在内部分布和外部分布的数据集上的实验结果证明了SaySelf在减少置信度校准误差和保持任务性能方面的有效性。我们展示了生成的自我反思论证是合理的,并且可以进一步提高校准性能。

    引言

    大型语言模型(LLMs)在推理和生成有效回答方面展现出了显著的能力,然而它们经常生成不受其训练数据或输入支持的信息(即幻觉),并且通常在面对陌生问题时不愿意表达其不确定性。因此,准确获取LLMs的可靠置信度估计至关重要。以往的工作主要包括基于提示和基于训练的方法来引导LLMs表达置信度。基于提示的方法使用特定提示来生成置信度分数,或者多次提示LLMs生成答案,并使用一致性水平作为置信度指标,但这些方法在置信度校准性能上表现较差或会导致额外的推理延迟。基于训练的方法构建了用于微调的专门数据集,鼓励LLMs表达不确定性。然而,这些方法经常提供次优或二进制的置信度估计,无法准确反映模型的置信度水平。在这项工作中,我们提出SaySelf,一种训练框架,用于教导LLMs生成更准确和细粒度的置信度估计。重要的是,SaySelf不仅限于以往的置信度引导,还使LLMs能够生成自我反思的论证,指出其知识差距并解释其置信度估计。我们通过使用LLMs自动总结多个抽样推理链中的不一致性来实现这一目标,并以第一人称的自然语言表达特定知识的不确定性。为了实现准确的置信度估计,我们使用精心设计的奖励函数进行强化学习,激励LLMs生成准确、高置信度的预测,并惩罚错误输出### SaySelf框架

    SaySelf框架由两个关键阶段组成:监督微调来自任务监督的强化学习

    监督微调阶段

    在监督微调阶段,我们的目标是构建一个包含问题、推理链、自我反思论证和置信度估计的监督数据集D。我们通过从LLMs中抽样多个推理链来构建此数据集。然后,我们对抽样的推理链进行聚类,选择每个簇中的一个实例作为代表。为了得到置信度估计c,我们首先使用HotpotQA中的标注答案检查每个簇中的选定实例的正确性。然后,根据每个簇中的推理链的大小Sc计算置信度估计:c = round(Sc / N × 10),其中Sc是推理链的大小,N是抽样次数。

    为了得到自我反思论证r,我们指示LLMs仔细分析和比较所有选定的推理链,重点关注提供的知识事实的不一致性。然后,我们要求LLMs从第一人称的角度用自然语言总结“为什么LLMs不确定”。总结即是自我反思论证r。我们在附录A中提供了用于生成自我反思论证的提示。

    通过监督微调,我们使用D对LLMs进行微调。目标函数如下:

    max Θ Σ(q, s, r, c')∈D log P(s|q; Θ) + log P(r|s, q; Θ) + log P(c'|s, r, q; Θ)

    其中Θ表示LLMs的参数,c’是置信度估计c的自然语言表达。

    来自任务监督的强化学习阶段

    由于监督微调的性质,模型往往会产生相同的置信度水平,例如正确答案的置信度较低,错误答案的置信度较高。为了解决这个问题,我们使用强化学习进一步校准LLMs的置信度估计,并鼓励模型生成更准确、区分度更高的值。在采样阶段,LLMs被要求生成答案、自我反思论证和置信度水平。为了优化模型,我们根据与标准答案的对比评估生成的答案,并设计了一个奖励函数。奖励函数考虑了答案的准确性和置信度。为了鼓励模型产生更多区分度的值,奖励函数具有二次输出。

    我们使用Proximal Policy Optimization(PPO)算法对LLMs进行训练,根据定义的奖励函数进行优化。

    实验结果

    我们在多个数据集上进行了实验,包括HotpotQA、TruthfulQA、StrategyQA、FEVER、HaluEval和ParaRel。我们衡量了置信度校准性能、任务性能以及自我反思论证的准确性。

    实验结果表明,SaySelf在减少置信度校准误差、提高置信度区分度和保持任务性能方面显著优于基线方法。与其他基线方法相比,SaySelf在各方面的表现都有显著提升。

    结论

    本文提出了SaySelf框架,用于从LLMs中获取更准确和细粒度的置信度估计和自我反思论证。SaySelf通过监督微调和基于任务的强化学习两个阶段实现。我们的实验结果验证了SaySelf在减少置信度校准误

  • 探索SaySelf:让大型语言模型表达信心的自我反思方法

    在当今人工智能领域,大型语言模型(LLMs)已经展现出令人惊叹的推理和生成有效响应的能力。然而,它们在生成不准确或虚构信息(即“幻觉”)方面也存在显著问题,且通常无法明确表达它们的信心水平。这大大限制了它们的应用范围。那么,有没有一种方法可以让这些模型更准确地表达信心,并提供自我反思的理由呢?本文将带您探索一种全新的训练框架——SaySelf,它旨在解决这一问题。

    1. 了解SaySelf的背景

    大型语言模型在面对陌生问题时,常常会生成虚构信息,而无法准确传达其信心水平。之前的研究尝试通过直接提示或自一致性提示等方法来引导模型表达信心,但这些方法的效果并不理想。此外,构建专门的数据集进行监督微调的方法也存在局限性,通常只能生成二元或不准确的组级信心估计。

    先前方法的局限性

    • 提示法:通过特定的提示语句引导模型生成信心分数,或使用答案一致性作为信心指标。然而,这些方法在校准性能方面表现不佳,且显著增加了推理时间。
    • 训练法:构建专门的数据集进行微调,鼓励模型表达信心。然而,这些方法通常只能提供二元或不准确的组级信心估计,无法准确反映模型的信心水平。

    2. SaySelf的创新之处

    SaySelf不仅仅是一个训练框架,它还教会模型生成更精细的信心估计,并通过自我反思的理由解释其不确定性。

    自我反思的理由

    SaySelf通过自动总结模型在特定知识上的不确定性,生成自我反思的理由。这一过程基于对多个推理链条不一致性的分析,生成的数据用于监督微调。具体步骤如下:

    1. 生成数据集:使用现有的LLM(如GPT-4)自动生成特定知识上的不确定性总结。
    2. 推理链抽样:针对每个问题,从模型中抽样多个推理链。
    3. 语义聚类:根据语义相似性对这些推理链进行聚类,并保留每个聚类中的一个实例。
    4. 总结不确定性:指示GPT-4分析不同聚类中的实例,总结这些实例在特定知识上的不确定性。

    强化学习的作用

    为了校准信心估计,SaySelf采用了一种精心设计的奖励函数,通过强化学习激励模型生成准确的高信心预测,并对错误输出中的过度自信进行惩罚。

    3. 实验结果与应用

    在多个数据集上的表现

    实验结果表明,SaySelf在多个数据集(包括分布内和分布外的数据集)上显著降低了信心校准误差,并保持了任务性能。此外,生成的自我反思理由合理,可以进一步改进校准性能。

    应用前景

    SaySelf的研究成果不仅对相关学术研究具有影响,还在实际应用中具有广泛的潜力,包括但不限于以下几个方面:

    1. 提高AI的可信度:明确的信心表达和解释可以从模型对齐的角度提高AI的可信度。
    2. 改进模型交互:自我反思的理由可以指导模型进行后续步骤,如调用外部工具或提出澄清问题,以提升互动和性能。
    3. 主动学习算法:一旦模型经过SaySelf的训练,主动学习算法有望得到进一步发展,增强模型与人类的互动,实现持续学习。

    4. 结语

    SaySelf为大型语言模型的信心表达和不确定性解释提供了一种创新的方法。通过监督微调和强化学习的结合,SaySelf不仅提高了模型的信心校准精度,还生成了有助于理解模型内部不确定性的自我反思理由。未来,SaySelf有望在提高AI的可信度和互动性能方面发挥重要作用。

    参考文献

    Xu, T., Wu, S., Diao, S., Liu, X., Wang, X., Chen, Y., & Gao, J. (2024). SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales. arXiv preprint arXiv:2405.20974. 链接

    通过这篇文章,希望您能对SaySelf这一创新的训练框架有更深入的了解,并期待它在未来的广泛应用中发挥更大的作用。

  • 教会大语言模型表达自信:自我反思性解释的应用

    摘要: 大型语言模型(LLM)在回答问题时,经常会生成不准确或捏造的信息,并且通常无法表明其置信度,这限制了它们的广泛应用。本文将介绍一种名为 SaySelf 的全新训练框架,它能够教会 LLM 表达更准确、更细粒度的置信度估计,并生成自我反思性解释,以明确识别其参数知识中的差距并解释其不确定性。

    一、LLM 的困境:幻觉与不确定性

    大型语言模型(LLM)虽然在推理和生成方面表现出色,但它们也经常会生成不准确或捏造的信息,我们称之为“幻觉”。更糟糕的是,当面对不熟悉的问题时,LLM 通常无法表达其不确定性。

    “LLMs’ hallucination refers to instances where these models generate information that is not supported by their training data or the input provided.”

    现有的 LLM 置信度获取方法主要分为基于提示和基于训练两种。基于提示的方法使用特定提示引导 LLM 生成置信度分数,或使用答案一致性作为置信度指标,但这些方法的校准性能较差,或会显著增加推理延迟。基于训练的方法则开发专门的数据集进行微调,鼓励 LLM 表达置信度,但这些方法通常只能提供次优或二元置信度估计,无法准确反映模型的置信度水平。

    二、SaySelf:教会 LLM 表达自信

    SaySelf 是一种训练框架,旨在教会 LLM 生成更准确、更细粒度的置信度估计,并生成自我反思性解释,以明确识别其参数知识中的差距并解释其不确定性。

    2.1 监督微调:构建包含自我反思性解释的数据集

    SaySelf 的第一步是构建一个包含自我反思性解释和置信度估计的模型特定数据集。

    1. 多重采样: 对于每个问题,SaySelf 会从 LLM 中采样多个推理链和答案。
    2. 聚类分析: 对采样的答案进行聚类,识别出具有代表性的答案簇,并从每个簇中随机选择一个答案。
    3. 置信度估计: 根据答案簇的大小计算置信度估计值。
    4. 自我反思性解释生成: 指导 GPT-4 分析和比较所有选定的答案,并从第一人称的角度总结 LLM 不确定的原因,生成自我反思性解释。

    2.2 强化学习:校准置信度估计

    为了进一步校准 LLM 的置信度估计,SaySelf 使用强化学习,并设计了一个奖励函数,鼓励模型对准确的答案给出高置信度,并惩罚对错误答案的过度自信。

    三、SaySelf 的优势

    实验结果表明,SaySelf 能够显著降低置信度校准误差,并保持任务性能。此外,生成的自我反思性解释能够有效地捕捉内部不确定性,并可以进一步提高校准性能。

    四、未来展望

    SaySelf 的研究成果有望对相关学术研究和现实应用产生积极影响,例如:

    • 提高人工智能的可信度
    • 指导 LLM 执行后续步骤,例如调用外部工具或提出澄清问题
    • 推动主动学习算法的发展,增强 LLM 与人类的交互,促进持续学习

    参考文献

    [1] Xu, Tianyang, et al. “SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales.” arXiv preprint arXiv:2405.20974 (2024).

    注意: 本文仅对原文进行了部分内容的概述,建议读者阅读原文以获取更全面、准确的信息。


    Q: 这篇论文试图解决什么问题?

    A: 这篇论文试图解决大型语言模型(LLMs)在生成回答时存在的两个主要问题: 1. **生成不准确或编造信息**:大型语言模型在回答问题时经常会产生不准确或无中生有(hallucination)的信息。 2. **缺乏置信度指示**:这些模型通常在面对不熟悉的问题时,无法准确表达它们的不确定性或置信度。 论文中提到,这些问题限制了大型语言模型的更广泛应用。为了解决这些问题,论文提出了一个名为SaySelf的框架,旨在教导LLMs生成更准确和细粒度的置信度估计,并通过自我反思的理由(self-reflective rationales)清晰地识别它们在参数知识方面的不足,并解释它们的不确定性。这是通过使用LLM自动以自然语言总结特定知识的不确定性来实现的,该总结基于对多个采样推理链的不一致性分析,然后利用生成的数据进行有监督的微调(fine-tuning)。此外,论文还采用了强化学习(reinforcement learning)和精心设计的奖励函数来校准置信度估计,激励LLMs提供准确、高置信度的预测,并对错误的输出过度自信进行惩罚。

    Q: 有哪些相关研究?

    A: 论文中提到了与大型语言模型(LLMs)相关的几个研究领域,包括: 1. **LLMs的幻觉(Hallucination)和不确定性表达**: – 研究了LLMs产生幻觉的原因。 – 开发了检测或减轻幻觉的方法。 – 探讨了LLMs在无法解决问题时不愿表达不确定性的问题。 2. **LLMs的置信度引出(Confidence Elicitation)**: – 提示(Prompting)基础方法:使用特定提示引导LLMs生成置信度分数,或使用答案的一致性作为置信度的指标。 – 训练(Training)基础方法:构建专门数据集进行有监督的微调,鼓励LLMs表达不确定性。 3. **LLMs的可解释性(Explainability)**: – 研究了为LLMs生成自然语言解释的方法,以解释模型的决策过程。 – 探讨了使用思维链(Chain-of-Thought)作为自然语言解释的方法。 具体地,论文中提到了一些具体的工作,例如: – **幻觉和不确定性**:研究了LLMs在处理未知问题时倾向于编造信息的问题,并追溯到了监督指令微调(SFT)阶段的问题。 – **置信度引出**:研究了如何为包含多个标记的LLM生成答案的准确置信度估计,包括提示基础和训练基础的方法。 – **可解释性**:研究了如何为LLMs提供自然语言解释,包括训练LLMs使用真实标签和人类注释的解释作为有效的增强监督。 这些相关研究为SaySelf框架的开发提供了背景和基础,帮助解决了LLMs在置信度估计和自我反思理由生成方面的挑战。

    Q: 论文如何解决这个问题?

    A: 论文提出了一个名为SaySelf的框架,通过以下两个主要阶段来解决大型语言模型(LLMs)在生成回答时的准确性和置信度表达问题: ### 1. 有监督的微调(Supervised Fine-Tuning) 在这个阶段,目标是构建一个特定于模型的数据集,其中包含自我反思的理由(self-reflective rationales)和置信度估计。具体步骤包括: – **多次采样**:对于每个问题,从LLMs采样多个推理链。 – **聚类**:基于语义相似性对采样响应进行聚类,并保留每个聚类的代表性实例。 – **置信度估计**:根据代表性响应的一致性计算置信度估计值。 – **自我反思理由生成**:使用GPT-4分析选定实例,并从第一人称的角度以自然语言总结特定知识的不确定性。 ### 2. 基于任务监督的强化学习(Reinforcement Learning from Task Supervision) 为了进一步提高置信度估计的准确性并鼓励模型产生更准确和差异化的值,使用强化学习进一步校准LLMs的细粒度置信度估计。具体步骤包括: – **采样**:在采样阶段,LLMs被提示生成回答、自我反思理由和置信度级别。 – **奖励函数**:设计了一个考虑答案准确性和模型置信度的奖励函数,以鼓励模型在正确样本中保持高置信度,同时对错误响应中的过度自信进行惩罚。 – **优化**:使用近端策略优化(PPO)算法根据定义的奖励函数训练LLMs。 通过这两个阶段,SaySelf框架旨在教导LLMs生成更准确和细粒度的置信度估计,并提供自我反思的理由,以清晰地识别它们在参数知识方面的不足,并解释它们的不确定性。实验结果表明,SaySelf在减少置信度校准误差和保持任务性能方面是有效的,并且生成的自我反思理由是合理的,可以进一步有助于校准。

    Q: 论文做了哪些实验?

    A: 论文中进行了以下实验来评估SaySelf框架的有效性: 1. **评估数据集**:使用了多个知识密集型的问答任务数据集进行评估,包括: – HotpotQA:多跳推理问答对数据集。 – TruthfulQA:测试模型是否生成真实答案的数据集。 – StrategyQA:需要多跳推理的是非题数据集。 – FEVER:评估模型对Wikipedia文档中陈述的事实性验证能力的数据集。 – HaluEval:评估模型幻觉率的数据集。 – ParaRel:衡量模型理解释义关系事实性能的数据集。 2. **评估指标**:从三个方面衡量了不同方法的表现: – 置信度校准性能:使用ECE(预期校准误差)和AUROC(曲线下面积)指标。 – 任务性能:在数据集的测试集上测量准确性。 – 生成的自我反思理由的忠实度:通过采样多个响应并聚类,然后使用熟练的LLM(GPT-4)来评估提供的理由是否能够忠实地表达采样响应中展示的不确定性。 3. **基线比较**:与以下方法进行了比较: – 直接提示置信度提取(DP)。 – 基于自我一致性的置信度估计(SC)。 – R-Tuning:直接训练LLMs生成二元置信度估计。 – 基于分组的置信度估计进行校准训练(GCE)。 4. **主要实验结果**: – SaySelf在减少校准误差(ECE)和提高正确与错误响应之间置信度区分(AUROC)方面显著优于所有基线方法。 – 在任务性能方面,SaySelf能够总体上保持原始任务性能,表明置信度估计的任务不与原始任务冲突。 5. **自我反思理由的忠实度评估**: – SaySelf能够生成更合理的自我反思理由,这些理由通过多个采样响应中的不一致性来指示LLMs内部的不确定性。 6. **消融研究**:为了验证SaySelf中的设计选择,进行了消融研究,包括: – 没有强化学习的SaySelf(w/o RL)。 – 没有自我反思理由和置信度估计的SaySelf(w/o R & CE)。 – 没有自我反思理由的SaySelf(w/o R)。 – 验证了定义的奖励函数的有效性。 7. **案例研究**:通过案例研究来更好地理解SaySelf方法,选择了两个问题,并提示通过SaySelf训练的LLMs生成自我反思理由。 这些实验结果表明,SaySelf框架能够有效地提高LLMs的置信度估计准确性,并生成有助于提高系统可靠性的自我反思理由。

    Q: 有什么可以进一步探索的点?

    A: 论文提出的SaySelf框架在提高大型语言模型(LLMs)置信度估计的准确性和生成自我反思理由方面取得了显著成果。然而,仍有许多潜在的研究方向可以进一步探索: 1. **更复杂的奖励函数**:当前的奖励函数可能还有改进的空间。研究更复杂的奖励机制,考虑更多的因素,如置信度分布的平滑性或模型在面对不同类型的问题时的行为。 2. **更广泛的数据集**:尽管SaySelf在多个数据集上进行了测试,但扩展到更多样化的数据集,特别是那些涉及不同领域或语言的数据集,可能会揭示新的挑战和改进机会。 3. **模型的可解释性**:虽然SaySelf生成了自我反思理由,但进一步提高模型的可解释性,例如通过可视化技术或更详细的解释,可能会帮助用户更好地理解模型的决策过程。 4. **模型的健壮性**:研究SaySelf在面对对抗性攻击或数据污染时的健壮性,并开发相应的防御机制。 5. **实时应用**:探索SaySelf在实时应用中的可行性,例如聊天机器人或在线助手,以及如何优化模型以满足实时性能要求。 6. **用户研究**:进行用户研究以了解人们如何感知和解释由SaySelf生成的置信度估计和自我反思理由,以及这些信息如何影响用户对模型的信任和满意度。 7. **多模态输入**:将SaySelf扩展到处理多模态输入(如图像、视频和文本),这可能会增加模型需要处理的信息复杂性。 8. **跨领域适应性**:研究SaySelf在不同领域(如医疗、法律或金融)的适应性和如何调整框架以满足特定领域的需求。 9. **模型的自我改进**:探索如何利用自我反思理由来指导模型的自我改进,例如通过主动学习或增强学习策略。 10. **伦理和偏见**:研究SaySelf在处理敏感话题时的伦理问题和潜在偏见,并开发减轻这些问题的方法。 这些探索点可以帮助进一步推动LLMs在置信度估计和可解释性方面的发展,并提高它们在各种应用中的实用性和可靠性。

    Q: 总结一下论文的主要内容

    A: 这篇论文的核心内容是提出了一个名为SaySelf的框架,旨在解决大型语言模型(LLMs)在生成回答时存在的两个主要问题:生成不准确或编造的信息,以及缺乏对不确定性的表达。SaySelf框架通过以下两个主要阶段来提高LLMs的置信度估计准确性,并生成自我反思的理由: 1. **有监督的微调(Supervised Fine-Tuning)**: – 通过多次采样LLMs生成的推理链,并对这些响应进行聚类,挑选出代表性的响应。 – 基于聚类结果,计算置信度估计,并利用GPT-4分析不一致性,生成自我反思理由。 – 使用这些数据进行有监督的微调,训练LLMs生成更准确的置信度估计和自我反思理由。 2. **基于任务监督的强化学习(Reinforcement Learning from Task Supervision)**: – 使用强化学习进一步校准LLMs的置信度估计,通过设计一个奖励函数来激励模型在正确答案上给出高置信度,同时对错误答案的过度自信进行惩罚。 – 采用近端策略优化(PPO)算法进行训练。 论文通过一系列实验验证了SaySelf框架的有效性,包括在多个知识密集型问答任务数据集上评估置信度校准性能、任务性能和自我反思理由的忠实度。实验结果表明,SaySelf能够在减少置信度校准误差的同时保持任务性能,并生成合理的自我反思理由。 此外,论文还进行了消融研究来验证SaySelf各个组成部分的有效性,并提供了案例研究来展示SaySelf生成的自我反思理由如何捕捉LLMs内部的不确定性。 最后,论文讨论了SaySelf对学术研究和实际应用的潜在影响,例如提高AI系统的可信度、指导LLMs进行更好的交互和性能提升,以及在训练协议中促进LLMs与人类的持续学习。论文的代码也已经公开,供进一步研究和应用。