Day: June 8, 2024

MMLU:我们真的完成了它吗?MMLU:我们真的完成了它吗?

大型语言模型(LLM)的出现,标志着自然语言处理领域取得了重大进展,使我们能够通过自然语言与计算机进行交互。然而,这些模型的评估需要可靠的基准测试,而现有的基准测试却存在着不少问题。 MMLU:一个广受欢迎但存在问题的基准测试 MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)基准测试,因其涵盖了数学、历史、计算机科学、逻辑、法律等多个领域的知识而备受关注。然而,我们发现,尽管MMLU很受欢迎,但它存在着大量错误,这些错误会误导模型评估和比较。 MMLU中的错误:一个需要解决的问题 研究人员发现,MMLU中存在着各种各样的错误,从简单的解析和抓取错误,到更复杂的上下文、解释和数据集质量问题。例如,在病毒学子集中,57% 的问题都存在错误,其中一些错误甚至建议将美军派往西非以阻止埃博拉疫情的爆发。 MMLU-Redux:一个更可靠的基准测试 为了解决MMLU中存在的错误问题,研究人员手动分析了MMLU数据集,并创建了MMLU-Redux。MMLU-Redux 包含3000个经过手动重新标注的问题,涵盖了MMLU的30个子集。研究人员发现,MMLU-Redux 的结果与原始MMLU的评估结果存在显著差异,这表明MMLU中存在的错误对模型评估结果产生了重大影响。 MMLU-Redux:一个更可靠的基准测试 MMLU-Redux 的创建,为我们提供了重新评估LLM性能的工具。研究人员发现,在MMLU-Redux 上,一些LLM的性能表现与原始MMLU评估结果存在显著差异,这表明MMLU中的错误会影响模型的排名。 自动修复MMLU:一个挑战 研究人员还尝试了使用LLM自动修复MMLU中的错误。他们使用了多种方法,包括零样本提示、少样本提示、链式思维提示和检索增强生成。然而,即使是最先进的模型,在自动错误检测方面的表现仍然有限。 结论:MMLU需要改进 MMLU是一个重要的基准测试,但它存在着不少问题。MMLU-Redux 的出现,为我们提供了一个更可靠的基准测试。研究人员呼吁社区共同努力,改进MMLU,使其成为评估下一代LLM的可靠工具。 参考文献 [1] Vaswani, Ashish, et al. “Attention is [...]

技术封建主义:互联网时代的“数字农奴”?技术封建主义:互联网时代的“数字农奴”?

你是否以为,人类正在进入一个新时代——互联网高科技的时代? 2024年出版的新书《技术封建主义》(Techno Feudalism)却提出一个令人深思的观点:人类更像回到了封建时代,只是多了高科技。 这本书的作者雅尼斯·瓦鲁法基斯(Yanis Varoufakis)是一位非比寻常的经济学家。他曾被游戏平台 Steam 的创造者 Valve 公司聘用,后来还担任过希腊的财政部长。这本书正是他卸任后对互联网时代社会结构的深刻思考。 互联网领主与数字农奴 历史上,中世纪的欧洲盛行封建制度。大地主(领主)占有大片土地,控制土地上的一切,农民也变成了领主的私人财产(农奴)。 互联网时代,这种模式似乎在数字世界中重演。尽管互联网看似广阔无垠,但真正掌握话语权的却是少数几家科技巨头:谷歌、苹果、微软、亚马逊、Meta……它们就像互联网时代的领主,瓜分了大部分的数字领地。 在自己的领地上,这些科技巨头拥有至高无上的权力。广大的网民则成了“数字农奴”,他们在这些领地里发帖、上传照片视频,实际上是在为领主工作。他们得到的回报微薄,免费的劳动却为科技巨头创造了巨大的价值。 更令人担忧的是,网民们逐渐产生对这些数字领地的依赖。一天不去领主的土地看看,心里就会感到空虚失落。 高高的围篱与地租 这些数字领主拥有强烈的领地意识,他们筑起高高的围篱,防止自己的数字资产(数据)流出,或被其他公司侵占。 如果你想要使用某个领主的领地,就必须缴纳“地租”——使用费。比如,你想把自己的 App 放在苹果应用商店出售,就必须把 30% 的收入交给苹果。这与中世纪封建制度下的地租何其相似! 打破技术封建主义 瓦鲁法基斯认为,为了打破技术封建主义,防止数字领主的出现,政府必须采取一些强制措施: 结语 《技术封建主义》这本书为我们打开了眼界,让我们意识到,看似繁荣的互联网经济,背后隐藏着深刻的社会问题。技术封建主义的出现,不仅会加剧社会不平等,还会扼杀创新和自由。只有通过政府的积极干预,才能打破这种数字时代的封建统治,创造一个更加公平、开放的互联网社会。 参考文献: [...]