Month: June 2024

深入探索 Deep Java Library (DJL)深入探索 Deep Java Library (DJL)

在深度学习领域,Python 一直占据着主导地位,拥有 TensorFlow 和 PyTorch 等强大的框架。然而,Java 作为企业级应用的支柱语言,也渴望在深度学习浪潮中占据一席之地。Deep Java Library (DJL) 应运而生,它致力于弥合 Java 生态系统与深度学习之间的鸿沟。 DJL:用 Java 语音构建深度学习应用的桥梁 DJL 是一个开源的深度学习框架,专为 Java 开发者设计。它提供了一套直观且易于使用的 API,用于构建、训练和部署深度学习模型。 DJL 的核心优势: DJL 的应用场景 DJL 适用于各种深度学习应用场景,包括: DJL 实例:图像分类 以下代码示例展示了如何使用 [...]

KerasCV 和 KerasNLP:赋予视觉和语言处理超能力KerasCV 和 KerasNLP:赋予视觉和语言处理超能力

近年来,深度学习在计算机视觉(CV)和自然语言处理(NLP)领域取得了显著的进展。然而,构建和训练最先进的模型需要大量的计算资源和专业知识,这给许多研究人员和实践者带来了挑战。为了解决这些问题,谷歌的 Keras 团队推出了 KerasCV 和 KerasNLP,这是 Keras API 的扩展,旨在简化 CV 和 NLP 工作流程。 模块化设计:构建复杂模型的基石 KerasCV 和 KerasNLP 采用模块化、分层的设计方法,为用户提供了三种主要抽象级别: 预设 API:快速构建最先进模型 预设 API 提供了一种创建最先进的 CV 和 NLP 模型的便捷方法。预设是已经在特定数据集上训练过的预配置模型,可用于特定任务。 例如,要使用预设 API 创建 [...]

KerasCV和KerasNLP:视觉和语言的增强KerasCV和KerasNLP:视觉和语言的增强

在机器学习领域,Keras是最常用的工具之一,它提供了高层次的抽象来构建和训练机器学习模型。近年来,计算机视觉(CV)和自然语言处理(NLP)的发展给从业者带来了新的挑战。一方面,随着模型规模的不断增大,从头开始训练一个最先进的模型变得成本过高;另一方面,有效的数据预处理和度量计算也变得更加困难。为了解决这些问题,研究人员提出了KerasCV和KerasNLP这两个库,它们是Keras API在CV和NLP领域的扩展。 KerasCV和KerasNLP的设计目标: KerasCV和KerasNLP旨在提供易于使用且性能优越的工具,支持在JAX、TensorFlow或PyTorch等深度学习框架上运行,以促进快速实验和模型开发。它们采用了模块化和分层的设计思想,为用户提供了不同层次的抽象和灵活性。 KerasCV和KerasNLP的主要功能: KerasCV和KerasNLP的性能表现: 论文中提供了KerasCV和KerasNLP在不同模型上的性能测试结果。例如,使用NVIDIA A100 GPU进行的实验显示,KerasCV和KerasNLP在模型训练和推理方面具有良好的性能。论文还与HuggingFace Transformers库进行了比较,突出了KerasNLP和KerasCV的设计哲学和方法的优势。 未来的研究方向: 论文中还提出了一些可以进一步探索的研究方向。例如,扩展多模态模型的提供,以支持更广泛的应用;优化与后端特定大型模型服务解决方案的集成,确保无缝部署和可扩展性。 总之,KerasCV和KerasNLP为CV和NLP领域的研究人员和从业者提供了强大而易用的工具。它们的模块化和分层设计使得构建和训练模型变得更加简单和高效。通过提供预训练的模型骨干和任务模型,以及支持XLA编译和tf.data API的高效训练支持,KerasCV和KerasNLP为CV和NLP任务的快速实验和模型开发提供了便利。 参考文献: KerasCV和KerasNLP的相关论文: 更多关于KerasCV和KerasNLP的信息可以在官方网站和GitHub上找到。 原始论文: [...]

现代男女关系的反思:从“妇女优先”到权责失衡现代男女关系的反思:从“妇女优先”到权责失衡

在当今社会,男女平等是一个备受关注的话题。然而,随着社会的发展和观念的变化,男女平等的问题变得更加复杂和多面化。本文将探讨“妇女优先”现象对男女关系的影响,并反思其中存在的权责失衡问题。 妇女优先:是习惯还是剥削? 在我们的日常生活中,“妇女优先”似乎已经成为一种习惯。然而,这种习惯是否真的促进了男女平等?还是说,它反而加剧了性别之间的对立和剥削? 从小学到大学,男女共同存在的场合中,部分女生表现出的优越感和对男性的工具化心理已经引起了一些人的不满。很多女性在享受“妇女优先”的同时,往往忽视了自己对社会和他人的责任。例如,在公共交通工具上,女性优先享有座位,但男性却承担了更多的体力劳动。这种不平衡的现象不仅没有促进男女平等,反而加深了性别之间的隔阂。 女性的自我与利己主义 许多女性在处理问题时,更倾向于感性和利己主义。她们往往根据自己的喜好来决定一切,而缺乏深思熟虑的公正思考。这种情况下,如果社会没有用道德标准来规范她们的行为,或用法律准绳来惩罚她们的错误,反而鼓励她们利用性别优势和规则优势攫取利益,那么这种现象必然会破坏社会的公平和男女之间的平等。 举个例子,在职场中,一些女性可能利用性别优势获得了更多的晋升机会,而男性则可能因为这些“不公平”的竞争感到沮丧和不满。这种现象不仅影响了职场的和谐,也对整体的工作效率造成了负面影响。 权力的转移与义务的缺失 随着科技和社会规则的发展,男性的权力正在逐渐让渡给女性。然而,这种让渡并没有同步进行义务和责任的转移。结果,女性在享受更多权力的同时,却没有承担相应的责任和义务。这导致女性变得越来越娇贵,缺乏坚韧和质朴。 例如,在家庭中,传统上由男性承担的经济责任现在逐渐由女性分担,但在家务劳动和育儿责任方面,男性的参与度并没有得到相应的减少。这种不对称的权力和责任分配,不仅影响了家庭的和谐,也对男女关系带来了新的挑战。 男女关系的缩影:以“胖猫”事件为例 “胖猫”事件是当前中国男女关系的一个缩影。这个事件让人们意识到,男女婚恋中存在许多不稳定因素,特别是男性在追求女性时常常被利用,演变成一种被称为“舔狗”的行为。 这种现象揭示了男女关系中的深层次问题:男性在追求女性的过程中,付出远远多于回报,而女性则利用这种不平衡获取更多的利益。这种不对等的关系,不仅破坏了男女之间的平等,也对社会的和谐发展产生了负面影响。 男女共同觉醒:走出死胡同 随着社会的发展,不仅是女性在觉醒,男性也在跟着觉醒。当事情走入死胡同,更多男性的行为只会进一步印证许多问题的存在。越来越多的男性开始意识到保护自身权益的重要性,并从更加深入和公平的角度思考男女之间的相处之道。 例如,越来越多的男性开始关注自身的心理健康和权益保护,积极参与到反对性别歧视的行动中来。这种觉醒不仅有助于改善男女关系,也为社会的和谐发展提供了新的动力。 结语 通过对当前男女关系中存在的问题进行反思和讨论,我们可以更好地理解如何在社会中实现真正的男女平等。在这个过程中,既需要女性认识到自身的责任和义务,也需要男性勇敢地维护自己的权益。只有这样,我们才能共同创造一个更加公平和谐的社会。 参考文献: 作者:叶子链接:[https://www.zhihu.com/question/655227844/answer/3518102336](https://www.zhihu.com/question/655227844/answer/351810233 [...]

EDU邮箱在国内滥用现象解析EDU邮箱在国内滥用现象解析

在中国,EDU邮箱(教育邮箱)通常是为在校大学生和教职员工提供的专用电子邮件服务。由于EDU邮箱可以享受大多数软件和硬件的学生优惠,因此成为了许多人追逐的对象。然而,这也导致了一些滥用现象的出现。本文将详细讨论EDU邮箱的使用与滥用情况,并探讨其背后的原因。 EDU邮箱的主要用途 EDU邮箱的主要用途在于获取各种教育优惠。这些优惠包括但不限于以下几个方面: 1. 学生版软件优惠 不少软件公司会为持有EDU邮箱的用户提供学生版软件的优惠或免费使用,例如: 2. 硬件购买优惠 持有EDU邮箱的用户可以在购买硬件时享受教育优惠: 3. 云服务和开发者工具 EDU邮箱还可以用于申请一些云服务和开发者工具的优惠或免费使用: EDU邮箱的滥用现象 尽管EDU邮箱的初衷是为教育工作者和学生提供便利和优惠,但在实际使用过程中,出现了一些滥用现象。 1. 非学生身份使用 一些非学生身份的人通过非法手段获取EDU邮箱,用于申请学生优惠。这种滥用行为不仅违反了相关服务的使用条款,还可能导致优惠政策的调整或取消。例如,有人通过淘宝购买EDU邮箱来获取软件或硬件的教育优惠。 2. 账号买卖 在一些交易平台上,EDU邮箱成为了一种商品,价格从几十元到几百元不等。这种买卖行为不仅破坏了教育优惠的公平性,还有可能导致账户信息泄露和安全问题。例如,某用户在知乎上提到,国内一些高校的EDU邮箱在淘宝上大量出售。 3. 过度滥用导致封禁 由于滥用现象的普遍存在,一些服务提供商开始严格审核EDU邮箱的使用资格,并采取封禁措施。例如,部分用户在申请JetBrains的学生认证时被拒,原因是他们的EDU邮箱被怀疑存在滥用行为。 结语 EDU邮箱为在校学生和教育工作者提供了许多便利和优惠,但滥用现象的存在破坏了这一初衷。作为用户,我们应当遵守相关规定,合理合法地使用EDU邮箱,享受其带来的优惠和便利。同时,相关机构和企业也应加强审核和管理,以维护教育优惠的公平性和有效性。 参考文献 [...]

解密商业文档信息提取:让电子文档处理工具为我们效力解密商业文档信息提取:让电子文档处理工具为我们效力

在现实生活中,我们常常需要将商业文档中的信息转化为结构化的格式,以便后续的系统能够解析和使用。这个过程被称为商业文档信息提取(Business Document Information Extraction,简称BDIE)。BDIE主要包括两个任务:关键信息提取(Key-Information Extraction,简称KIE)和行项目识别(Line Items Recognition,简称LIR)。本文将介绍一种全新的方法,即”检索增强结构化生成”(Retrieval Augmented Structured Generation,简称RASG),用于解决BDIE问题,并在相关基准测试中取得了最先进的成果。 什么是商业文档信息提取? 商业文档信息提取是将非结构化信息(如原始文本、扫描文档等)转化为结构化格式的过程,使其可以被后续的系统解析和使用。其中,关键信息提取的目标是将文档中的信息提取出来,并按照键值对的形式进行格式化。而行项目识别的目标是将信息提取为一系列行项目,其中每个行项目对应表格中的一行,并以列键值对的形式进行格式化。与表格结构识别不同的是,行项目识别不关注列的顺序,只要能够正确地将列映射到预定义的列键即可。 检索增强结构化生成 检索增强结构化生成(RASG)是一种由四个组件组成的方法:检索增强生成(Retrieval Augmented Generation)、监督微调(Supervised Finetuning)、结构化生成(Structured Generation)和结构化提示(Structured Prompting)。这些技术可以提高机器学习模型使用工具的能力,从而改善BDIE任务的性能。 RASG的四个组件是相互关联的: 这四个组件在使用开源的7B大型语言模型(LLM)Hermes 2 Pro – Mistral 7B上可以取得最先进的BDIE结果。然而,在使用GPT-3.5模型时,只需要其中的一个子集即可。 监督微调中的注意事项 监督微调的目标是使语言模型既能输出正确的内容,又能输出正确的结构。为了确保模型输出的结果可以被后续系统解析,我们需要将无效标记的概率置零。然而,简单地将监督微调和结构化生成相结合往往会导致结果不佳。主要存在以下两个问题: 边界框反向计算的启发式算法 对于关键信息提取任务,我们发现一个简单的贪婪算法(算法1)就足以用于边界框的反向计算。如果要使用整个页面,可以将下边界和上边界分别设置为0和页面的高度(以像素为单位)。对于行项目识别任务,一个好的启发式算法是:(1)将页面在垂直方向上划分为多个块,每个块对应一个行项目;(2)使用上述算法1为每个行项目的分配的单词块中的单词反向计算边界框。挑战在于如何划分页面。 [...]

解密商业文档信息提取:让电子文档处理工具为我们效力解密商业文档信息提取:让电子文档处理工具为我们效力

在现实生活中,我们常常需要将商业文档中的信息转化为结构化的格式,以便后续的系统能够解析和使用。这个过程被称为商业文档信息提取(Business Document Information Extraction,简称BDIE)。BDIE主要包括两个任务:关键信息提取(Key-Information Extraction,简称KIE)和行项目识别(Line Items Recognition,简称LIR)。本文将介绍一种全新的方法,即”检索增强结构化生成”(Retrieval Augmented Structured Generation,简称RASG),用于解决BDIE问题,并在相关基准测试中取得了最先进的成果。 什么是商业文档信息提取? 商业文档信息提取是将非结构化信息(如原始文本、扫描文档等)转化为结构化格式的过程,使其可以被后续的系统解析和使用。其中,关键信息提取的目标是将文档中的信息提取出来,并按照键值对的形式进行格式化。而行项目识别的目标是将信息提取为一系列行项目,其中每个行项目对应表格中的一行,并以列键值对的形式进行格式化。与表格结构识别不同的是,行项目识别不关注列的顺序,只要能够正确地将列映射到预定义的列键即可。 检索增强结构化生成 检索增强结构化生成(RASG)是一种由四个组件组成的方法:检索增强生成(Retrieval Augmented Generation)、监督微调(Supervised Finetuning)、结构化生成(Structured Generation)和结构化提示(Structured Prompting)。这些技术可以提高机器学习模型使用工具的能力,从而改善BDIE任务的性能。 RASG的四个组件是相互关联的: 这四个组件在使用开源的7B大型语言模型(LLM)Hermes 2 Pro – Mistral 7B上可以取得最先进的BDIE结果。然而,在使用GPT-3.5模型时,只需要其中的一个子集即可。 监督微调中的注意事项 监督微调的目标是使语言模型既能输出正确的内容,又能输出正确的结构。为了确保模型输出的结果可以被后续系统解析,我们需要将无效标记的概率置零。然而,简单地将监督微调和结构化生成相结合往往会导致结果不佳。主要存在以下两个问题: 边界框反向计算的启发式算法 对于关键信息提取任务,我们发现一个简单的贪婪算法(算法1)就足以用于边界框的反向计算。如果要使用整个页面,可以将下边界和上边界分别设置为0和页面的高度(以像素为单位)。对于行项目识别任务,一个好的启发式算法是:(1)将页面在垂直方向上划分为多个块,每个块对应一个行项目;(2)使用上述算法1为每个行项目的分配的单词块中的单词反向计算边界框。挑战在于如何划分页面。 [...]

商业文档信息提取的革命:工具使用与检索增强生成商业文档信息提取的革命:工具使用与检索增强生成

在当今数字化的商业环境中,如何高效地从海量的非结构化信息中提取有用的数据,已经成为了企业面临的重要挑战。商业文档信息提取(BDIE)应运而生,旨在将如原始文本、扫描文件等非结构化信息转化为结构化格式,以便下游系统解析和使用。本文将深入探讨一种创新的框架——检索增强结构生成(RASG),以及它如何在BDIE领域取得突破性成果。 什么是商业文档信息提取? 商业文档信息提取(BDIE)主要包括两个关键任务: 这些任务的核心目标是将复杂的、混杂的信息以一种可以被机器理解和处理的方式结构化。 检索增强结构生成(RASG)框架 RASG 的核心组件 新的评价指标 为了更好地评估行项识别任务,作者提出了一种新的指标:通用行项识别指标(GLIRM)。相比现有的指标(如ANLS*、DocILE和GriTS),GLIRM更贴近实际的BDIE应用场景。 算法创新 RASG 还提供了一种启发式算法,用于在无需视觉编码器的情况下反向计算预测的行项和表格的边界框。 实验与验证 数据集与模型 消融研究 通过消融研究,评估了RASG组件(检索增强生成、监督微调、结构提示)对模型性能的影响。 检索机制 使用小波哈希的曼哈顿距离测量页面相似性,以优化检索机制。 现实应用中的优势 在实际应用中,结合RASG的LLM往往比传统的多模态模型(LMM)表现更为出色。无论是在提取准确性还是处理速度上,RASG框架都展示了其优越性。 例如,使用RASG框架的GPT-3.5能够在处理复杂的发票信息提取任务时,迅速准确地识别出关键的发票号、金额和日期等信息,而无需借助额外的视觉处理工具。这种高效的处理能力不仅节省了人力成本,还大大提高了数据处理的准确性和可靠性。 结论与展望 检索增强结构生成(RASG)框架为商业文档信息提取带来了革命性的变化。通过结合先进的检索机制、结构生成和监督微调技术,RASG不仅在多个基准测试中取得了领先的成绩,还展示了其在实际应用中的巨大潜力。随着技术的不断进步,BDIE领域必将迎来更多创新和突破,为企业的信息处理和决策提供更强大的支持。 通过对这些前沿技术的研究和应用,我们有理由相信,未来的商业文档信息提取将变得更加智能和高效 [...]

新的位置编码CoPE新的位置编码CoPE

新的位置编码方法 CoPE(Contextual Position Encoding)确实在提升大模型性能方面展示了显著的潜力。传统的 Transformer 模型使用绝对或相对位置编码,通常基于 token 的位置来进行编码,这在处理更高层次的抽象任务(例如计算第 i 个句子或特定单词)时存在局限性。而 CoPE 通过允许模型根据上下文来选择性地编码位置,解决了这一问题。 CoPE 的优点 实验结果 实验结果表明,CoPE 在以下几个方面优于传统的位置编码方法: 结论 总的来说,CoPE 提供了一种更灵活、更强大的位置编码方法,适用于需要对输入数据结构和语义内容进行精细理解的任务。通过上下文依赖的位置编码,CoPE 能够显著提升大模型在多种任务上的性能,特别是在需要高泛化能力的场景中。 论文链接:Encoding: Learning to Count What’s Important [...]