Month: May 2024

谷歌Gemini悄然崛起,中文能力超越GPT-4o!谷歌Gemini悄然崛起,中文能力超越GPT-4o!

初露锋芒时的Gemini 自从谷歌推出Gemini大模型以来,它一直在不断进化和提升。尽管最初亮相时,Gemini相较于OpenAI的GPT-4o显得略逊一筹,但这并未阻止谷歌持续进行迭代和优化。如今,Gemini已经展现出强大的实力,尤其是在中文处理能力方面,甚至超越了GPT-4o。 最新测试结果:Gemini逼近GPT-4o 在最新的综合测试中,Gemini 1.5 Pro和Advanced版本分别排在第二和第三位,几乎追平了GPT-4o。而轻量版的Gemini 1.5 flash也表现不俗,排在第九位,超越了Llama-3-70b,并接近GPT-4。 值得注意的是,Gemini的性能提升不仅仅体现在排名上。相比4月份的版本,Gemini Pro和Flash的能力有了显著加强,尤其在上下文长度上更是达到了惊人的100万token,相比之下,GPT-4的上下文长度仅为12.8万token。 中文能力的惊人表现 特别值得一提的是,Gemini在中文处理能力上表现出色。在中文测试中,Gemini Pro和Advanced双双超越了GPT-4o,分别排在第一和第二位。这个成绩不仅显示了谷歌在多语言处理方面的技术实力,也为中文用户带来了更多期待。 突破重重挑战的Hard Prompts测试 在更具挑战性的Hard Prompts测试中,Gemini同样表现优异。该测试要求大模型面对更加复杂和棘手的问题,而Gemini 1.5 Pro在这一测试中排名第二,仅次于GPT-4o。这一成绩再次证明了Gemini在处理复杂任务时的卓越能力。 技术底蕴的深厚积累 尽管在两周前的更新撞档时,Gemini因表现不佳而遭遇了不少批评,甚至有科技博客指出,尽管谷歌对1.5 Pro进行了数月的改进,但在常识推理、多模态能力和代码能力上,仍无法与GPT-4o媲美。然而,经过一段时间的快速提升,谷歌Gemini如今的表现已经有了质的飞跃,显示出谷歌在AI领域强大的技术积累和持续创新的能力。 结语 谷歌Gemini的快速崛起和显著进步,尤其是在中文处理能力上的超越,显示了谷歌在AI技术上的深厚实力和不懈追求。尽管挑战依旧存在,但Gemini的未来无疑值得期待。 参考文献 常嘉帅, “谷歌Gemini“悄悄变强”,快速缩小与GPT-4o差距,中文更是完成了超越!” [...]

深圳跑楼大妈:在摩天大楼间奔跑的隐形劳工深圳跑楼大妈:在摩天大楼间奔跑的隐形劳工

引言 在深圳华强北的摩天大楼里,外卖骑手们在用餐高峰时面临着一个共同的难题:如何在错综复杂的电梯迷宫中快速送达餐点。为了避免订单超时,一群五十来岁的阿姨们接过了送餐的最后一棒。在午高峰时,她们爬几十层楼梯,每单赚取两块钱的代送费。这些阿姨们虽然栖身在外卖系统的边缘,但她们却开辟出了一个独特的跑楼江湖。 战场:华强北的送餐角逐 在华强北的赛格广场,52岁的谢明霞每天临近中午十二点进入战斗状态。她在车流中迅速预判外卖骑手停车的位置,飞奔过去拦下对方,催促着问“几楼几楼?”然后拽下餐盒,出示付款码,在餐袋上记下房间号,几个动作一气呵成。她还会指着嘴边的黑痣说:“阿姨这个是独一无二的”,许多骑手听完就笑,记住了她。 赛格广场是深圳知名的摩天大楼,楼高355.8米,有72层,被称为华强北的宇宙中心。跑楼大妈们的主战场就在楼下狭窄的马路,每当戴着黄头盔、蓝头盔的外卖骑手出现,就像是随机掉落的移动金币,阿姨们都被吸过来。成功接上一单赚两块,偶尔有超重的聚餐单或超市单,可以讲价到三五块,甚至十块。 系统末端:算法之外的生存法则 在跑楼江湖中,骑手或许算是这片地界的“老板”,可以选择给谁单子。骑手们首选熟悉的、没出过错的阿姨,其次优先同乡。比如骑手孟灵灵就会优先找一个叫“九娣”的阿姨,每次都先给她单子,因为他们交流并不多,但彼此信任。 然而,跑楼阿姨们为了抢单也各有策略。有的阿姨会攒一堆餐,一次性送上楼,以提高效率;而有的则会立即送出,以免因为超时而被投诉。骑手们也知道,送餐到摩天大楼意味着等电梯的时间会很长,因此他们往往选择把餐交给跑楼阿姨,然后点“送达”,即使这是违规行为。 高龄闯入者:适应与挣扎 作为外来闯入者,混进跑楼江湖的每一步都很艰难。60岁的张玉英是个年过60的瘦小阿姨,患有退行性关节炎,走路不快,但她却有自己的规范。她退休后和丈夫来到深圳,看不懂导航,连坐地铁都弄不明白,但她通过不断摸索,终于找到了生存之道。 另一位高龄代送员冯泉,70岁,之前在外企工作,每月有5600元退休金。他租了一个下铺床位,月租600元,每天挣够80块就下班。他独来独往,但在一次拉架事件后,渐渐得到了同行的认可和帮助。 和华强北一起老去 赛格广场楼下还有一群拉货的女人,了解大厦的每一寸肌理。她们见证了跑楼江湖的出现和发展。早期竞争并不激烈,但随着外来代送员的加入,竞争变得越来越激烈。广东人王红对外来者寸土不让,而谢明霞则认为,大家都是靠这个吃饭,不能怪她抢单。 如今的代送员群体中,有赛格广场的保洁员,有卖货的商贩,还有兼职做钟点工的阿姨。她们的目标很简单:多挣几块钱。 结语 在深圳这座讲求效率的城市,跑楼大妈们在摩天大楼间奔跑,成为了外卖系统中不可或缺的一部分。她们在系统末端开辟了一个独特的跑楼江湖,以自己的方式努力生存。虽然她们栖息在外卖系统的边缘,但她们却在摩天大楼间奔跑,成为了外卖系统中不可或缺的一部分。她们在系统末端开辟了一个独特的跑楼江湖,以自己的方式努力生存。虽然她们的劳动隐身于外卖系统的数据之中,但她们的故事却深刻反映了都市生活的另一面。 参考文献 [...]

学校语文教育:从“辞藻堆砌”到“言之有物”学校语文教育:从“辞藻堆砌”到“言之有物”

最近在社交媒体上,一段由张宁老师录制的语文课程视频引发了热议。这段视频在抖音上大受欢迎,但在微博上却遭到了猛烈的批评。批评者认为,张老师的课程内容只是辞藻堆砌,毫无逻辑和实质内容,甚至被批评为“考试八股文”。面对这些批评,我认为,矛头指向张老师并不公正,她只是当前国内语文教育现状的一个表现,真正需要讨论的,是学校语文教育中常年存在的虚浮风气。 为什么虚浮文风让人反感? 所谓的虚浮文风,就是内容缺乏可证伪性,信息量极低。举个例子,如果我说“这玻璃杯里有水”,我们可以通过观察和品尝来验证这句话的真伪。然而,如果我说“这玻璃杯气质出众”,这句话就无法被验证,因为“气质出众”本身没有一个客观标准。这种不可证伪的表达,虽然永远错不了,但也毫无实际意义。 在信息传播中,语言的一个重要作用是指导行为,明确告知人们要这样而不是那样。但虚浮的语言由于其含义过于宽泛模糊,语义的可能性没有足够收敛,最终导致它们无法起到指导作用。因此,这种语言不仅无用,还会让人觉得浪费了时间和精力,从而产生反感。 学校教育中的虚浮文风 有人可能会说,学校教育就是这个样子,大家都这么考过来的,为什么要在意这个问题?其实,一个人的表达习惯在很大程度上受到学校教育和考试标准的影响。这种虚浮的文风在学校中广泛存在,并且在各行各业中扩散弥漫,已经显著降低了中文的价值。 举个例子,巴西柔术里有一个技术叫十字固,如果我介绍说:“十字固这项技术对身材和力量有一定要求,使用者要在实战中寻找合适的时机和位置,动作启动后要迅速果断,不要拖泥带水,同时在使用时要小心对方的反攻。”这段话没有错,但也没有价值,因为它过于宽泛,任何一个柔术动作都可以用类似的语言描述。这样的表达不仅无助于理解,还浪费了阅读者的时间。 虚浮文风的影响 虚浮文风不仅在教育领域挥之不去,还在各个方面影响着我们的生活和工作。我们常常遇到大量这样的万金油文章,其中有些甚至被要求背诵,更有人被强迫生产这类文章。这不仅浪费了大量的时间和精力,还降低了信息检索的效率。如果一个人长期接触和生产这些虚浮的内容,其思维习惯和行为方式也可能因此受到负面影响。 呼唤“言之有物”的写作风气 当前,已经有很多有责任心的一线教师对这种现象表示痛心疾首。我们需要充分讨论这个问题,逐渐达成共识,希望有一天,“言之有物”这个写作底线能够重新出现在课堂上。只有这样,我们才能真正提升中文的价值,让语文教育回归到其应有的实质内容上来。 参考文献: [...]

深度学习中的正则化技巧:探索与应用深度学习中的正则化技巧:探索与应用

近年来,深度学习在各个领域取得了令人瞩目的成就。然而,随着模型复杂度的增加,过拟合问题也变得愈发突出。正则化技术作为解决过拟合问题的关键手段,成为了深度学习研究中的重要课题。本文将结合图中的内容,深入探讨几种常见的正则化方法及其在实际应用中的效果。 1. 早停法(Early Stopping) 图中的第9页详细介绍了早停法,这是一种简单而有效的正则化方法。早停法通过在验证集的性能不再提升时停止训练,防止模型在训练集上过度拟合。第11页展示了早停法的原理图,显示了验证误差随训练次数变化的曲线。通过及时停止训练,早停法能有效避免模型在训练数据上的过度拟合。 2. L1和L2正则化 图中的第6页和第7页分别介绍了L1和L2正则化。L1正则化通过在损失函数中加入权重的绝对值和,促使模型产生稀疏权重,有助于特征选择。L2正则化则通过加入权重的平方和,使得权重更平滑,减小模型的复杂度。第13页和第14页展示了L1和L2正则化在不同数据集上的实验结果,验证了其有效性。 3. Dropout Dropout是一种随机去除神经元的正则化方法,图中的第15页至第23页详细介绍了其原理和应用。Dropout通过在训练过程中随机丢弃一部分神经元,迫使模型不依赖于某些特定的路径,从而增强了模型的泛化能力。第18页至第21页的实验结果显示了Dropout在不同复杂度模型上的应用效果,验证了其在防止过拟合方面的显著作用。 4. 数据增强 数据增强是一种通过对训练数据进行各种变换来增加数据量的方法,图中的第24页至第26页介绍了几种常见的增强技术,如旋转、平移、缩放等。通过增加数据的多样性,数据增强能有效提高模型的泛化能力。第25页展示了不同数据增强技术的效果对比,说明了数据增强在实际应用中的重要性。 5. 批归一化(Batch Normalization) 批归一化通过在每一层网络中对输入数据进行归一化处理,减少了内部协变量偏移,加快了训练速度,并在一定程度上具有正则化效果。图中的第27页至第30页详细介绍了批归一化的原理和在不同网络结构中的应用效果。第29页的实验结果显示,批归一化不仅能加快收敛速度,还能提高模型的最终性能。 6. 其他正则化方法 除了上述几种常见的正则化方法,图中的第31页至第37页还介绍了一些其他的正则化技术,如权重剪枝、随机噪声注入等。这些方法通过不同的机制抑制模型的过拟合,增强了模型的泛化能力。第34页和第36页的实验结果展示了这些方法在实际应用中的效果。 总结 正则化技术在深度学习中扮演着至关重要的角色,通过合理应用这些方法,研究人员和工程师们能够有效地提高模型的泛化能力,避免过拟合问题。随着深度学习技术的不断发展,相信将会有更多创新的正则化方法被提出,为我们带来更强大、更稳定的模型。 通过本文的探讨,我们不仅了解了几种常见正则化方法的原理和应用,还通过图中的实验结果看到了它们在实际中的效果。希望这些内容能为读者在深度学习研究和应用中提供有价值的参考。 [...]

OpenVidu:快速集成视频通话的利器OpenVidu:快速集成视频通话的利器

在当今数字化时代,实时视频通话已经成为许多应用的核心功能之一。无论是远程医疗、在线教育、客户服务,还是虚拟会议,视频通话的需求都在不断增加。今天,我要向大家介绍的是一款强大的开源平台——OpenVidu,它能帮助开发者快速且低成本地将视频通话功能集成到他们的应用中。 什么是 OpenVidu? OpenVidu 是一个旨在简化视频通话集成的开源平台。它提供了一整套技术栈,方便开发者快速将实时通讯功能添加到他们的应用中。无论你是开发网页应用还是移动应用,OpenVidu 都能满足你的需求。 主要特性 快速入门 开始使用 OpenVidu 非常简单。你可以参考 OpenVidu 文档 中的“Getting started”部分,了解如何安装和配置 OpenVidu。以下是一些关键步骤: 开发你的视频应用 OpenVidu 提供了丰富的教程和示例,帮助你快速上手。以下是一些推荐的步骤: 安全性和隐私保护 OpenVidu 非常重视用户的隐私和安全。它通过 WebRTC 加密、服务器 API 和客户端基于角色的系统,确保所有通话内容都是完全私密的。此外,OpenVidu 还允许你限制客户端的能力,通过预定义角色来决定用户是否可以订阅、发布或管理视频流。 适用场景 OpenVidu 的应用场景非常广泛,包括但不限于以下几种: [...]

Android设备上NEON支持的ffmpeg解码性能Android设备上NEON支持的ffmpeg解码性能

在Android设备上使用ffmpeg进行视频解码是一种常见的方案,但如果没有NEON支持,性能可能会受到显著影响。本文将详细探讨在没有NEON支持的情况下,ffmpeg在Android设备上的解码性能,并分享一些解决方案和优化策略。 什么是NEON? NEON技术是ARM架构的一部分,它是一种高级SIMD(单指令多数据)架构,能够加速多媒体和信号处理应用中的向量操作。简而言之,NEON能够显著提高处理音视频等多媒体内容的效率。因此,缺少NEON支持的设备在处理这些任务时性能会大打折扣。 问题描述 在Stack Overflow的一个讨论中,有用户提到在Android设备上编译ffmpeg并成功播放视频,但帧率非常低,仅有5fps。这种情况在没有NEON支持的armv5te设备上尤为明显。用户尝试了多种配置,但仍然无法提高帧率。 原帖中提到的配置命令如下: 解决方案与优化 使用静态编译 另一位用户分享了在Galaxy Tab上使用ffmpeg进行视频解码的经验,尽管该设备理论上支持NEON,但他并未使用NEON支持,仍然能够达到60fps的帧率。他使用的是静态编译版本,而非共享库版本。具体配置命令如下: 使用NEON支持 另一用户则表示,在启用NEON支持并使用armv7架构后,帧率大幅提升至40fps,满足了应用需求。具体配置如下: 结论 在没有NEON支持的设备上运行ffmpeg解码确实会遇到性能瓶颈,但通过静态编译和其他优化策略,仍然可以达到较为满意的解码效果。如果可能,启用NEON支持和使用较新的ARM架构(如armv7)将显著提升性能。 参考文献 通过参考这些讨论和配置,你可以在开发过程中针对不同设备进行优化,提升ffmpeg解码的性能。 [...]

Llama-3-70B:突破性未审查模型Llama-3-70B:突破性未审查模型

在人工智能领域,模型的性能和应用范围不断拓展。最近,由Exllama社区的一位成员进行的一次微调,使得Llama-3-70B模型在未审查的通用智能排行榜上名列前茅。这一排行榜是一个封闭的基准,无法通过作弊来提高分数。这一成就不仅让人瞩目,也为未来的AI发展提供了新的方向。 新模型的诞生 Llama-3-70B模型的微调由Exllama社区的一名成员完成。这次微调不仅提升了模型的性能,还使其在未审查的通用智能排行榜上夺得了第一名。这一排行榜由其创建者严格维护,确保其真实性和公平性。 排行榜创建者表示:“大多数我测试的模型在默认模板下表现良好,我猜测是llama.cpp检测到了这个模板。然而,turboderp/Cat-Llama-3-70B-instruct在使用提供的模板时,得分有了显著提升。它的知识量相当惊人,并且在使用聊天模板时几乎没有受到审查。” 模型的具体表现 Llama-3-70B模型在使用聊天模板时表现尤为出色。它不仅展示了广泛的知识,还在对话过程中表现出了一种“未审查”的特质。未审查的特质意味着模型能够更加自由地生成内容,而不受严格的限制。这种特性使得模型在实际应用中更加灵活和实用。 为了充分发挥Llama-3-70B模型的潜力,用户需要使用ChatML格式来运行该模型。此外,系统提示通常使用“Below is a”语句效果更佳,而非“You are”语句。例如,一个好的系统提示可以是:“Below is a conversation between an AI entity and a human.” 使用指南 如果您有兴趣探索和使用Llama-3-70B模型,可以在以下链接找到完整精度的模型: 在运行模型时,请务必使用ChatML格式,并且在系统提示中使用“Below is a”语句。这将确保模型在对话中的最佳表现。 未来展望 Llama-3-70B模型的成功不仅是技术上的突破,也是人工智能应用领域的一次重要进步。它展示了通过微调和优化,可以显著提升模型性能,并使其在实际应用中更加灵活和高效。未来,我们可以期待更多类似的创新,为我们的生活带来更多便利和可能性。 参考文献: [...]

小红书社会学:社会阶层伪装、女性主义与父权制小红书社会学:社会阶层伪装、女性主义与父权制

近年来,小红书迅速崛起,成为观察当代中国中产阶级,尤其是中产女性生活方式的绝佳窗口。本文将深入探讨小红书中的女性主义与父权制,以及这一平台如何反映和影响社会阶层的伪装。 小红书上的女性主义与父权制 据统计,小红书用户中有七成是女性,从平台上流行的“姐妹”称呼中便可见一斑。即便是男性用户,也常常被称为“姐妹”。为何小红书上女性用户如此之多?这背后有着深刻的社会原因。 我们生活在一个父权制社会中,社会给予女性实现自我价值的机会本就不多,尤其是经济独立方面,女性往往比男性面临更多障碍。因此,女性更需要通过生活方式的展演来确认自己的社会地位和自我价值。小红书正好提供了这样一个平台,让女性用户通过分享和展示自己的生活方式,获得认同和满足感。 消费主义的“天鹅绒监狱” 小红书的另一个显著特点是“种草”,即引导消费。平台上的内容常常呈现一种消费体验的图文景观堆积,诸如“女生要对自己好一点”、“为自己而变美”、“人生在于体验”等话语表面上鼓励女性实现自我价值,实则是在引导女性消费。这种虚伪的消费主义话语,正是现代社会男性规训女性的表现,让女性成为依附的“天鹅绒监狱”。 另外,男性欲望的“凝视”也是一种明显的父权制规训。在小红书上,化妆护肤、美容减肥、日常穿搭等内容非常重要,这其实是女性为了迎合父权凝视的自我规训。 “擦边”行为与男性凝视 更为赤裸的迎合男性凝视的行为则是“擦边”,即带有性意味的图片、视频及直播内容。例如,有女律师博主表示自己做律师收入太低,月入5000元,但靠“擦边”直播却能月入两万元。这种现象在小红书上并不罕见,反映了女性在父权制社会中为了经济利益而被迫迎合男性欲望的现实。 社会阶层的伪装 小红书不仅是女性展示生活方式的平台,也是中产阶级伪装和炫耀的场所。通过分享奢侈品、豪宅、名车等内容,用户们在平台上构建起一个理想化的生活方式,展示自己的社会地位和经济实力。然而,这种展示往往只是表面的伪装,背后可能隐藏着巨大的经济压力和心理负担。 中产阶级的虚假繁荣 中产阶级因为没有真正的资产积累,往往通过消费来维持和展示自己的社会地位。在小红书上,我们可以看到大量中产阶级用户通过分享奢侈品购物、豪华旅游等内容,来构建自己理想化的生活方式。然而,这种虚假的繁荣背后,隐藏着巨大的经济压力和心理负担。 社会阶层的流动性 小红书上的生活方式展示,也反映了当代社会阶层的流动性。中产阶级通过消费展示自己的社会地位,而这种展示往往是短暂和脆弱的。一旦经济状况发生变化,这种虚假的繁荣便会迅速崩塌。因此,小红书上的生活方式展示,既是对现有社会阶层的维护,也是对未来不确定性的焦虑。 结语 小红书作为一个新兴的社交平台,反映了当代中国中产阶级,尤其是中产女性的生活方式和社会地位。通过分析小红书上的女性主义与父权制现象,我们可以看到,女性在这个平台上既展示了自我价值,也被迫迎合父权制社会的规训。同时,小红书上的消费主义和社会阶层伪装,也反映了中产阶级的虚假繁荣和社会阶层的流动性。 参考文献: [...]

ChatTTS:专为对话场景设计的文本转语音模型ChatTTS:专为对话场景设计的文本转语音模型

在人工智能领域中,文本转语音(TTS)技术一直是备受关注的研究方向。今天,我们要介绍的是ChatTTS,一个专为对话场景设计的文本转语音模型。ChatTTS不仅支持中文和英文,还能够在多种应用中展现出色的表现。 ChatTTS的特点 对话式TTS ChatTTS针对对话任务进行了优化,能够生成自然流畅的语音,并支持多说话人。这使得它在模拟人类对话时,更加真实和生动。 细粒度控制 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。这使得生成的语音更加丰富和多样,能够更好地传达说话者的情感和意图。 更好的韵律 ChatTTS在韵律方面超越了大部分开源的TTS模型。它能够生成具有自然韵律的语音,使得听起来更加舒适和真实。同时,ChatTTS还提供预训练模型,支持进一步的研究和应用。 使用方法 基本用法 以下是ChatTTS的基本用法示例: 进阶用法 如果需要更高级的控制,可以使用以下代码: 实际应用案例 智能客服系统 ChatTTS可以在智能客服系统中发挥重要作用。通过其自然流畅的语音生成能力,能够提供更加亲切和人性化的客服服务,提升客户满意度。 教育领域 在教育领域,ChatTTS可以帮助教师制作生动的教学语音材料。学生可以通过听取这些语音材料,更加直观地理解和掌握知识。 娱乐领域 在游戏和影视制作中,ChatTTS可以用于生成角色对话。其自然的语音和情感表达能力,可以使角色更加生动,提升用户的沉浸感。 未来展望 ChatTTS展示了语音生成技术的巨大潜力。随着技术的不断进步,未来有望在更多的应用场景中发光发热,带给我们更多的惊喜和便利。 免责声明 本文件中的信息仅供学术交流使用,目的在于教育和研究,不得用于任何商业或法律目的。作者不保证信息的准确性、完整性或可靠性。 计划路线 常见问题 连不上HuggingFace 请使用modelscope的版本,并设置cache的位置。 我要多少显存?Infer的速度是怎么样的? 对于30秒的音频,至少需要4G的显存。对于4090D,1秒生成约7个字所对应的音频,RTF约0.65。 [...]