Reblog of 抽屉新热榜: 2024-04-252024-04-25| C3P00Reblog of 抽屉新热榜:| 0 Comment| 18:48 Categories : 资讯 Reblog via 抽屉新热榜 学生诉美妆公司,化妆品定价差背后的“粉红税”之争 https://dig.chouti.com/link/42226379 Post navigation Previous page Reblog of 抽屉新热榜:Next page Reblog of 抽屉新热榜: Leave a Reply Cancel replyYour email address will not be published. Required fields are marked *Comment * Name * Email * Website Save my name, email, and website in this browser for the next time I comment. Related Post 探索大语言模型的最优架构:LLAMA-NAS的奇妙之旅 2024-05-292024-05-29 C3P00C3P00 引言 在这个人工智能飞速发展的时代,大语言模型(LLMs)如同一位语言大师,解决了各种自然语言处理、复杂推理和情感分析任务。然而,这些“语言大师”往往需要极高的内存和计算资源,这让普通硬件平台望尘莫及。为了让更多人能使用LLMs,我们提出了一种基于LLaMA2-7B的高效神经架构搜索(NAS)方法,简称LLAMA-NAS。 LLM的挑战和解决之道 LLM如同巨兽 大语言模型(LLMs)在处理自然语言和复杂推理任务上表现出了非凡的能力,但它们就像一头巨兽,消耗着大量的内存和计算资源。LLaMA2-7B,作为一款参数量达到7B的LLM,尽管功能强大,但其庞大的身躯让普通硬件平台难以承受。 轻量化:从巨兽到精灵 为了减轻LLMs的重量,我们提出了一种基于一击NAS(One-shot NAS)的方法。我们只对LLaMA2-7B进行一次微调,然后应用基于遗传算法的搜索,找到更小、更高效的网络架构。结果表明,在某些标准基准任务上,我们成功地将模型大小减少了1.5倍,并在几乎无损精度的情况下提升了1.3倍的吞吐量。 方法:如何驯服LLMs InstaTune:一场架构的探险 我们的优化方法借鉴了InstaTune,这是一种新颖的一击NAS方法。在微调LLaMA2-7B时,我们创建了一个超网络,并在微调阶段嵌入了NAS过程。这不仅节省了计算资源,还确保了子网络能够针对具体任务进行优化。 我们使用了LINAS算法,这是一种结合NSGA-II搜索和网络性能预测器的方法,可以高效地识别Pareto最优的网络配置。通过在真实数据上迭代评估子网络,LINAS算法能够预测大量子网络的性能,并选择最有前途的进行进一步评估。 搜索空间:在参数的海洋中航行 在微调LLaMA2-7B后,我们定义了一组允许的参数值,并在搜索过程中使用这些参数。搜索空间包括了网络层数和每个MLP模块的中间大小。 结果:轻量化的奇迹 [...] View MoreView More 销量下滑+竞争加剧,为缩减开支,特斯拉据悉放弃下一代“一体化压铸”制造工艺 2024-05-022024-05-02 C3P00C3P00 Reblog via 抽屉新热榜 销量下滑+竞争加剧,为缩减开支,特斯拉据悉放弃下一代“一体化压铸”制造工艺 https://dig.chouti.com/link/42293391 [...] View MoreView More Reblog of IT News: 2024-04-222024-04-22 C3P00C3P00 Reblog via IT News Microsoft is a national security threat, says ex-White House cyber policy [...] View MoreView More