微软自研 5000 亿参数 AI 大模型,剑指谷歌和 OpenAI

导语:

科技巨头微软正在研发参数达 5000 亿的全新 AI(人工智能) 大模型,将正面叫板谷歌和 OpenAI 。

微软的 AI 大模型 MAI-1:

微软正在研发一款名为 MAI-1 的最新 AI 大模型,其规模远超出微软此前推出的一些开源模型,在性能上或能与谷歌的 Gemini 1.5 、 Anthropic 的 Claude 3 和 OpenAI 的 GPT-4 等知名大模型相匹敌。微软或将在 5 月 21 日开始举办的 Build 开发者大会上演示这款新模型。

MAI-1 的开发由前谷歌 AI 领导人、曾担任 AI 初创公司 Inflection 首席执行官的穆斯塔法·苏莱曼 (Mustafa Suleyman) 领导。就在今年 3 月,刚刚领投完 Infection 的最新一轮融资,微软便从 Infection 挖走了包括苏莱曼在内的两位联合创始人以及部分员工。有知情人士透露,微软为此向 Infection 支付了超过 6.5 亿美元。

尽管 MAI-1 可能借鉴了 Inflection 旗下模型的部分技术,有微软员工表示,MAI-1 是一款全新的大语言模型,拥有约 5000 亿个参数,远超微软此前训练的任何开源模型。不到一个月前,微软刚推出了一款名为 Phi-3 的小型 AI 模型,其中 Phi-3 mini 被优化至可部署在手机上,拥有 38 亿参数,经过 3.3 万亿 token 的训练,微软称其性能与 GPT-3.5 等模型相当。

相比之下,MAI-1 的规模要大得多,也需要更多的算力投入和训练数据。为了训练该模型,微软已经配置了大量包含英伟达 GPU 的服务器集群,并从各类来源收集训练数据,包括由 OpenAI 的 GPT-4 生成的文本和公共互联网数据。这或将使 MAI-1 与 OpenAI 的 GPT-4 处于相似的水平,据传后者拥有超过 1 万亿个参数。

微软的 AI 战略:

Phi 系列模型和 MAI-1 的研发体现出微软或在 AI 领域采取了双重策略,一边为移动设备开发小型本地模型,一边开发由云端支持的更大规模的模型。不过,即使在微软内部,MAI-1 的确切用途也尚未得到确认。

更重要的是,MAI-1 体现出微软并不希望在 AI 领域完全依附于合作伙伴 OpenAI 的技术。来自 OpenAI 的技术正在驱动微软的各类生成式 AI 功能,包括集成在 Windows 中的聊天机器人。此前,有来自微软 AI 平台团队的员工抱怨称,公司的 AI 战略过于关注与 OpenAI 的合作关系,使得微软对 AI 原创研究的预算减少。

6 日当天,微软首席技术官凯文·斯科特 (Kevin Scott) 在领英上发帖,间接回应了关于 MAI-1 的报道。他表示,OpenAI 使用微软构建的超级计算机来训练 AI 模型,而微软的研究部门和产品团队也在构建 AI 模型:「AI 模型几乎出现在我们的每一项产品、服务和运营流程中,制作和运营它们的团队有时需要做一些自定义工作,无论是从头开始训练一个模型,还是微调别人构建的模型。未来将会有更多这样的情况,其中一些模型的名字包括图灵 (Turing) 和 MAI 。」

微软的算力投入:

为了实现在 AI 方面的突破,微软也在大力囤积算力资源。 4 月初,有报道称微软计划到今年年底前囤积 180 万块 AI 芯片,意味着公司希望在 2024 年内将所持有的 GPU 数量增加两倍。据知情人士透露,从 2024 财年到 2027 财年 (到 2027 年 6 月 30 日结束),微软预计将在 GPU 和数据中心上花费约 1000 亿美元。

微软与 OpenAI 的合作关系:

微软与 OpenAI 有着密切的合作关系。 OpenAI 使用微软构建的超级计算机来训练 AI 模型,而微软的研究部门和产品团队也在构建 AI 模型。微软的 AI 战略过于关注与 OpenAI 的合作关系,使得微软对 AI 原创研究的预算减少。

微软的 AI 未来:

微软正在大力囤积算力资源,以实现在 AI 方面的突破。微软计划到今年年底前囤积 180 万块 AI 芯片,意味着公司希望在 2024 年内将所持有的 GPU 数量增加两倍。从 2024 财年到 2027 财年 (到 2027 年 6 月 30 日结束),微软预计将在 GPU 和数据中心上花费约 1000 亿美元。

发表评论