不到50美元就能训练出媲美DeepSeekR1的模型?背后真相是……

2025-02-07 19:31:33 来源: 证券之星 阅读量:11138   

当DeepSeek对AI行业的震撼仍在持续发酵时,又一则“炸裂”的AI新闻引发全球关注。

据媒体报道,斯坦福大学和华盛顿大学的研究人员发表的一篇研究论文显示,他们以不到50美元的云计算费用,训练出一款名为S1的推理模型。该模型在数学和编码能力测试中,与OpenAI的o1和DeepSeek的R1表现不相上下。

要知道,DeepSeek之所以惊艳世界,正是因为它以远低于OpenAI的训练成本,做出了与其水平相当的产品。如今,若真的能将这一成本降至不到50美元,那无疑是AI领域的又一次重大突破。

然而,事实并非如此。

根据研究论文,S1模型并不是从零开始训练,而是以阿里通义千问Qwen2.5-32B-Instruct开源模型为底座,然后在16块H100 GPU上进行了26分钟的监督微调,最终训练出新模型S1-32B。

在推理能力方面,研究人员则通过蒸馏技术,从谷歌的AI推理模型Gemini 2.0 Flash Thinking Experimental中提取了推理能力。

某大模型厂商的研发人员告诉21世纪经济报道记者,S1模型本质上是在前人研究的基础上复制了推理能力,而非真正创新。

他进一步指出,蒸馏技术虽然可以大幅降低模型训练成本,但它并不能创造出全新、更强大的推理模型。“这意味着,蒸馏出来的模型永远无法超过被蒸馏的模型”。

与DeepSeek R1大有不同

准确来说,S1模型的核心在于“模仿”。研究团队通过蒸馏技术,将谷歌模型的推理过程和能力迁移到S1模型上,并通过监督微调进一步优化其表现。

因此,S1模型的训练过程相对简单,成本也更低。它使用的数据集仅包含1000个问题及其推理过程。

此外,研究团队还开发了一种名为“预算强制”的技术,通过在模型尝试结束生成时强行终止其思考过程,或通过多次附加“等待”来延长思考时间。这种方法可以使模型重新检查其答案,从而提高推理的准确性。

DeepSeek R1是通过强化学习训练的,它在训练过程中能够不断自我调整,并通过奖励机制强化正确的推理路径,最终达到较高的推理能力。

R1的优势在于它能够在动态环境中进行调整和优化,因此具有更强的适应性和处理复杂情境的能力。而S1只是复制已有模型的能力。

S1模型的启示

尽管S1模型无法与DeepSeek R1和OpenAI o1等顶尖模型直接对比,但它的出现对AI行业的未来发展具有重要意义。

通过蒸馏和监督微调,S1模型能够在极低的费用下训练出与顶尖AI模型相似的推理能力,这对许多预算有限的AI研究团队和小型公司来说,意味着AI技术不再是大型科技企业的专利。

目前,S1模型已经开源。如果一些团队只希望获得高性能的数学和编码能力,那么S1模型已经为他们打破了高成本门槛。

此外,S1模型采用的蒸馏技术,已证明可以在低资源环境下取得不错的推理能力。未来,其他团队也可以沿着这一思路,尝试蒸馏出更多高性能模型。

当然,S1模型推出后也引发一些争议。例如,谷歌的条款禁止其他团队将其模型反向工程化,开发与谷歌自家AI产品竞争的服务。S1模型是否违反了该条款,目前尚不得知。截至发稿,谷歌公司尚未对此进行回应。

对头部大模型厂商而言,S1模型的出现也为其敲响了警钟。如果头部大模型厂商投入巨大资源训练出来的模型,其他人用极少的资源就能复制并实现相似的能力,那头部厂商的“护城河”究竟是什么?这一问题值得头部厂商深思。

阿里云Qwen成幕后赢家

随着S1模型被广泛关注,其采用的基座模型——来自阿里巴巴的Qwen也成功出圈。

据了解,从2023年8月起,阿里云通义千问相继开源Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型,囊括大语言模型、多模态模型、数学模型和代码模型等数十款,涵盖从1.5B到72B乃至110B等不同模型尺寸。

此前,DeepSeek官方透露,其在发布DeepSeek-R1的同时,也将其推理能力蒸馏了6个模型开源给社区,而其中有四个蒸馏模型是基于Qwen-32B。

S1模型发布后,有开发者在社交平台上表示,“我们已经尝试用相同的数据训练其他模型,但几乎没有发现任何收益,Qwen模型确实有些神奇之处”。

据开源社区HuggingFace的统计,2024年,仅Qwen2.5-1.5B-Instruct这款模型,就占到了全球模型下载量的26.6%,远高于第二名Llama-3.1-8B-Instruct-GGUF的6.44%。

目前来看,Qwen模型已经取代Llama成为开源社区事实上最重要的标杆基座模型。

有业内人士向记者表示,不论是微调、蒸馏或是其他低成本的新技术,都并非从零开始训练,而是站在基础模型强大性能表现的“肩膀上”才取得的新技术成果。从这个角度来看,Qwen也成为开源推动前沿技术发展的又一经典案例。

总的来说,S1模型的出现虽然未能颠覆AI行业的格局,但它为低成本AI技术的发展提供了新的思路。未来,随着更多类似技术的涌现,AI领域的竞争将更加激烈,而开源模型和低成本训练方法或将成为推动行业进步的重要力量。

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

精选 导读

大摩:苹果产量或超预期增长,预计Q1业绩有“惊喜”

摩根士丹利分析师KatyHuberty指出,苹果本季度iPhone产量可能超预期增长,因为交货周期正在下降到“更正常的水平”。该分析师预计苹...

发布时间: 2021-12-23 17:04
行情   2021-12-23

中金:维持石四药集团跑赢行业评级目标价5.8港元

中金发布研究报告称,维持石四药集团“跑赢行业”评级,保持2021/22年归母净利润预测7.9/11.64亿元不变,目标价5.8港元。报告中称...

发布时间: 2021-12-23 17:03
行情   2021-12-23

实探中装建设元宇宙合作方鸿蒙时代:与华为无关已搬离注册地

12月22日,深交所对中装建设发布关注函,要求说明公司是否存在“楼宇智能大数据信息处理、AI可视化、元宇宙应用、智能建造系统、区块链等技术”...

发布时间: 2021-12-23 17:02
行情   2021-12-23

“疫”线女将:眼里有光心中有爱

“疫”线女将:眼里有光心中有爱题:“疫”线女将:眼里有光心中有爱曾灯光璀璨、游人如织的边陲小城因新冠疫情的再次暴发按下“暂停键”。内蒙古自治...

发布时间: 2021-12-23 16:48
要闻   2021-12-23

联通网络智能运维产品研发招标:华为、中软等11家企业入围

中国联通日前正式公布网络智能运维产品研发招标结果,华为、中软、软通动力、亚信科技等11家企业入围。传统网络故障的被动处理方式,从故障感知到信...

发布时间: 2021-12-23 16:35
酷玩   2021-12-23

热点 推荐

小米12Pro自研智能动态刷新率演示视频公布:支持新技能“滑动变速”,更

今日上午,小米手机官方表示,小米自研智能动态刷新率,是第二代低功耗2K屏幕的创新体验,第一次让小米12Pro拥有了滑动变速的新技能。小米表示...

发布时间: 2021-12-23 16:31
酷玩   2021-12-23

增速惊人!鸿蒙用户量半年突破2.2亿

C114讯12月23日下午消息在今日举办的华为动机旗舰新品发布会上,华为常务董事、消费者BGCEO、智能汽车解决方案BUCEO余承东公布了鸿...

发布时间: 2021-12-23 16:26
酷玩   2021-12-23

用户群聊从线上走到线下他趣成年轻群体社交困境破局者

伴随当下工作和生活节奏越来越紧凑,婚恋、交友等社交需求逐渐成为年轻人的刚性需求。为满足日益提升的社交需求,他趣用户从线上延伸到线下,通过组织...

发布时间: 2021-12-23 14:59
机器人   2021-12-23

京东会展云“云上服贸会”项目入选中国信通院“2021年数字孪生城市典型案

近日,2022中国信通院ICT+深度观察报告会隆重举办,京东会展云技术支持的中国国际服务贸易交易会数字平台项目入选“2021年数字孪生城市典...

发布时间: 2021-12-23 14:56
机器人   2021-12-23

华为Mate9手机推送鸿蒙HarmonyOS2.0.0.140:新增桌面

华为Mate9手机开始推送鸿蒙HarmonyOS2.0.0.140更新。更新包1优化了音量等基础体验,并新增了桌面图标放大功能。更新包2修复...

发布时间: 2021-12-23 14:41
机器人   2021-12-23
bd9