摩尔线程们,为何开卷大模型适配速度?

查股网  2026-04-13 17:52  摩尔线程(688795)个股分析

研究员|卢杨

国产大模型与本土AI芯片的适配竞赛正在提速。

4月12日,MiniMax M2.7开源当天,华为昇腾、摩尔线程、沐曦、昆仑芯等厂商相继官宣完成适配。

这一轮“适配速度”竞逐的背景是,国产GPU厂商的上市潮暂告一段落。头部GPU厂商为何不约而同地将重心转向适配竞速?深度科技研究院院长张孝荣告诉第四波对于此类厂商而言,适配速度落后有可能会让企业“先丢订单,再丢融资,最后直接下牌桌,没例外”。

01

上市之后的新故事

去年12月,摩尔线程在科创板上市,市值一度突破4400亿元;沐曦股份紧随其后上市,募集资金净额约39亿元。到了今年,壁仞科技、天数智芯相继在港股挂牌,昆仑芯也于1月以保密形式向港交所提交上市申请。

下一步,市场关心的是,这些算力卡如何能真正被用起来?

对于各大厂商来说,谁能最快让模型在自己的芯片上跑起来,或许能率先进入供应链,拿到订单。

“过去需要顶尖团队耗时数周的适配工作,现在被缩短至小时级。效率提升之余,带来的是商业化节奏的根本变化。”一位芯片厂商的技术负责人说。

国产AI芯片对大模型的适配正在从“模型厂商主导”变成“芯片厂商主动”。报道称,DeepSeek发布后,北京某国产智算芯片研发企业在春节后开工首日就宣布完成了对DeepSeek模型的适配。而以前,这样的适配需要与模型开发企业共同协作、花费较长时间。

02

厂商为何开卷“适配速度”?

“Day-0适配”——即在模型发布当天就完成适配,成为国产GPU领域各大厂商的新标配。

2月,智谱正式发布GLM-5之后,摩尔线程立即官宣基于SGLang推理框架,在其旗舰级AI训推一体全功能GPU MTT S5000上,Day-0完成了全流程适配与验证。官方称,MTT S5000基于第四代MUSA架构“平湖”打造,单卡AI算力最高可达1000 TFLOPS,并支持原生FP8加速。

两个月后,摩尔线程、华为昇腾、沐曦、昆仑芯等几家头部企业也几乎在同一时间完成了MiniMax M2.7模型的适配工作。

(图/摩尔线程)

MiniMax官方发布的合作名单中,上述国产芯片厂商赫然在列,且各自拿出了不同的技术方案:华为昇腾基于vLLM-Ascend引擎提供全流程支持;摩尔线程利用MUSA架构实现深度调优;沐曦凭借MXMACA软件栈达成“模型发布即算力就绪”;昆仑芯则分别通过底层算子优化提供深度支持。

国产AI芯片厂商集体“卷适配”,外部竞争压力之外,还有两个关键因素:

一、适配能力以及接入速度直接决定市场份额

根据德勤测算,2026年推理算力在整体AI计算中的占比将达66%,首次超过训练算力。这意味着,大模型正从“被训练出来”走向“被用起来”,推理从技术配角开始变成商业主力。

二、生态协同正在成为竞争主战场

业内普遍认为,厂商们的单点技术突破已不足以赢得这场竞争。生态的协同,尤其是模型与芯片的双向奔赴,是国产AI能否真正自主的关键。

张孝荣认为,国产芯片要本质提升,必须攻克的难点是软件生态的深度。在他看来,先进制程是卡脖子的物理枷锁,短期无解,但有办法迂回加补。可如果软件生态不行,不把全栈软件做透,芯片再强也是摆设。

在MiniMax M2.7的适配中,四家国产芯片厂商拿出了截然不同的技术方案,这说明适配能力已经超越了单纯的硬件性能比拼,进入软件栈、生态兼容性的全面较量。沐曦的MXMACA软件栈在API层面实现了对CUDA的高度兼容;摩尔线程的MUSA架构也强调广泛的算子覆盖与生态兼容能力。

行业对此的判断是:兼容CUDA是现阶段降低用户迁移门槛的必要手段,但长期来看,各家都在构建自己的软件生态护城河。

这或许只是一个开始。一方面,大模型本身的迭代速度在加快。智谱GLM-5、MiniMax M2.7,以及即将发布的DeepSeek V4——仅2026年前4个月就有多款重磅模型发布、开源或待上线。

另一方面,市场对算力规模的要求也在提升。3月,上海人工智能实验室携手国产芯片厂商完成了包括昇腾、平头哥、沐曦在内的10余家主流国产算力适配。

与此同时,在规模化训练方面,海光、沐曦、摩尔线程三款核心部件均完成了千卡端到端大模型训练验证。这意味着,从单卡适配到千卡集群,竞争维度在不断扩展。

编辑|邱慧