DeepSeek一句话,寒武纪又涨停了!

查股网  2025-08-22 19:11  寒武纪(688256)个股分析

TechWeb 文/ 果青

题图:豆包AI生成

昨日,DeepSeek发布了最新的V3.1大模型,随后,其在评论区置顶:「UE8M0 FP8是针对即将发布的下一代国产芯片设计。

这一句话引爆今天的国产芯片算力市场。

今日午后,A股三大指数继续走强,沪指突破3800点,刷新2015820日以来新高,创业板指涨3.36%,市场热点集中在算力和芯片方向。

寒武纪触及涨停,市值近5200亿元,股价报1243.20元;中芯国际A股涨14.19%、港股涨9.86%

在
在

DeepSeek发布的官方文档中写道:DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度。另外,V3.1对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。建议有部署需求的用户仔细阅读新版说明文档。

那么,UE8M0 FP8是什么?

看看DeepSeek自己的回答:

DeepSeekUE8M0 FP8是一种专为人工智能计算,特别是大模型训练和推理而设计的数值精度格式。

UE8M0 FP8是一种8位浮点数(FP8)格式的变种,专为矩阵运算和AI计算优化:

U:代表无符号(Unsigned),即没有符号位,所有数值均为正数。

E8:表示8位指数位(Exponent),用于表示数值的规模。

M0:表示0位尾数位(Mantissa),即没有尾数位,尾数默认为1

AI计算中,UE8M0通常不直接用于存储计算数值,而是作为缩放因子(Scale),与其他FP8格式(如E4M3E5M2)配合使用。

为什么DeepSeek要采用UE8M0 FP8

DeepSeek在其V3.1模型中采用UE8M0 FP8格式,主要目的是优化国产AI芯片的计算效率:

计算加速:由于UE8M0数值均为2的幂,乘法计算可以简化为指数加法,大幅降低计算复杂度。这种简化使计算速度提升数倍,并减少芯片面积和功耗。

显存和带宽节省:FP8格式相比FP16FP32,可减少50%-75%的显存占用和带宽需求,使国产芯片能支持更大规模的模型或更长的上下文。

适配国产芯片:UE8M0是针对下一代国产芯片设计的精度格式,帮助国产芯片在软件层面优化性能,缩小与英伟达芯片的差距。

这里附上UE8M0 FP8与传统浮点数格式对比:

综合来看,DeepSeekUE8M0 FP8是一种专为AI计算优化的数值格式,通过简化计算、节省显存和带宽、适配国产芯片,大幅提升推理效率和降低部署成本。这一技术是DeepSeek与国产芯片厂商协同优化的重要成果,助力中国AI生态的自主化进程。

会适配哪些国产芯片呢?大家狂猜

DeepSeek-V3.1UE8M0 FP8标准旨在与多种国产AI芯片进行深度适配,以形成协同效应。

但是,DeepSeek也并未指明到底是适配的那款国产AI芯片。

对此,目前,一部分猜测聚焦在813日中国信通院发布的「首批通过DeepSeek适配测试名单」中的这8家企业。

在中国信通院发布的测试发现:在部署环境方面,我国已有系统实现单机在中国信通院发布的测试发现:在部署环境方面,我国已有系统实现单机

8卡推理DeepSeek 671B满血版模型(INT8/FP8精度),与英伟达所需硬件规模持平,大部分国产设备需两机16卡或四机32卡完成同参数量模型部署。

而另一部分猜测,则根据过往公开信息,盘点出已经宣布其产品支持或适配了UE8M0 FP8标准的国产芯片厂商,主要包括:

总之,业内之所以如此兴奋,大家更看重的是:总之,业内之所以如此兴奋,大家更看重的是:

DeepSeek模型与国产芯片的紧密适配,其意义远不止于技术本身,更在于推动构建了一个自主可控的模型-芯片-系统-应用全栈国产化AI生态。而大模型的需求将倒逼国产芯片在设计、存储、光模块、封装测试等全链条进行技术升级。

当然,也有不少网友猜测:DeepSeek一句话引发的这一波芯片算力爆冲,其背后公司幻方量化有没有顺势炒一波呢。(转载自:TechWeb)