经营分析☆ ◇688787 海天瑞声 更新日期:2026-05-06◇ 通达信沪深京F10
★本栏包括【1.主营业务】【2.主营构成分析】【3.前5名客户营业收入表】【4.前5名供应商采购表】
【5.经营情况评述】
【1.主营业务】
AI训练数据的研发设计、生产及销售业务
【2.主营构成分析】
截止日期:2025-12-31
项目名 营业收入(元) 收入比例(%) 营业利润(元) 利润比例(%) 毛利率(%)
─────────────────────────────────────────────────
软件和信息技术服务业(行业) 3.77亿 100.00 1.81亿 100.00 48.08
─────────────────────────────────────────────────
智能语音(产品) 1.50亿 39.88 1.13亿 62.59 75.46
计算机视觉(产品) 1.48亿 39.22 4083.65万 22.53 27.62
自然语言(产品) 5112.70万 13.56 2116.55万 11.68 41.40
训练数据相关的应用服务(产品) 2764.14万 7.33 580.46万 3.20 21.00
─────────────────────────────────────────────────
境内(地区) 2.19亿 58.19 9694.84万 53.48 44.20
境外(地区) 1.58亿 41.81 8431.48万 46.52 53.50
─────────────────────────────────────────────────
训练数据定制服务(业务) 2.38亿 63.21 6583.91万 36.32 27.63
训练数据产品(业务) 1.11亿 29.46 1.10亿 60.48 98.72
训练数据相关的应用服务(业务) 2764.14万 7.33 580.46万 3.20 21.00
─────────────────────────────────────────────────
直销(销售模式) 3.77亿 100.00 1.81亿 100.00 48.08
─────────────────────────────────────────────────
截止日期:2025-06-30
项目名 营业收入(元) 收入比例(%) 营业利润(元) 利润比例(%) 毛利率(%)
─────────────────────────────────────────────────
软件和信息技术服务(行业) 1.57亿 100.00 7861.86万 100.00 50.17
─────────────────────────────────────────────────
智能语音(产品) 6915.28万 44.13 5296.82万 67.37 76.60
计算机视觉(产品) 6271.64万 40.02 1208.08万 15.37 19.26
自然语言(产品) 2177.67万 13.90 1245.38万 15.84 57.19
应用服务(产品) 305.01万 1.95 111.58万 1.42 36.58
─────────────────────────────────────────────────
境内(地区) 8318.45万 53.09 3927.99万 49.96 47.22
境外(地区) 7351.14万 46.91 3933.86万 50.04 53.51
─────────────────────────────────────────────────
训练数据定制服务(业务) 9986.47万 63.73 2432.29万 30.94 24.36
训练数据产品(业务) 5378.12万 34.32 5317.99万 67.64 98.88
训练数据相关的应用服务(业务) 305.01万 1.95 111.58万 1.42 36.58
─────────────────────────────────────────────────
截止日期:2024-12-31
项目名 营业收入(元) 收入比例(%) 营业利润(元) 利润比例(%) 毛利率(%)
─────────────────────────────────────────────────
软件和信息技术服务业(行业) 2.37亿 100.00 1.58亿 100.00 66.46
─────────────────────────────────────────────────
智能语音(产品) 1.65亿 69.43 1.25亿 79.53 76.13
计算机视觉(产品) 4654.63万 19.63 1761.45万 11.18 37.84
自然语言(产品) 2408.39万 10.16 1430.57万 9.08 59.40
训练数据相关的应用服务(产品) 185.43万 0.78 33.93万 0.22 18.30
─────────────────────────────────────────────────
境内(地区) 1.23亿 52.06 6703.03万 42.54 54.30
境外(地区) 1.14亿 47.94 9053.61万 57.46 79.66
─────────────────────────────────────────────────
训练数据定制服务(业务) 1.24亿 52.49 4694.79万 29.80 37.73
训练数据产品(业务) 1.11亿 46.73 1.10亿 69.99 99.54
训练数据相关的应用服务(业务) 185.43万 0.78 33.93万 0.22 18.30
─────────────────────────────────────────────────
直销(销售模式) 2.37亿 100.00 1.58亿 100.00 66.46
─────────────────────────────────────────────────
截止日期:2024-06-30
项目名 营业收入(元) 收入比例(%) 营业利润(元) 利润比例(%) 毛利率(%)
─────────────────────────────────────────────────
软件和信息技术服务(行业) 9242.64万 100.00 6501.01万 100.00 70.34
─────────────────────────────────────────────────
智能语音(产品) 6486.76万 70.18 5083.43万 78.19 78.37
计算机视觉(产品) 1670.54万 18.07 699.79万 10.76 41.89
自然语言(产品) 1084.43万 11.73 717.74万 11.04 66.19
应用服务(产品) 9056.60 0.01 475.29 0.00 5.25
─────────────────────────────────────────────────
境内(地区) 4873.11万 52.72 2794.61万 42.99 57.35
境外(地区) 4369.53万 47.28 3706.40万 57.01 84.82
─────────────────────────────────────────────────
训练数据定制服务(业务) 4655.76万 50.37 1938.22万 29.81 41.63
训练数据产品(业务) 4585.97万 49.62 4562.74万 70.19 99.49
训练数据相关的应用服务(业务) 9056.60 0.01 475.29 0.00 5.25
─────────────────────────────────────────────────
【3.前5名客户营业收入表】
截止日期:2025-12-31
前5大客户共销售1.74亿元,占营业收入的46.20%
┌───────────────────────┬───────────┬───────────┐
│客户名称 │ 营收额(万元)│ 占比(%)│
├───────────────────────┼───────────┼───────────┤
│客户1 │ 7158.68│ 18.99│
│客户2 │ 2739.57│ 7.27│
│客户3 │ 2721.60│ 7.22│
│客户4 │ 2421.82│ 6.42│
│客户5 │ 2373.54│ 6.30│
│合计 │ 17415.21│ 46.20│
└───────────────────────┴───────────┴───────────┘
【4.前5名供应商采购表】
截止日期:2025-12-31
前5大供应商共采购1.06亿元,占总采购额的48.08%
┌───────────────────────┬───────────┬───────────┐
│供应商名称 │ 采购额(万元)│ 占比(%)│
├───────────────────────┼───────────┼───────────┤
│供应商1 │ 5592.65│ 25.44│
│供应商2 │ 1782.81│ 8.11│
│供应商3 │ 1471.92│ 6.70│
│供应商4 │ 932.81│ 4.24│
│供应商5 │ 790.07│ 3.59│
│合计 │ 10570.26│ 48.08│
└───────────────────────┴───────────┴───────────┘
【5.经营情况评述】
截止日期:2025-12-31
●发展回顾:
一、报告期内公司所从事的主要业务、经营模式、行业情况说明
(一)主要业务、主要产品或服务情况
1.主要业务情况
公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对
取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,通过软件形式向客户交付。
自2005年成立以来,公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集
。经过多年发展,公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业,并实现了标
准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音(语音识别、语音合成
等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能家居、智能驾驶、智慧金融、智
能安防等多种创新应用场景。
公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三
星、中国移动、中国科学院、清华大学等国内外客户的认可,应用于其研发的个人助手、智能音箱、语音导
航、内容生成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。
目前公司客户累计数量超过1200家,覆盖了科技互联网、社交、IoT、具身智能、智能驾驶、大模型等领域
的主流企业,以及政企、教育科研机构。
2.主要产品及服务情况
2.1主要产品及服务按业务类型分类
公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域,广泛应用于
算法模型的开发、训练、优化、应用场景拓展等环节。此外,公司还提供与训练数据相关的应用服务。
(1)智能语音
人工智能在语音领域的应用技术主要包括语音识别、语音合成等。
语音识别(AutomaticSpeechRecognition,ASR)是让机器能够“听懂”人类语音的技术,它能使机器
自动将语音信号转换为对应的文本信息。
语音合成(TexttoSpeech,TTS)是让机器能够“说出”人类语音的技术,它使机器能将文字信息转化
为流畅的语音“朗读”出来,相当于给机器安上了人工嘴巴。
以日常生活中的情景为例,语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换
为文字,实现了软件“听懂”语音并“听写”出文字的效果;而地图、导航软件则运用语音合成技术,实现
了软件“发声说话”的效果,为用户提供即时语音导航。
公司通过设计(设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设
备场景等)、采集(定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频)、加工(对音频
文件进行切分、标注各类声音特征,形成带时间戳和特征标签的文本和标注文件等)、质检(对数据集进行
质量检测,如音字一致性、标注准确率检查等)等训练数据集生产环节;或者针对客户提供的原料音频文件
执行加工、质检工作,最终形成客户所需的智能语音训练数据集。
(2)计算机视觉
计算机视觉(ComputerVision,CV)是使机器具备“看”的功能的技术,它使得智能驾驶、智能家居、
手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。
以日常生活中的情景为例,在汽车的自动驾驶功能中,计算机视觉技术使得汽车能够“看见”并识别行
车过程中的各种行人、路况场景,为后续作出相应的反应奠定基础;在机场、车站安检中,计算机视觉技术
使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。
公司通过设计训练数据集结构、采集(如定义合适的人脸、动作、场景作为采集对象,组织被采集人按
照要求拍摄照片、录制视频等)、加工(对图像、视频文件进行打点、拉框、分割标注等)、质检(对数据
集进行质量检测,如检验图片、视频文件格式是否正确,检查光照环境、物体种类的数量是否达标,打点标
框的准确率是否符合要求等);或者对客户提供的图像、视频文件执行加工、质检工作,最终形成客户所需
的计算机视觉训练数据集。
(3)自然语言处理
自然语言处理(NaturalLanguageProcessing,NLP)是使机器能够像人一样理解语言意图的技术。
以日常生活中的情景为例,寄送快递时使用的“智能填写”功能即运用了自然语言处理技术,在输入框
中填入整段联系信息,软件应用能够理解语义,并从中识别及提取“收件人”、“联系方式”、“地址信息
”等所需信息,完成自动填写;智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术,使得程
序、机器能够读懂人类语言的真正意图,并相应做出反应、提供服务等。
公司通过设计训练数据集结构、采集(收集或编写自然语言文本、对话等数据信息)、加工(对自然语
言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等)、质检(对数据集进行质量检测,
如检验文本、词性或者语义的标注结果是否准确等);或者对客户提供的自然语言文本执行加工、质检工作
,最终形成客户所需的自然语言训练数据集。
(4)训练数据相关的应用服务
公司开放基于多年行业经验打磨的数据处理工具集及平台,提供包括公有云访问、私有化部署及SaaS化
服务的多种能力,满足产业链上各类企业对于数据处理工具及平台能力的需求。
公司基于自身生产的训练数据提供算法相关的模型训练服务、模型评测服务及模型应用服务,运用训练
数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户
定制针对特定应用场景的专属算法模型,提高AI技术应用效果。
前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结构、组织原
料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。
成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。以智能语音训练数据集为例,成品
训练数据集包含原始采集形成的音频文件、与音频文件对应的带有时间戳的标注文件,训练数据集相关的设
计文档、训练数据集说明,发音词典,数据集参数信息文件等。
2.2主要产品或服务的终端应用场景
公司提供的高质量、大规模、结构化的训练数据,为算法模型的训练拓展提供了可靠的训练素材,助力
AI技术实现实践应用及商业化落地,赋能AI技术与实体经济深度融合。公司提供的训练数据广泛应用于众多
主流AI产品及终端应用的训练过程中,覆盖了个人助手、语音输入、内容生成、智能家居、机器人、语音导
航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智
慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等多种应用场景。
(二)主要经营模式
1.盈利模式
与主要产品及服务类型对应,公司的盈利模式主要包括以下三类:
(1)定制服务:公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下,公司享有服务
费收入,不享有最终生成的训练数据的知识产权,不可将此类业务生产的训练数据向其他客户重复销售。
(2)标准化产品:公司开发自有知识产权的训练数据集产品,通过销售训练数据集产品的使用授权许
可,获取让渡资产使用权收入。此类训练数据集一经开发完成,可多次销售并获取授权许可收入。
(3)训练数据相关的应用服务:公司基于积累的训练数据和多年行业经验提供数据处理工具集及平台
服务、算法相关的模型训练、模型评测及模型应用服务,通常以软件授权或软硬件一体化形式交付平台产品
、算法模型拓展、开发成果等,获取让渡资产使用权收入和技术服务等收入。
2.生产或服务模式
(1)训练数据集生产模式
公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模
型训练使用的专业数据集。
公司的训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、
加工(数据标注)及质检(各环节数据质量、加工质量检测)。
(2)训练数据相关的应用服务模式
公司开放基于多年行业经验打磨的数据处理工具集及平台,提供包括公有云访问、私有化部署及SaaS化
服务的多种能力,满足产业链上各类企业对于数据处理工具及平台能力的需求。
公司基于其生产的训练数据提供算法模型相关的训练、评测及应用服务,助力下游客户完成其算法模型
的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定应用场景(例如特定行业、特
定口音等)的专属算法模型,提高AI技术应用效果。
以某大型科技公司客户项目为例,客户研发了特定语音识别算法模型,需要根据算法模型的实际场景(
如法院庭审场景)开发落地应用。公司承担了部分落地应用拓展相关的开发工作,围绕客户的算法模型和接
口开发,最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。
3.采购模式
公司实行集中采购与分散采购相结合的采购管理模式,建立了规范的采购管理制度与供应商管理体系。
按照采购对象区分,公司的采购主要包括业务项目采购和公司常规采购,按照采购品类进一步划分为数
据服务采购、岗位服务采购和其他品类采购。
数据服务采购:指语音识别采集、语音识别转写、语音合成、自然语言处理、图像视频处理、智能驾驶
、具身智能领域等公司主要业务的原材料数据以及原材料数据加工服务采购,主要包括非核心技术环节的原
料数据采集、标注服务等。
岗位服务采购:主要针对临时性的、不设长期岗位的业务领域的外包采购,如保洁、临时招聘服务、少
量实习生招聘等。
其他品类采购:(1)常规货物类采购,涵盖日常运营中所需的办公家具、计算机、服务器、办公用品
等有形物资;(2)无形资产类采购,包括数据生产、研发活动所需专用平台、专用软件等;(3)日常运营
服务类采购,包括云服务、审计服务、差旅服务等。
经过多年的发展,公司已经建设有完善的《海天瑞声采购管理制度》、《海天瑞声项目资源采购管理制
度》、《海天瑞声供应商管理制度》、《海天瑞声岗位服务采购管理制度》等内部规范制度,形成权责清晰
、流程规范、监督有效的采购管理体系,并与主要的供应商形成了良好稳定的长期合作关系,为公司持续健
康发展提供坚实可靠的供应链保障。
4.营销模式
公司采用直接对接并服务客户的直销模式进行营销,符合行业通行惯例。公司以高质量的训练数据集及
相关服务吸引客户,并在持续服务客户的过程中提升服务价值和客户黏度。公司通过直接拜访潜在客户、参
与学术会议和行业展会新产品发布、搭建并持续升级公司官方网站和建立自媒体矩阵等方式提升品牌知名度
、开拓新客户,后续再通过商务谈判、招投标等形式获取具体业务机会。
(三)所处行业情况
1、行业的发展阶段、基本特点、主要技术门槛
1.1行业的发展阶段、基本特点
(1)政策、技术、应用协同共振,全球AI产业迈入高速发展新阶段
当前,全球人工智能产业正处于历史性拐点,政策、技术与应用的三重共振正推动行业进入高速增长通
道。
政策层面,主要经济体竞相加码。中国国务院于2025年8月印发《关于深入实施“人工智能+”行动的意
见》,明确提出到2027年新一代智能终端、智能体等应用普及率超70%,至2035年全面迈入智能经济与智能
社会时代,标志着我国AI产业进入“规模化提升”阶段。美国在“星际之门”计划(5000亿美元基础设施投
资)基础上,相继推出“美国AI行动计划”与“创世纪计划”,持续扩大领先优势。欧盟于2025年4月发布
《人工智能大陆行动计划》,聚焦算力、数据、应用、人才与法规五大领域,计划在2021-2027年间投资超1
00亿欧元建设AI工厂。
技术层面,革命性突破持续涌现。以DeepSeekR1为代表的开源模型将API调用成本降低90-95%,大幅降
低应用门槛。同时,多模态大模型(如GoogleDeepMind的Genie3、OpenAIGP-5、阿里Qwen3-VL等)不断拓展
能力边界,实现从语言理解、视觉识别到3D世界生成的全模态交互。2025年被视为“智能体元年”,AIAgen
t凭借自主任务规划、动态决策与闭环执行能力,实现从“被动响应指令”向“主动解决复杂问题”的跨越
,正成为驱动产业变革的核心力量。
应用层面,技术平权加速AI向千行百业渗透。大模型正向金融、医疗、制造等核心领域深度赋能,智能
风控、智慧医疗、智能制造等应用场景持续丰富,推动各行业效率提升与模式创新。总体来看,在政策引导
、技术迭代与商业落地的正向循环下,全球AI产业正加速迈向规模化、价值化发展的新阶段,迎来前所未有
的战略机遇。根据国际数据公司(IDC)的数据,预计全球人工智能(AI)IT总投资规模在2028年增至8159亿
美元,2024年至2028年复合增长率(CAGR)为32.9%。
中国作为全球科技大国,深度受益AI技术发展。根据艾瑞咨询的数据,2024至2029年中国AI产业将保持
32.1%的年均复合增长率,在2029年突破1万亿的市场规模。
(2)训练数据作为AI发展的“燃料”作用更加凸显,成为大模型竞赛中的重要决定因素
算法、算力、数据是AI三大核心要素。当前,产业正经历从“以模型为中心”向“以数据为中心”的范
式转变。算法端,主流大模型纷纷开源,技术壁垒持续降低;算力端,以DeepSeek为代表的架构创新大幅降
低了训练成本,算力不再构成发展瓶颈。在此背景下,训练数据的重要性被进一步放大,从“辅助燃料”升
级为“核心引擎”。
高质量数据直接决定模型能力上限,能显著提升推断可靠性并减少幻觉现象。当前,大模型发展正面临
严峻的“数据墙”——高质量数据短缺已成为AI规模化落地的关键制约。业内普遍反映,诸多行业大模型未
达预期,根源在于数据基础薄弱。因此,数据已成为各国发展AI产业的关键胜负手。
根据Cognilytica数据统计显示,预计2027年全球AI训练数据市场规模将增长到220亿美元,2021-2027
年复合增长率达32%。
中国作为全球人工智能产业增速最快的国家之一,对高质量训练数据的需求持续攀升。国务院《关于深
入实施“人工智能+”行动的意见》及国家数据局相关方案明确提出,将持续加强高质量数据集建设,重点
布局多模态、具身智能、推理思维链及长视频数据等方向。在产业和政策双轮驱动下,中国AI基础数据服务
市场进入加速增长通道。
根据艾瑞咨询的数据,2024年中国人工智能基础数据服务市场规模为58亿元,2028年规模将达到170亿
元,年复合增长率为30.84%。
(3)数据要素价值加快释放,数据产业已成为数字经济发展新增长点
a.政策驱动持续加码,数据制度不断完善
国家数据要素市场化配置改革已进入系统深化阶段。2024年1月,财政部《企业数据资源相关会计处理
暂行规定》正式施行,数据资产入表从自选动作转变为规定动作。同年,国家数据局等17部门联合印发《“
数据要素×”三年行动计划(2024—2026年)》(国数政策〔2023〕11号),选取工业制造、金融服务、医
疗健康等12个行业和领域,推动发挥数据要素乘数效应。《关于促进数据产业高质量发展的指导意见》《关
于促进数据标注产业高质量发展的实施意见》等21项政策和指导意见陆续发布,明确到2029年数据产业规模
年均复合增长率超15%。从数据基础制度建设年到数据改革攻坚年,国家数据局进一步明确将2026年定调为
“数据价值释放年”,加强高质量数据建设,持续支撑人工智能创新发展。
b.市场活力加速迸发,产业布局多点开花
在政策与需求双重驱动下,数据要素市场规模稳步扩大。高质量数据集建设成为“数据要素X”和“人
工智能+”两大行动的“焊接点”,国家数据局推动成都、长沙、保定、沈阳等7个城市率先开展承接国家数
据标注任务城市建设,先行先试探索产业发展经验,随后,呼和浩特、武汉、南宁等新一批城市也陆续开展
强基扩容、标注攻坚、应用赋能等数据标注产业攻坚行动,推动数据标注创新试验区建设。“人工智能+”
行动到哪里,高质量数据集的建设和推广就到哪里的发展势头强劲。
c.技术创新持续突破,流通底座日益夯实
核心技术迭代持续赋能数据要素市场化。数据标注领域,大模型辅助自动化标注、生成式AI融入标注流
水线,推动人机协同智能化升级,2025-2026年全球数据标注解决方案市场年复合增长率达24.3%。可信数据
空间建设进入规模化实践阶段,首批遴选的63个国家级试点项目已全面启动,覆盖国民经济32个行业大类,
服务900余个具体应用场景,吸引了近7万家市场主体参与,数据流通利用的基础设施体系正在加速完善。数
据要素的流通与利用成本持续降低,技术创新正为数据要素市场化配置构筑起日益坚实的支撑体系。
综上,数据要素正从支撑性资源转变为基础性生产要素,政策、市场、技术协同推进,深度融入企业经
营与产业升级,将成为未来十年最重要的新兴生产要素之一。
(4)训练数据领域的未来发展趋势
随着DeepSeek、Gemini等成为现象级应用,以及AI手机、具身智能等终端加速落地,大模型技术正驱动
数据需求发生深刻变革。
a.多模态大模型成为主流,驱动多模态数据需求爆发式增长
大模型正从单模态向多模态范式加速演进。多模态技术的本质在于跨模态信息融合,即通过协同处理文
本、图像、音频、视频等不同形式的数据,使AI具备更接近人类的全维度认知能力。这种演进解锁了诸如视
觉问答、跨模态生成、智能语音交互等复杂场景的应用潜力。以视觉问答为例,系统需同时解析图像中的视
觉和文本信息,并通过模态对齐与知识推理生成准确回答。这一过程的实现,依赖于海量高质量的图文对数
据。数据服务商需构建覆盖多样化场景的问答对,通过模拟现实中的视觉推理逻辑,训练AI建立视觉-语言
联合表征能力。实践证明,数据质量与多样性直接决定多模态模型的能力上限。随着多模态数据生态的完善
,AI的感知与认知能力将实现新跨越。
b.大模型从“规模驱动”转向“推理驱动”,思维链(CoT)数据成为关键突破口
随着模型参数量逼近实用天花板,传统ScalingLaw的边际收益正在递减。单纯堆算力与参数已难以解决
逻辑、数学等复杂推理任务,行业正加速向“推理驱动”范式转型——让模型从直觉式“快思考”转向逻辑
式“慢思考”。
2025年,DeepSeekR1的推出验证了这一路径的可行性。其核心创新在于思维链(Chain-of-Thought,CoT
)技术:通过将复杂问题拆解为多步可追溯的推理步骤,得以模拟人类的分步思考过程,显著提升逻辑一致
性与答案可解释性。这一技术突破使CoT数据从“可选项”变为“必选项”。
对于数据服务商而言,CoT数据的供给能力将成为衡量专业水准的关键标尺。率先建立专家标注体系、
掌握复杂推理数据生产方法论的企业,将在大模型下一阶段的竞争中占据核心生态位。
c.从通用到垂直,高质量行业数据需求显著提升
DeepSeek等开源模型的高性能、低成本加速了AI应用普及,推动AI从通用助手向行业专家和AIAgent演
进。医疗、法律、金融等垂直领域对专业数据的需求激增:医疗大模型要求标注人员具备医学知识,法律模
型需理解法条与判例逻辑。同时,AIAgent需要理解用户指令并执行订餐、行程规划等复杂任务,对多轮交
互、任务拆解类数据提出新要求。对于数据服务商而言,上述变化意味着核心竞争力正在重构:不再仅仅是
“数据产量”的比拼,更是行业理解深度、专家资源网络、复杂任务拆解能力的综合考验。能够为垂直领域
提供“数据+知识”一体化解决方案的企业,将在AI产业深水区占据不可替代的位置。
d.具身智能浪潮来袭,数据供给瓶颈亟待突破
具身智能被广泛视为通往AGI的关键一跃。2025年,特斯拉Optimus、Figure01等机器人加速从实验室走
向工厂与家庭。与纯软件AI不同,具身智能要求模型理解并交互于真实物理世界——这一跨越带来了根本性
的数据挑战。行业依赖以下种数据来源:互联网开源数据集(规模有限,仅百万级)、虚拟合成、动作捕捉
、第一人称视角(如头戴相机记录人类操作)、UMI(通用操作接口)、真机遥操。虚拟合成数据虽可批量
生成,但“仿真到现实”的差距始终存在——物理引擎无法完美模拟摩擦力、形变、光照变化等复杂因素。
真机遥操采集(如人类通过VR设备远程操控机器人)能产出最高质量的数据,但单条数据采集成本高达数十
元,难以快速规模化。目前,混合式数据策略成为行业共识,即用第一人称视角、UMI数据、虚拟数据等进
行预训练、用真实数据精调。
对于数据服务商而言,具身智能是一个全新的蓝海市场。当前行业仍处于“数据荒”阶段,率先建立物
理世界数据采集、以及仿真数据能力的数据服务企业,将在具身智能时代占据更强的先发优势。
e.数据安全法规密集落地,合规能力成核心竞争力
近年,《数据安全法》《个人信息保护法》《网络数据安全管理条例》等法律法规相继实施。2025年,
国家进一步强化数据出境安全评估、生成式AI内容标识等要求。对于数据服务企业,数据安全与合规能力已
成为核心
|