chaguwang.cn-查股网.中国

查股网.CN

 

海天瑞声(688787)经营分析主营业务

 

查询个股经营分析(输入股票代码):

经营分析☆ ◇688787 海天瑞声 更新日期:2025-09-17◇ 通达信沪深京F10 ★本栏包括【1.主营业务】【2.主营构成分析】【3.前5名客户营业收入表】【4.前5名供应商采购表】 【5.经营情况评述】 【1.主营业务】 训练数据的研发设计、生产及销售。 【2.主营构成分析】 截止日期:2025-06-30 项目名 营业收入(元) 收入比例(%) 营业利润(元) 利润比例(%) 毛利率(%) ───────────────────────────────────────────────── 软件和信息技术服务(行业) 1.57亿 100.00 7861.86万 100.00 50.17 ───────────────────────────────────────────────── 智能语音(产品) 6915.28万 44.13 5296.82万 67.37 76.60 计算机视觉(产品) 6271.64万 40.02 1208.08万 15.37 19.26 自然语言(产品) 2177.67万 13.90 1245.38万 15.84 57.19 应用服务(产品) 305.01万 1.95 111.58万 1.42 36.58 ───────────────────────────────────────────────── 境内(地区) 8318.45万 53.09 3927.99万 49.96 47.22 境外(地区) 7351.14万 46.91 3933.86万 50.04 53.51 ───────────────────────────────────────────────── 训练数据定制服务(业务) 9986.47万 63.73 2432.29万 30.94 24.36 训练数据产品(业务) 5378.12万 34.32 5317.99万 67.64 98.88 训练数据相关的应用服务(业务) 305.01万 1.95 111.58万 1.42 36.58 ───────────────────────────────────────────────── 截止日期:2024-12-31 项目名 营业收入(元) 收入比例(%) 营业利润(元) 利润比例(%) 毛利率(%) ───────────────────────────────────────────────── 软件和信息技术服务业(行业) 2.37亿 100.00 1.58亿 100.00 66.46 ───────────────────────────────────────────────── 智能语音(产品) 1.65亿 69.43 1.25亿 79.53 76.13 计算机视觉(产品) 4654.63万 19.63 1761.45万 11.18 37.84 自然语言(产品) 2408.39万 10.16 1430.57万 9.08 59.40 训练数据相关的应用服务(产品) 185.43万 0.78 33.93万 0.22 18.30 ───────────────────────────────────────────────── 境内(地区) 1.23亿 52.06 6703.03万 42.54 54.30 境外(地区) 1.14亿 47.94 9053.61万 57.46 79.66 ───────────────────────────────────────────────── 训练数据定制服务(业务) 1.24亿 52.49 4694.79万 29.80 37.73 训练数据产品(业务) 1.11亿 46.73 1.10亿 69.99 99.54 训练数据相关的应用服务(业务) 185.43万 0.78 33.93万 0.22 18.30 ───────────────────────────────────────────────── 直销(销售模式) 2.37亿 100.00 1.58亿 100.00 66.46 ───────────────────────────────────────────────── 截止日期:2024-06-30 项目名 营业收入(元) 收入比例(%) 营业利润(元) 利润比例(%) 毛利率(%) ───────────────────────────────────────────────── 软件和信息技术服务(行业) 9242.64万 100.00 6501.01万 100.00 70.34 ───────────────────────────────────────────────── 智能语音(产品) 6486.76万 70.18 5083.43万 78.19 78.37 计算机视觉(产品) 1670.54万 18.07 699.79万 10.76 41.89 自然语言(产品) 1084.43万 11.73 717.74万 11.04 66.19 应用服务(产品) 9056.60 0.01 475.29 0.00 5.25 ───────────────────────────────────────────────── 境内(地区) 4873.11万 52.72 2794.61万 42.99 57.35 境外(地区) 4369.53万 47.28 3706.40万 57.01 84.82 ───────────────────────────────────────────────── 训练数据定制服务(业务) 4655.76万 50.37 1938.22万 29.81 41.63 训练数据产品(业务) 4585.97万 49.62 4562.74万 70.19 99.49 训练数据相关的应用服务(业务) 9056.60 0.01 475.29 0.00 5.25 ───────────────────────────────────────────────── 截止日期:2023-12-31 项目名 营业收入(元) 收入比例(%) 营业利润(元) 利润比例(%) 毛利率(%) ───────────────────────────────────────────────── 软件和信息技术服务业(行业) 1.70亿 100.00 9521.96万 100.00 56.01 ───────────────────────────────────────────────── 智能语音(产品) 1.03亿 60.44 6515.03万 68.42 63.41 计算机视觉(产品) 4682.79万 27.54 2013.48万 21.15 43.00 自然语言(产品) 1517.06万 8.92 875.89万 9.20 57.74 训练数据相关的应用服务(产品) 525.99万 3.09 117.55万 1.23 22.35 ───────────────────────────────────────────────── 境内(地区) 1.10亿 64.73 4896.21万 51.42 44.49 境外(地区) 5996.15万 35.27 4625.75万 48.58 77.15 ───────────────────────────────────────────────── 训练数据定制服务(业务) 9901.55万 58.24 2848.49万 29.91 28.77 训练数据产品(业务) 6573.55万 38.67 6555.92万 68.85 99.73 训练数据相关的应用服务(业务) 525.99万 3.09 117.55万 1.23 22.35 ───────────────────────────────────────────────── 直销(销售模式) 1.70亿 100.00 9521.96万 100.00 56.01 ───────────────────────────────────────────────── 【3.前5名客户营业收入表】 截止日期:2024-12-31 前5大客户共销售1.03亿元,占营业收入的43.59% ┌───────────────────────┬───────────┬───────────┐ │客户名称 │ 营收额(万元)│ 占比(%)│ ├───────────────────────┼───────────┼───────────┤ │客户1 │ 5253.35│ 22.16│ │客户2 │ 1361.23│ 5.74│ │客户3 │ 1331.23│ 5.62│ │客户4 │ 1223.96│ 5.16│ │客户5 │ 1163.32│ 4.91│ │合计 │ 10333.09│ 43.59│ └───────────────────────┴───────────┴───────────┘ 【4.前5名供应商采购表】 截止日期:2024-12-31 前5大供应商共采购0.41亿元,占总采购额的36.67% ┌───────────────────────┬───────────┬───────────┐ │供应商名称 │ 采购额(万元)│ 占比(%)│ ├───────────────────────┼───────────┼───────────┤ │供应商1 │ 1282.80│ 11.54│ │供应商2 │ 847.27│ 7.62│ │供应商3 │ 780.58│ 7.02│ │供应商4 │ 681.60│ 6.13│ │供应商5 │ 484.91│ 4.36│ │合计 │ 4077.16│ 36.67│ └───────────────────────┴───────────┴───────────┘ 【5.经营情况评述】 截止日期:2025-06-30 ●发展回顾: 一、报告期内公司所属行业及主营业务情况说明 (一)所属行业情况 1.行业的发展阶段、基本特点、主要技术门槛 1.1行业的发展阶段、基本特点 (1)政策、技术、应用协同共振,全球AI产业迈入高速发展新阶段 当前,全球人工智能产业正迎来历史性发展拐点,政策、技术与应用的三重共振推动行业进入高速增长 通道。中、美、欧三大经济体持续加码AI布局:中国通过《新一代人工智能发展规划》和《"十四五"数字经 济发展规划》等构建了涵盖技术研发、资源建设和标准制定的全链条政策体系;美国则依托《人工智能行政 令》和星际之门计划(Stargate)等,持续巩固其在人工智能基础设施领域的领先优势;欧盟以《人工智能 大陆行动计划》为纲领,配套《数字欧洲计划(2025-2027年工作方案》专项资金,重点培育AI与高性能计 算融合创新。技术层面,人工智能也正在经历革命性突破,DeepSeekR1等开源模型通过性能提升与成本优化 的双重突破,显著降低了技术应用门槛;多模态大模型(如Genie3、GPT-5)也在不断拓展AI能力边界,实 现全模态互动能力。这种技术平权运动正在加速AI向千行百业渗透,大模型已逐步开始向金融、医疗、制造 等核心领域进行新一轮的赋能,智能风控、AI辅助诊断、智能制造等应用场景不断丰富,推动各行业效率提 升和模式创新。全球AI产业也将在上述政策引导、技术迭代与商业落地的正向循环下,迎来前所未有的发展 机遇,加速向规模化、价值化阶段迈进。 根据国际数据公司(IDC)的数据,2024年全球人工智能(AI)IT总投资规模为3158亿美元,预计在2028 年增至8159亿美元,年复合增长率(CAGR)为32.9%。 中国作为全球科技大国,也深度受益AI技术发展。根据艾瑞咨询的数据,2024至2029年中国AI产业将保 持32.1%的年均复合增长率,在2029年突破1万亿的市场规模。 (2)训练数据作为AI发展和演进“燃料”的作用更加凸显,并逐渐成为大模型竞赛中的重要决定性要 素 在AI产业链中,算法、算力和数据共同构成技术发展的三大核心要素。过去十多年,人工智能产业以算 法为核心,通过深度学习算法的不断创新,推动人工智能产业的快速发展。但未来,当更多先进算法趋于开 源,算法的差异化壁垒逐渐消除;此外,以DeepSeek为代表的算法架构创新和工程优化,带来了训练以及推 理成本的大幅下降,这也意味着算力将不再是制约AI发展的核心因素。在此背景下,训练数据的重要性被进 一步放大,成为未来AI发展的关键驱动因素。数据的质量、规模和精准性将直接决定模型能力的上限,高质 量的训练数据不仅能显著提升模型的推断可靠性,还能有效减少幻觉和错误信息的产生,成为模型落地效果 的关键。因此,高质量数据需求将呈现快速增长趋势。 根据Cognilytica数据统计显示,预计2027年全球AI训练数据市场规模将增长到220亿美元,2021-2027 年复合增长率达32%。 中国作为全球人工智能产业增速最快的国家之一,相关数据需求也在快速增长。根据艾瑞咨询的数据, 2024年中国人工智能基础数据服务市场规模为58亿元,2028年规模将达到170亿元,年复合增长率为30.84% 。 (3)数据要素价值加快释放,数据产业已成为数字经济发展新增长点 在数字浪潮席卷全球的当下,数据产业已成为经济发展的新引擎。在以习近平同志为核心的党中央坚强 领导下,我国牢牢把握数字化、网络化、智能化发展机遇,全面深化数据要素市场化配置改革。坚持推进数 据要素市场化配置改革“一条主线”,统筹数字中国、数字经济、数字社会“三个建设”的工作思路,推动 数据工作更好服务高质量发展。同时,探索完善数据基础制度体系,加快推进数据基础设施建设,提升数据 资源开发和利用水平。2024年国家数据局联合多部门制定《关于促进数据产业高质量发展的指导意见》、《 关于加快公共数据资源开发利用的意见》、《关于促进数据标注产业高质量发展的实施意见》等21项政策, 2025年还将有10余项政策发布,进一步完善数据基础制度,充分体现国家高度重视数据产业高质量发展。《 关于促进数据产业高质量发展的指导意见》指明了数据技术和产业重点发展方向;《关于促进数据标注产业 高质量发展的实施意见》明确提出培育壮大数据标注产业对于提升数据供给质量,推动人工智能创新发展具 有重要支撑作用。 各地开展流通利用基础设施先行先试,不断夯实数据开发利用的设施底座,布局数据基础设施。以场景 牵引带动数据要素价值充分释放,深入实施“数据要素×”行动,开展公共数据“跑起来”示范场景建设, 全面深入推动数据开发利用。培育数据汇聚共享、开发利用的数据企业,加快构建全国一体化数据市场。成 立全国数据标准化技术委员会,不断推出数据标准、规范。持续推进高质量数据集建设,支撑人工智能创新 发展。据国家数据局统计,我国已经建设高质量数据集超过3.5万个,总体量超过了400PB。人工智能模型的 训练也推动了数据交易需求的攀升,截至2025年6月底,各地高质量数据集累计交易额近40亿元,数据交易 机构挂牌的高质量数据集总规模达到了246PB。 全国各地数据要素市场化配置改革也在加速推进。例如北京市在探索和实践数据基础制度先行示范区、 人工智能数据训练基地的基础上,发布《北京市关于建设数据要素综合试验区的实施意见》,开展数据要素 综合试验区建设,打造“高端数据标注基地”。上海印发《关于人工智能“模塑申城”的实施方案》,瞄准 技术前沿,坚持应用牵引,通过推进人工智能“模塑申城”,建设智能算力集群、语料供给体系、虚实融合 实训场、行业基座大模型等基础底座,打造智能终端、科学智能、在线新经济、自动驾驶、具身智能等关键 领域生产力工具,聚焦金融、制造、教育、医疗、文旅、城市治理等重点行业加速应用赋能。 成都市《成都市进一步促进人工智能产业高质量发展的若干政策措施实施细则》,提出支持高端要素聚 集。实施公共数据资源赋能人工智能产业发展行动。依托成都市公共数据开放平台、成都市公共数据运营服 务平台,依法、合规、有序向人工智能企业提供公共数据开放服务和授权开发利用。支持企业自主或联合行 业协会、科研机构等建设高质量人工智能数据集。长沙市政府印发《长沙市关于推进国家数据标注基地建设 的若干政策(试行)》,从聚焦加快培育标注产业、支持技术创新攻关、加强专业人才培育、促进数据服务 赋能等四大方面推出了14条产业政策,加大扶持力度。湖北武汉发布《武汉市促进数据产业发展若干政策措 施(征求意见稿)》,提出聚焦数据产业发展的关键核心技术,组织实施市级科技重大专项,根据项目投入 、实施难度、实施成效等情况,给予单个项目最高2000万元资金支持。呼和浩特市政府发布《关于促进绿色 算力及人工智能产业高质量发展的若干意见》,每年统筹安排1.28亿元专项资金,推出5大方面、17项有力 措施,全力推动产业升级。 总体来看,我国数据产业发展势头良好、前景广阔。随着“人工智能+”和“数据要素×”等国家战略 行动计划的实施,全国各地均在加速推进数据要素市场化配置改革,未来将以高质量数据集建设,夯实人工 智能数据基石,推动数字经济高质量发展为目标,围绕数据的汇聚、治理、标注、运营、评测、开发利用以 及流通交易全流程,将产生包括数据汇聚、数据治理、数据标注、数据运营、数据评测、数据应用、数据流 通、可信数据空间、数据标注基地运营等在内的新业态、新模式,将成为我国数字经济发展的新增长极。 (4)训练数据领域的未来发展趋势 随着DeepSeek、GPT-4o等成为全球范围内的现象级应用,以及以手机、具身智能为代表的AI终端的快速 推出,人工智能迎来了新的发展机遇,其背后的大模型技术也正在带来相关数据需求的变化和增长。 a.多模态大模型正成为人工智能发展的新趋势,多模态数据需求显著上升 当前,大模型正经历从单模态到多模态的范式转变。多模态技术的本质在于跨模态信息融合,即通过协 同处理文本、图像、音频、视频等不同形式的数据,使AI具备更接近人类的全维度认知能力。这种演进不仅 显著提升了模型在跨模态任务中的鲁棒性,更解锁了诸如视觉问答、跨模态生成、智能语音交互等复杂场景 的应用潜力。 以视觉问答为例,系统需同时解析图像中的视觉元素和文本问题的语义信息,并通过模态对齐与知识推 理生成准确回答。这一过程的实现,依赖于海量高质量的图文对数据。数据服务商需构建覆盖多样化场景的 问答对,通过模拟真实世界的视觉推理逻辑,训练AI建立视觉-语言联合表征能力。而在语音合成领域,要 实现富有表现力的拟人化发声,仅有时序对齐的文本-语音数据远远不够,还需引入情感标签、语调标记、 韵律特征等细粒度标注,让AI精确捕捉人类语言中的情感起伏和表达风格。 实践证明,数据质量与多样性是多模态AI发展的决定性因素:一方面,优质数据定义了模型的能力上限 ;另一方面,数据分布的广度直接关系到技术落地的普适性。未来,随着多模态数据生态的持续完善,AI的 感知与认知能力有望实现新的跨越。 b.大模型发展正在从"规模驱动"向"推理驱动"转型,高质量思维链(CoT)数据成为提升大模型复杂推 理能力的关键突破口 随着DeepSeekR1的推出,思维链技术(ChainofThought,CoT)迅速成为AI领域的研究热点。这项技术通 过引导模型模拟人类逐步推理的过程,显著提升了其在逻辑推理、数学计算及复杂问答等任务中的表现。 过往几年,大语言模型(LLM)的发展主要遵循ScalingLaw(规模定律),即通过扩大模型参数量和训 练数据规模来提升性能。然而,随着知识积累的边际效益逐渐降低,仅单纯依赖规模的增长已难以实现质的 飞跃。于是,让AI像人类一样进行深度、有序的“慢思考”,成为突破现有认知能力瓶颈的关键方向。以数 学问题为例,传统LLM往往直接输出最终答案,而省略中间推理过程,导致错误率居高不下。相比之下,具 备CoT能力的模型会分步骤解析问题,先理解题意,再梳理已知条件,逐步推导计算,并最终验证结果的合 理性。这种显式推理机制不仅大幅提高了模型的准确性,还使其决策过程更加透明,便于开发者理解和优化 。 然而,思维链能力高度依赖高质量的CoT数据——即包含详细推理步骤的问答对。这类数据由于专业性 强、标注难度高,目前仍属于稀缺资源。具体而言,优质的CoT数据需要领域专家进行人工构建,不仅要确 保问题本身的复杂性,还需对解题过程中的每个逻辑进行严格验证,这种双重门槛使得数据生产周期往往长 达普通标注任务的数倍。当前即便是最前沿的合成数据技术,在生成具有严密因果关系的多步推理时,仍会 有相当概率出现逻辑断层,这也使得高阶人工标注目前仍是不可替代的重要数据来源。 c.从通用到垂直,高质量行业数据需求显著提升 以DeepSeek为代表的开源大模型,以其高性能、低成本,以及允许全球用户无限制商用等特点,进一步 加速了AI应用的普及,激发了应用层的创新活力,使AI逐渐从通用大模型向更广泛的应用场景和行业领域拓 展,AI不再局限于作为回答通用问题的智能助手,而是能够针对特定行业/场景提供解决方案,或者协助执 行各类复杂任务的超级助理(AIAgent)。例如,在医疗领域,AI可以作为影像科医生辅助诊断;在法律领 域,AI可以担任法律顾问提供专业咨询;同时,AIAgent也能够独立完成点外卖、制定行程、预订机票等日 常任务。 AI不仅在传统行业与生活场景中展现出独特价值,在智能终端领域,同样掀起了革新的浪潮。例如,AI 在智能手机上的应用,可以帮助用户通过文字快速创作专业级摄影大片;当海量照片让整理相册成为难题时 ,可以快速通过文字描述定位对应图像,实现即时快速检索。在交互层面,AI赋能的语音助手也有质的飞跃 。如今的语音助手不再是简单的指令执行者,它们能理解各种不同语种、不同场景下,复杂的语义和情感, 并用不同的音色情感与用户进行交互。 与以往通用数据处理需求不同,垂向领域的数据处理更加注重专业性。例如,传统的自然语言处理只包 括基本的文本处理工作,例如,分词、词性、正则化等标注需求,这些任务无需标注人员具有特定的行业知 识;相对地,开发专门领域,例如医疗大模型,则要求标注人员不仅具备扎实的医疗专业知识,还要能够熟 练使用医疗术语进行专业场景下的表达,使医疗模型能够理解和生成专业的医疗内容。这种专业化的需求也 对数据服务商提出了更高的要求,数据服务商不仅要对行业有深刻的理解,以设计出符合行业需求的数据解 决方案,还需要具备更丰富的专家库储备,以提供高质量的数据标注服务以及相关专业咨询服务。 d.具身智能浪潮来袭,数据供给瓶颈亟待突破 具身智能作为通向通用人工智能(AGI)的关键路径与终极载体,正引领着AI发展的下一波浪潮。与传 统大模型不同,具身智能的核心在于构建能够与物理世界深度交互的智能体。这不仅需要突破性的多模态感 知技术(包括视觉、听觉等),更重要的是要具备基于环境感知的自主决策与执行能力。实现这一目标的关 键在于海量的物理世界交互数据,目前行业主要依赖四种数据来源,互联网开源数据集(整合现有的公开机 器人数据)、虚拟合成(利用仿真环境生成训练数据)、动作捕捉(记录人类在特定环境中的行为模式)、 以及机器人遥操(通过人工远程操控获取真实场景下的操作数据)等。其中,虚拟合成技术虽解决了初期数 据短缺问题,但由于"仿真差距"的存在,其数据质量往往难以满足高精度训练需求。而开源数据集则面临着 数据规模有限(通常仅百万级)、采集条件单一等挑战,无法支撑复杂场景下(需要千万级数据)的模型训 练需求。当前,在具身智能蓬勃发展的大背景下,高质量的数据供给短缺问题愈发凸显,具身智能的训练数 据市场呈现出巨大的供需缺口,需求旺盛且潜力巨大。 e.国家法律法规密集落地,对数据安全及合规提出更高要求 近年来,数字经济规模快速扩张,数据作为数字经济时代核心生产要素,重要性更加凸显,但数据不同 于传统生产要素,其中可能涉及个人隐私以及国家安全的重要信息,因此,为更好保障数字经济长期稳定的 可持续发展,建设规范、安全、合规、高质量的数据安全体系已成为迫切需求。近年,国家陆续出台包括《 数据安全法》、《个人信息保护法》、《网络数据安全管理条例》等主流法律法规,为解决数据安全问题、 净化行业快速发展中的不良乱象提供了切实可行的法律依据。 未来,随着AI技术不断革新,应用行业以及场景不断增加,各行业、各领域数据安全规范逐渐落地将成 为趋势,对于以数据生产为主营业务的数据服务企业,数据安全及合规能力将成为数据服务能力的核心评价 维度,成熟的安全合规管理体系将成为重要评价标准,能持续跟踪法律环境变化,积极响应监管政策,牢牢 把握发展与安全并重的原则的企业将具有更强的市场竞争力。 1.2行业的主要技术门槛 随着AI技术不断演进、产业应用不断丰富,训练数据的市场需求呈现体量、难度、复杂性、合规性持续 上升的趋势,数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富 的语言覆盖能力及场景采集能力、算法辅助数据生产能力、以及数据合规管理能力,这使得行业的技术门槛 持续提升,具体体现为: (1)在训练数据研发、生产全流程中的算法全面介入 随着AI技术应用落地的规模化效应凸显,客户对于数据规模和处理效率的要求不断提升,数据服务商须 在研发、生产流程中全面引入算法以实现高效、合理的人机协作模式,进而实现降本增效的目标。一般而言 ,在训练数据研发、生产全流程中融入算法技术,可用于训练数据集的设计及训练数据生产的各个环节,例 如调度不同类型的标注人员应对不同领域的任务、形成算法自动处理能力以帮助标注人员提升效率、降低对 人员的依赖(既有人员数量的降低、也有对人员标注能力要求的降低),并构建训练数据设计、加工相关的 核心技术;也可用于检查训练数据集对算法模型的训练效果,进而保障训练数据集质量。 (2)平台工具链功能及适配性要求持续提升 当前,客户侧的数据采集、标注需求范围在逐渐拓宽,数据采集与标注需满足的AI应用场景比以往明显 更加广泛、复杂,这就对数据服务商的平台工具能力提出了更高要求,平台上处理大规模的数据、这些处理 过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应 用、数据流转的工程化程度如何等等这些因素都决定了平台的适配性和能力如何,并最终决定了数据处理的 质量、效率、成本。 (3)语音语言学基础研究方面须有深厚积累 伴随语音技术进一步发展落地、并向各行各业和更多垂直场景不断渗透,同时受到中国企业出海需求、 国外企业区域拓展需求两方面的支撑,客户在多语种、多音色、音素集、发音规则、发音词典等方面的要求 在不断抬升,这意味着只有那些在语音语言学基础研究方面投入更多、拥有深厚积累的数据服务商才能满足 客户在这方面的多元化需求。 因此,市场上仅有极少数企业通过长期自主研发的方式能够达到上述核心技术门槛,成为有能力向不同 客户群体提供综合、高效、合规的数据产品及服务的供应商。 2.公司所处的行业地位分析及其变化情况 作为行业的头部阵营企业,海天瑞声在经营情况、技术实力、以及以数据安全为代表的其他综合能力方 面都展示出明显优势,并具有较强国际竞争力。近年来公司紧跟AI技术发展趋势,尤其关注在客户资源、技 术实力、产品/服务等方面的竞争优势,树立国内领先基础数据服务商的品牌形象,以巩固公司的行业领先 地位。 (二)主营业务情况说明 公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对 取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,通过软件形式向客户交付。 自2005年成立以来,公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集 。经过多年发展,公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业,并实现了标 准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音(语音识别、语音合成 等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能家居、智能驾驶、智慧金融、智 能安防等多种创新应用场景。 公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三 星、中国移动、中国科学院、清华大学等国内外客户的认可,应用于其研发的个人助手、智能音箱、语音导 航、内容生成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。 目前公司客户累计数量超过1100家,覆盖了科技互联网、社交、IoT、智能驾驶、大模型等领域的主流企业 ,以及政企、教育科研机构。 (三)主要产品及服务情况 1.主要产品及服务按业务类型分类 公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域,广泛应用于 算法模型的开发、训练、优化、应用场景拓展等环节。此外,公司还提供与训练数据相关的应用服务。 (1)智能语音 人工智能在语音领域的应用技术主要包括语音识别、语音合成等。 语音识别(AutomaticSpeechRecognition,ASR)是让机器能够“听懂”人类语音的技术,它能使机器 自动将语音信号转换为对应的文本信息。 语音合成(TexttoSpeech,TTS)是让机器能够“说出”人类语音的技术,它使机器能将文字信息转化 为流畅的语音“朗读”出来,相当于给机器安上了人工嘴巴。 以日常生活中的情景为例,语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换 为文字,实现了软件“听懂”语音并“听写”出文字的效果;而地图、导航软件则运用语音合成技术,实现 了软件“发声说话”的效果,为用户提供即时语音导航。 公司通过设计(设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设 备场景等)、采集(定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频)、加工(对音频 文件进行切分、标注各类声音特征,形成带时间戳和特征标签的文本和标注文件等)、质检(对数据集进行 质量检测,如音字一致性、标注准确率检查等)等训练数据集生产环节;或者针对客户提供的原料音频文件 执行加工、质检工作,最终形成客户所需的智能语音训练数据集。 (2)计算机视觉 计算机视觉(ComputerVision,CV)是使机器具备“看”的功能的技术,它使得智能驾驶、智能家居、 手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。 以日常生活中的情景为例,在汽车的自动驾驶功能中,计算机视觉技术使得汽车能够“看见”并识别行 车过程中的各种行人、路况场景,为后续作出相应的反应奠定基础;在机场、车站安检中,计算机视觉技术 使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。 公司通过设计训练数据集结构、采集(如定义合适的人脸、动作、场景作为采集对象,组织被采集人按 照要求拍摄照片、录制视频等)、加工(对图像、视频文件进行打点、拉框、分割标注等)、质检(对数据 集进行质量检测,如检验图片、视频文件格式是否正确,检查光照环境、物体种类的数量是否达标,打点标 框的准确率是否符合要求等);或者对客户提供的图像、视频文件执行加工、质检工作,最终形成客户所需 的计算机视觉训练数据集。 (3)自然语言处理 自然语言处理(NaturalLanguageProcessing,NLP)是使机器能够像人一样理解语言意图的技术。 以日常生活中的情景为例,寄送快递时使用的“智能填写”功能即运用了自然语言处理技术,在输入框 中填入整段联系信息,软件应用能够理解语义,并从中识别及提取“收件人”、“联系方式”、“地址信息 ”等所需信息,完成自动填写;智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术,使得程 序、机器

www.chaguwang.cn & ddx.gubit.cn 查股网提供数据 商务合作广告联系 QQ:767871486