经营分析☆ ◇688787 海天瑞声 更新日期:2024-11-16◇ 通达信沪深京F10
★本栏包括【1.主营业务】【2.主营构成分析】【3.前5名客户营业收入表】【4.前5名供应商采购表】
【5.经营情况评述】
【1.主营业务】
训练数据的研发设计、生产及销售。
【2.主营构成分析】
截止日期:2024-06-30
项目名 营业收入(元) 收入比例(%) 营业利润(元) 利润比例(%) 毛利率(%)
─────────────────────────────────────────────────
软件和信息技术服务(行业) 9242.64万 100.00 6501.01万 100.00 70.34
─────────────────────────────────────────────────
智能语音(产品) 6486.76万 70.18 5083.43万 78.19 78.37
计算机视觉(产品) 1670.54万 18.07 699.79万 10.76 41.89
自然语言(产品) 1084.43万 11.73 717.74万 11.04 66.19
应用服务(产品) 9056.60 0.01 475.29 0.00 5.25
─────────────────────────────────────────────────
境内(地区) 4873.11万 52.72 2794.61万 42.99 57.35
境外(地区) 4369.53万 47.28 3706.40万 57.01 84.82
─────────────────────────────────────────────────
训练数据定制服务(业务) 4655.76万 50.37 1938.22万 29.81 41.63
训练数据产品(业务) 4585.97万 49.62 4562.74万 70.19 99.49
训练数据相关的应用服务(业务) 9056.60 0.01 475.29 0.00 5.25
─────────────────────────────────────────────────
截止日期:2023-12-31
项目名 营业收入(元) 收入比例(%) 营业利润(元) 利润比例(%) 毛利率(%)
─────────────────────────────────────────────────
软件和信息技术服务业(行业) 1.70亿 100.00 9521.96万 100.00 56.01
─────────────────────────────────────────────────
智能语音(产品) 1.03亿 60.44 6515.03万 68.42 63.41
计算机视觉(产品) 4682.79万 27.54 2013.48万 21.15 43.00
自然语言(产品) 1517.06万 8.92 875.89万 9.20 57.74
训练数据相关的应用服务(产品) 525.99万 3.09 117.55万 1.23 22.35
─────────────────────────────────────────────────
境内(地区) 1.10亿 64.73 4896.21万 51.42 44.49
境外(地区) 5996.15万 35.27 4625.75万 48.58 77.15
─────────────────────────────────────────────────
训练数据定制服务(业务) 9901.55万 58.24 2848.49万 29.91 28.77
训练数据产品(业务) 6573.55万 38.67 6555.92万 68.85 99.73
训练数据相关的应用服务(业务) 525.99万 3.09 117.55万 1.23 22.35
─────────────────────────────────────────────────
直销(销售模式) 1.70亿 100.00 9521.96万 100.00 56.01
─────────────────────────────────────────────────
截止日期:2023-06-30
项目名 营业收入(元) 收入比例(%) 营业利润(元) 利润比例(%) 毛利率(%)
─────────────────────────────────────────────────
软件和信息技术服务(行业) 7446.09万 100.00 4382.06万 100.00 58.85
─────────────────────────────────────────────────
智能语音(产品) 4734.39万 63.58 --- --- ---
计算机视觉(产品) 1929.63万 25.91 --- --- ---
自然语言(产品) 779.26万 10.47 --- --- ---
应用服务(产品) 2.81万 0.04 --- --- ---
─────────────────────────────────────────────────
境内(地区) 4533.01万 60.88 --- --- ---
境外(地区) 2913.08万 39.12 --- --- ---
─────────────────────────────────────────────────
训练数据定制服务(业务) 4618.70万 62.03 --- --- ---
训练数据产品(业务) 2824.58万 37.93 --- --- ---
训练数据相关的应用服务(业务) 2.81万 0.04 --- --- ---
─────────────────────────────────────────────────
截止日期:2022-12-31
项目名 营业收入(元) 收入比例(%) 营业利润(元) 利润比例(%) 毛利率(%)
─────────────────────────────────────────────────
软件和信息技术服务业(行业) 2.63亿 100.00 1.70亿 100.00 64.73
─────────────────────────────────────────────────
智能语音(产品) 1.74亿 66.30 1.17亿 68.84 67.21
计算机视觉(产品) 6055.76万 23.04 3255.49万 19.13 53.76
自然语言(产品) 2269.41万 8.63 1636.76万 9.62 72.12
训练数据相关的应用服务(产品) 533.64万 2.03 410.34万 2.41 76.89
─────────────────────────────────────────────────
境内(地区) 1.47亿 55.97 7314.23万 42.98 49.71
境外(地区) 1.16亿 44.03 9703.51万 57.02 83.82
─────────────────────────────────────────────────
训练数据定制服务(业务) 1.46亿 55.70 --- --- ---
训练数据产品(业务) 1.11亿 42.27 --- --- ---
训练数据相关的应用服务(业务) 533.64万 2.03 410.34万 2.41 76.89
─────────────────────────────────────────────────
直销(销售模式) 2.63亿 100.00 1.70亿 100.00 64.73
─────────────────────────────────────────────────
【3.前5名客户营业收入表】
截止日期:2023-12-31
前5大客户共销售0.57亿元,占营业收入的33.41%
┌───────────────────────┬───────────┬───────────┐
│客户名称 │ 营收额(万元)│ 占比(%)│
├───────────────────────┼───────────┼───────────┤
│客户1 │ 1254.04│ 7.38│
│客户2 │ 1214.90│ 7.15│
│客户3 │ 1213.58│ 7.14│
│客户4 │ 1095.57│ 6.44│
│客户5 │ 901.49│ 5.30│
│合计 │ 5679.58│ 33.41│
└───────────────────────┴───────────┴───────────┘
【4.前5名供应商采购表】
截止日期:2023-12-31
前5大供应商共采购0.32亿元,占总采购额的32.84%
┌───────────────────────┬───────────┬───────────┐
│供应商名称 │ 采购额(万元)│ 占比(%)│
├───────────────────────┼───────────┼───────────┤
│供应商1 │ 1075.79│ 11.14│
│供应商2 │ 742.26│ 7.69│
│供应商3 │ 575.50│ 5.96│
│供应商4 │ 435.13│ 4.51│
│供应商5 │ 341.66│ 3.54│
│合计 │ 3170.34│ 32.84│
└───────────────────────┴───────────┴───────────┘
【5.经营情况评述】
截止日期:2024-06-30
●发展回顾:
一、报告期内公司所属行业及主营业务情况说明
(一)所属行业情况
1.行业的发展阶段、基本特点、主要技术门槛
1.1行业的发展阶段、基本特点
(1)在数字经济发展以及大模型技术的共同驱动下,全球AI产业进入新一轮加速发展期
当前,新一轮科技革命和产业变革深入发展,数字化转型成为大势所趋,世界主要国家均高度重视发展
数字经济,纷纷出台战略规划,重塑数字时代的国际竞争新格局。人工智能作为数字经济发展的底层核心技
术之一,正在发挥更加重要的作用。例如,随着数字经济发展的不断深入,数据体量以及复杂度均不断提升
,为更好解决产业数字化中数据提取、处理、分析等工作,将会产生更多样化的人工智能需求,人工智能支
出也将成为支持企业数字化转型支出的主力因素之一。此外,大模型在去年以来的现象级智能化表现引发行
业强烈关注。可以预见,人工智能行业将在大模型技术的推动下进入新一轮产业高速发展期。
未来,受益于数字经济政策和大模型技术的双重驱动,人工智能将具备更强的产业融合能力,并将深刻
影响千行百业的运行规则,以及人们的生活方式,人工智能产业的发展将随之进入快车道。
根据国际数据公司(IDC)的数据,2022年全球人工智能(AI)IT总投资规模为1324.9亿美元,预计在202
7年增至5124.2亿美元,年复合增长率(CAGR)为31.1%。
在市场需求拉动和国家政策的支持引导下,当前我国人工智能产业加速发展,已形成基础底层设施、中
层技术以及上层应用的完备的产业链生态,联合推动中国人工智能产业实现规模增长。根据艾瑞咨询的数据
显示,2023年中国人工智能产业规模达2137亿元,预计2028年市场规模将达到8110亿元,年复合增长率为32
.9%。
(2)训练数据作为AI发展和演进“燃料”的作用更加凸显,并逐渐成为大模型竞赛中的重要决定性要
素
在AI产业链中,算法、算力和数据共同构成技术发展的三大核心要素。算法模型从技术理论到应用实践
的落地过程依赖于大量的训练数据。训练数据越多、越完整、质量越高,模型推断的结论越可靠。过去十多
年,人工智能产业以算法为核心,通过深度学习算法的不断创新,推动人工智能产业的快速发展。但未来,
当算法发展趋于开源、算力能力大幅提升及人工智能模型从技术理论应用到更多的垂直场景,想要更快更好
提升人工智能能力,数据将发挥更重要的作用。
根据Cognilytica数据统计显示,2021年全球AI训练数据市场需求约为42亿美元,并预计到2027年这一
需求将增长到220亿美元,2021-2027年复合增长率达32%。
中国作为全球人工智能产业增速最快的国家之一,相关数据需求也在快速增长。根据艾瑞咨询的数据,
2023年中国人工智能基础数据服务市场规模为45亿元,2028年规模将达到170亿元,年复合增长率为30.4%。
(3)数据要素市场蓬勃发展,数据行业迎来更为广阔的发展机遇
党的二十届三中全会对加快构建促进数字经济发展体制和机制,完善数据要素市场制度规则等作出部署
,为中国数据要素市场化改革发展指明了方向。2023年国家数据局成立以来,我国坚持推进数据要素市场化
配置改革“一条主线”,统筹数字中国、数字经济、数字社会“三个建设”的工作思路,推动数据工作更好
服务高质量发展。同时,探索完善数据基础制度体系,加快推进数据基础设施建设,提升数据资源开发和利
用水平。国家数据局联合多部门印发“《“数据要素×”三年行动计划“(2024—2026年)》,同时印发了
“《数字中国建设2024年工作要点清单》、《数字经济2024年工作要点》,制定《关于深化智慧城市发展“
推进城市全域数字化转型的指导意见》和《数字经济促进共同富裕实施方案》,发布《数字中国发展报告(
2023年)》。
全国各地数据要素市场化配置改革也在加速推进。例如,北京市制定2024数据工作要点,在探索和实践
数据基础制度先行示范区、人工智能数据训练基地的基础上,提出“一区三中心”的建设总体思路,完善数
据基础制度,激发数据要素活力。沈阳市推动数据要素市场化配置改革,探索数据交易服务机制,实施《沈
阳市公共数据授权运营管理办法(试行)》,开展公共数据授权运营探索实践。成都市大数据集团探索精准
安全的公共数据开发运营新模式,搭建“成都市公共数据运营服务平台”,保障不同市场主体平等获取数据
要素,实现数据要素配置效益最大化、效率最优化。广州市出台了《关于更好发挥数据要素作用推动广州高
质量发展的实施意见》等文件,通过企业创新实践和举措,有效推动了数据资源向数据资产转化。
总体来看,随着“人工智能+”和“数据要素×”等国家战略行动计划的实施,全国各地均在加速推进
数据要素市场化配置改革,未来围绕数据的汇聚、生产加工、开发利用以及流通交易,将产生大量需求,将
为数据行业开拓新的增长空间。未来,数据产业将成为数字经济高质量发展的新引擎,预示着一个以数据为
关键要素的新时代的到来。
(4)训练数据领域的未来发展更为可期
随着ChatGPT、Gemini、Sora等成为全球范围内的现象级应用,人工智能迎来了新的发展机遇,其背后
的大模型技术也正在带来相关数据需求的变化和增长。
a.大模型范式下,数据需求体量指数级增长
相比于传统深度学习,大模型参数量更大,能够更充分捕捉数据之间的复杂关联,具备更强的学习能力
,类比于人脑内的神经元和突触之间连接和信息传递机制变得更为活跃,使得“脑力/智商”骤增,具备学
习和理解海量复杂数据的能力,因此,大模型通常会被喂给海量数据以充分发挥“大脑”优势。传统深度学
习技术路线下,训练一个专有小模型大约需要GB级数据,而训练一个大模型通常需要TB到PB级数据。
此外,数据需求的体量还在持续增长。模型的训练效果由模型参数、训练数据量以及计算资源共同决定
,在参数和算力供给不变的情况下,提升训练数据量,可以有效提高模型的训练效果。这一结论也持续在各
大模型上得到验证,例如,2024年上半年字节跳动发布的语音生成大模型Seed-TTS,其生成的语音和真人相
似性极高,甚至可以模拟人类的停顿、吞字等发音习惯。产品研发人员表示,该模型之所以具备较强的复刻
效果,除了模型参数上的调整,一个很重要的因素就是加大了数据使用量,之前业界所使用的语音合成数据
在成千至上万小时,而Seed-TTS所用的数据量级远大于之前。
b.大模型技术的发展催生出新型数据处理需求
大模型和深度学习模型在学习和训练方式的区别,导致大模型范式下的训练数据与传统深度学习训练数
据处理方式存在显著差异:
(1)数据处理由感知转向认知:传统深度学习更加强调事实性标注(具有单一标准答案),而大模型往
往需要标注人员进行联想和创作(强调发散思维)。以计算机视觉标注为例,过往面对一张景观图片,标注
人员只需标注出哪个是山、哪个是湖,而现在则需要对图片进行更丰富的多种维度描述,以帮助模型理解图
片含义。
(2)数据处理环节进一步延展:传统的深度学习模式下,由于数据来源大部分为定向采集,数据采集
前已经过专家设计,因此除部分质量较差的数据,剩余数据均可直接送往进行标注,清洗等预处理需求较低
;相对而言,大模型由于原料数据规模庞大,数据中存在大量重复、偏见以及错误信息,往往需对数据进行
专业化清洗,以提升数据质量并减少大模型幻觉(即生成与现实不符或无意义的内容)的发生概率。此外,
相比于传统模型的训练模式,大模型往往会使用强化学习的方式来对基础模型进行特定领域或特定方向上的
优化迭代,使得模型能够输出更符合人类认知和表达习惯的答案,因此,衍生出RLHF数据评分、Prompt改写
、创作等强化学习阶段数据需求。
(3)更加注重智能化标注:相较于传统深度学习,大模型训练数据体量呈指数级增长,传统人工为主
的标注方式无法满足大模型数据处理量大、数据质量要求高等数据处理需求,因此,大模型数据服务将更加
依赖算法的参与,需要通过提高算法能力及参与度来提升数据处理的智能化、自动化水平,实现高质高效的
数据供给。
c.人工智能技术加速向产业渗透,带动垂直行业数据需求的显著提升
随着算法技术的持续进步,人工智能在模拟人类的感知与认知方面达到了前所未有的水平。技术的飞跃
不仅巩固了AI作为跨行业赋能工具的地位,还加快了其在各个领域的应用步伐。目前,人工智能正在迅速融
入包括金融、医疗、法律等在内的多个垂直领域,推动相关行业的创新和转型。
与以往通用数据处理需求不同,垂向领域的数据处理更加注重专业性。例如,传统的自然语言处理任务
只包括基本的文本处理工作,例如,分词、词性、情感、正则化等标注需求,这些任务无需标注人员具有特
定的行业知识;相对地,开发专门针对医疗领域的自然语言处理模型,则要求标注人员不仅具备扎实的医疗
专业知识,还要能够熟练使用专业的医疗术语进行文本的表达和创作,从而使医疗模型能够理解和生成专业
的医疗内容。这种专业化的需求也对数据服务商提出了更高的要求,数据服务商不仅要对行业有深刻的理解
,以设计出符合行业需求的数据解决方案,还需要具备更丰富的专家库储备,以提供高质量的数据标注服务
以及相关专业咨询服务。
d.多模态技术发展驱动多模态数据需求快速增长
根据艾瑞研究报告,相比单一模态的大模型,多模态大模型能够提供更自然的人机交互方式,具备更全
面和准确的认知能力,并在不同情境下表现出更高的鲁棒性,从而赋能更丰富和全面的AI应用。因此,多模
态技术已成为诸多大模型厂商的研发重点,同时也将驱动多模态数据需求占比的持续提升。过往,以文本为
主要代表的单模态大模型预训练数据主要来源为公开数据、开源数据等可公开获取的数据。进入多模态时代
后,可公开获取的多模态数据(例如,语音数据、视频数据等)在质量上,往往很难满足模型训练需求。例
如,以文生图、文生视频为应用场景的大模型为例,当前公开能获取的数据往往是图片和简单的关键词的匹
配,而缺乏对图片中物理关系的详细描述,但后者恰恰是决定了这些多模态生成大模型是否能够准确理解和
描述物理世界的关键因素。此外,多模态数据种类更为庞杂,数据清洗、分类以及标注难度指数级提升,数
据处理工作具有更强的专业性。例如,Stability“AI在训练其视觉大模型SVD(“Stable“Video“Diffusi
on)时,使用了一个包含1.5亿个剪辑视频的数据集。为了筛选适合训练的高质量数据,需要从海量视频数
据中检测每个视频中的镜头和转场,并且需要分析每个镜头中的运动信息,为每个镜头提供对应的文字以及
美学效果描述。因此,多模态数据处理过程更加复杂和耗时,模型厂商更倾向于将相关数据需求释放给专业
的第三方数据服务商。未来,具备多模态数据服务能力,以及多模态数据集储备的企业将获得更多市场机会
。
e.人工智能企业全球化布局加速,多语种能力成为数据服务商全球拓展的核心支撑之一
共建“一带一路”的倡议面世十多年来,国家“一带一路”战略深入推进,国内一批具有较强创新能力
和过硬技术实力的企业,纷纷踏出国门,积极拓展海外市场,通过不断扩大企业出海战略版图,获得高速发
展机会。另一方面,境外头部企业也继续践行“全球化”战略,搭乘全球出海的快车。
随着境内、外企业的全球化扩张成为确定性趋势,多语种能力作为支撑企业顺利出海的核心要素之一,
重要意义更加凸显。未来,多语种训练数据将对客户侧在语音助手、智能汽车、智能家居、智能客服、机器
人、多语种OCR等各领域产品/应用的全球化推广将起到积极作用。因此,随着各类客户群体扩张步伐加速,
多语种需求也将快速增长,具有强大语言研究能力的数据服务企业将获得更多商业机会。
f.国家法律法规密集落地,对数据安全及合规提出更高要求
近年来,数字经济规模快速扩张,数据作为数字经济时代核心生产要素,重要性更加凸显,但数据不同
于传统生产要素,其中可能涉及关乎个人权益的个人信息以及关乎国家安全的重要数据,因此,为更好保障
数字经济长期稳定的可持续发展,建设规范、安全、合规、高质量的数据安全体系已成为迫切需求。近年来
,国家陆续出台包括《数据安全法》、《个人信息保护法》等主流法律法规,以及《促进和规范数据跨境流
动规定》等具体规范,为加强数据安全保障、净化行业快速发展中的不良乱象提供了切实可行的法律依据。
未来,随着AI技术不断革新,应用行业以及场景不断增加,各行业、各领域数据安全规范逐渐落地将成
为趋势,对于以数据生产为主营业务的数据服务企业,数据安全及合规能力将成为数据服务能力的核心评价
维度,成熟的安全合规管理体系将成为重要评价标准,能持续跟踪法律环境变化,积极响应监管政策,牢牢
把握发展与安全并重的原则的企业将具有更强的市场竞争力。
1.2行业的主要技术门槛
随着AI技术不断演进、产业应用不断丰富,训练数据的市场需求呈现体量、难度、复杂性持续上升的趋
势,数据服务商须同时具备对人工智能核心算法的理解能力、前瞻性的专业数据集设计能力、丰富的语言覆
盖能力及场景采集能力、算法辅助数据生产能力等,这使得行业的技术门槛持续提升,具体体现为:
(1)在训练数据研发、生产全流程中的算法全面介入
随着AI技术的不断演进以及应用场景的不断拓展,客户对于数据质量和处理效率的要求不断提升,数据
服务商须在数据设计、生产中引入算法以实现高效的人机协作,进而实现降本增效的目标。一般而言,算法
技术可用于训练数据集的设计及训练数据生产的各个环节,例如调度不同类型的标注人员应对不同领域的任
务、形成算法自动处理能力以帮助标注人员提升效率、降低人员依赖,并构建训练数据设计、加工相关的核
心技术;也可用于检查训练数据集对算法模型的训练效果,进而保障训练数据集质量。
(2)平台工具链功能及适配性要求持续提升
当前,客户侧的数据采集、标注需求范围在逐渐拓宽,数据采集与标注需满足的AI应用场景比以往明显
更加广泛、复杂,这就对数据服务商的平台工具能力提出了更高要求,平台上处理过多大规模的数据、这些
处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如
何应用、数据流转的工程化程度如何等这些因素都决定了平台的适配性和能力,并最终决定了数据处理的质
量、效率、成本。
(3)语音语言学基础研究方面须有深厚积累
伴随语音技术进一步成熟、并向更多行业和垂直场景进行渗透,同时受到中国企业出海、国外企业区域
拓展等需求支撑,客户在多语种、多音色、音素集、发音规则、发音词典等方面的需求在不断抬升。而多语
种数据生产依赖大量的语音语言学基础研究,投入更多、拥有深厚积累的数据服务商才能满足客户在这方面
的多元化需求。
目前,市场上仅有极少数企业通过长期自主研发的方式能够达到上述核心技术门槛,成为有能力向不同
客户群体提供综合、高质量、高效的数据产品及服务的供应商。
2.公司所处的行业地位分析及其变化情况
作为行业的头部阵营企业,海天瑞声在经营情况、技术实力、以及以数据安全为代表的其他综合能力方
面都展示出明显优势,并具有较强国际竞争力。近年来公司紧跟AI技术发展趋势,尤其关注在客户资源、技
术实力、产品/服务等方面的竞争优势,树立国内领先基础数据服务商的品牌形象,以巩固公司的行业领先
地位。
(二)主营业务情况说明
公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对
取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,通过软件形式向客户交付。
自2005年成立以来,公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集
。经过多年发展,公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业,并实现了标
准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音(语音识别、语音合成
等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能家居、智能驾驶、智慧金融、智
能安防等多种创新应用场景。
公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三
星、中国科学院、清华大学等国内外客户的认可,应用于其研发的个人助手、智能音箱、语音导航、内容生
成、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客
户累计数量超过1000家,覆盖了科技互联网、社交、IoT、智能驾驶、智慧金融等领域的主流企业,教育科
研机构以及部分政企机构。
(三)主要产品及服务情况
1.主要产品及服务按业务类型分类
公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大AI核心领域,广泛应用于
算法模型的开发、训练、优化、应用场景拓展等环节。此外,公司还提供与训练数据相关的应用服务。
(1)智能语音
人工智能在语音领域的应用技术主要包括语音识别、语音合成等。
语音识别(AutomaticSpeechRecognition,ASR)是让机器能够“听懂”人类语音的技术,它能使机器
自动将语音信号转换为对应的文本信息。
语音合成(TexttoSpeech,TTS)是让机器能够“说出”人类语音的技术,它使机器能将文字信息转化
为流畅的语音“朗读”出来,相当于给机器安上了人工嘴巴。
以日常生活中的情景为例,语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换
为文字,实现了软件“听懂”语音并“听写”出文字的效果;而地图、导航软件则运用语音合成技术,实现
了软件“发声说话”的效果,为用户提供即时语音导航。
公司通过设计(设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设
备场景等)、采集(定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频)、加工(对音频
文件进行切分、标注各类声音特征,形成带时间戳和特征标签的文本和标注文件等)、质检(对数据集进行
质量检测,如音字一致性、标注准确率检查等)等训练数据集生产环节;或者针对客户提供的原料音频文件
执行加工、质检工作,最终形成客户所需的智能语音训练数据集。
(2)计算机视觉
计算机视觉(ComputerVision,CV)是使机器具备“看”的功能的技术,它使得智能驾驶、智能家居、
手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。
以日常生活中的情景为例,在汽车的自动驾驶功能中,计算机视觉技术使得汽车能够“看见”并识别行
车过程中的各种行人、路况场景,为后续作出相应的反应奠定基础;在机场、车站安检中,计算机视觉技术
使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。
公司通过设计训练数据集结构、采集(如定义合适的人脸、动作、场景作为采集对象,组织被采集人按
照要求拍摄照片、录制视频等)、加工(对图像、视频文件进行打点、拉框、分割标注等)、质检(对数据
集进行质量检测,如检验图片、视频文件格式是否正确,检查光照环境、物体种类的数量是否达标,打点标
框的准确率是否符合要求等);或者对客户提供的图像、视频文件执行加工、质检工作,最终形成客户所需
的计算机视觉训练数据集。
(3)自然语言处理
自然语言处理(NaturalLanguageProcessing,NLP)是以机器能够像人一样理解语言意图的技术。
以日常生活中的情景为例,寄送快递时使用的“智能填写”功能即运用了自然语言处理技术,在输入框
中填入整段联系信息,软件应用能够理解语义,并从中识别及提取“收件人”、“联系方式”、“地址信息
”等所需信息,完成自动填写;智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术,使得程
序、机器能够读懂人类语言的真正意图,并相应做出反应、提供服务等。
公司通过设计训练数据集结构、采集(收集或编写自然语言文本、对话等数据信息)、加工(对自然语
言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等)、质检(对数据集进行质量检测,
如检验文本、词性或者语义的标注结果是否准确等);或者对客户提供的自然语言文本执行加工、质检工作
,最终形成客户所需的自然语言训练数据集。
(4)训练数据相关的应用服务
公司基于自身生产的训练数据提供算法模型相关的训练服务,运用训练数据研发能力助力下游客户完成
其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定应用场景的专属算
法模型,提高AI技术应用效果。
前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结构、组织原
料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。
成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。以智能语音训练数据集为例,成品
训练数据集包含原始采集形成的音频文件、与音频文件对应的带有时间戳的标注文件,训练数据集相关的设
计文档、训练数据集说明,发音词典,数据集参数信息文件等。
2.主要产品或服务的终端应用场景
公司提供的高质量、大规模、结构化的训练数据,为算法模型的训练拓展提供了可靠的训练素材,助力
AI技术实现实践应用及商业化落地,赋能AI技术与实体经济深度融合。公司提供的训练数据广泛应用于众多
主流AI产品及终端应用的训练过程中,覆盖了个人助手、语音输入、内容生成、智能家居、机器人、语音导
航、智能客服、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧医疗、智慧教育、智慧交通、智
慧城市、智慧金融、机器翻译、智能问答、信息提取、情感分析、OCR识别等多种应用场景。
(四
|