要点一: 所属板块 计算机 IT服务Ⅱ IT服务Ⅲ 北京板块 百元股 专精特新 沪股通 融资融券 人形机器人 智谱AI概念 AI语料 数据要素 算力概念 ChatGPT概念 AIGC概念 机器视觉 互联网服务 抖音概念(字节概念) 百度概念 小米概念 车联网(车路云) 无人驾驶 人工智能
要点二: 经营范围 技术开发、技术服务、技术咨询、技术转让、技术推广;销售计算机、软件;货物进出口、技术进出口;出租办公用房;经营电信业务、增值电信业务、互联网信息与服务业务;职业中介活动;业务培训。
要点三: 智能语音 公司通过设计(设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设备场景等)、采集(定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频)、加工(对音频文件进行切分、标注各类声音特征,形成带时间戳和特征标签的文本和标注文件等)、质检(对数据集进行质量检测,如音字一致性、标注准确率检查等)等训练数据集生产环节;或者针对客户提供的原料音频文件执行加工、质检工作,最终形成客户所需的智能语音训练数据集。
要点四: 计算机视觉 公司通过设计训练数据集结构、采集(如定义合适的人脸、动作、场景作为采集对象,组织被采集人按照要求拍摄照片、录制视频等)、加工(对图像、视频文件进行打点、拉框、分割标注等)、质检(对数据集进行质量检测,如检验图片、视频文件格式是否正确,检查光照环境、物体种类的数量是否达标,打点标框的准确率是否符合要求等);或者对客户提供的图像、视频文件执行加工、质检工作,最终形成客户所需的计算机视觉训练数据集。
要点五: 自然语言处理 公司通过设计训练数据集结构、采集(收集或编写自然语言文本、对话等数据信息)、加工(对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等)、质检(对数据集进行质量检测,如检验文本、词性或者语义的标注结果是否准确等);或者对客户提供的自然语言文本执行加工、质检工作,最终形成客户所需的自然语言训练数据集。
要点六: 训练数据相关的应用服务 公司开放基于多年行业经验打磨的数据处理工具集及平台,提供包括公有云访问、私有化部署及SaaS化服务的多种能力,满足产业链上各类企业对于数据处理工具及平台能力的需求。
要点七: 训练数据作为AI发展的“燃料”作用更加凸显,成为大模型竞赛中的重要决定因素 根据Cognilytica数据统计显示,预计2027年全球AI训练数据市场规模将增长到220亿美元,2021-2027年复合增长率达32%。 中国作为全球人工智能产业增速最快的国家之一,对高质量训练数据的需求持续攀升。国务院《关于深入实施“人工智能+”行动的意见》及国家数据局相关方案明确提出,将持续加强高质量数据集建设,重点布局多模态、具身智能、推理思维链及长视频数据等方向。在产业和政策双轮驱动下,中国AI基础数据服务市场进入加速增长通道。 根据艾瑞咨询的数据,2024年中国人工智能基础数据服务市场规模为58亿元,2028年规模将达到170亿元,年复合增长率为30.84%。
要点八: 数据要素价值加快释放,数据产业已成为数字经济发展新增长点 国家数据要素市场化配置改革已进入系统深化阶段。2024年1月,财政部《企业数据资源相关会计处理暂行规定》正式施行,数据资产入表从自选动作转变为规定动作。同年,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》(国数政策〔2023〕11号),选取工业制造、金融服务、医疗健康等12个行业和领域,推动发挥数据要素乘数效应。《关于促进数据产业高质量发展的指导意见》《关于促进数据标注产业高质量发展的实施意见》等21项政策和指导意见陆续发布,明确到2029年数据产业规模年均复合增长率超15%。从数据基础制度建设年到数据改革攻坚年,国家数据局进一步明确将2026年定调为“数据价值释放年”,加强高质量数据建设,持续支撑人工智能创新发展。
要点九: 研发优势 公司拥有同行业具有竞争力的综合研发实力,截至报告期末,公司研发团队规模为61人,研发能力全面覆盖平台工具开发、算法研究、产品设计等多条主线。公司核心研发人员均曾服务于全球顶尖科技企业或毕业于名校,组成了公司坚实的研发领导核心力量。同时,多年来,公司积累了较为完备的综合性、一体化数据处理平台及工具体系,覆盖智能语音、计算机视觉、自然语言等全业态领域,可服务于市面上绝大多数数据处理场景需求,包括但不限于智能驾驶、智能家居、个人助手、文旅应用、内容生成等场景。公司还设置了专门的产品研发部门,可及时应对大模型时代加速变化的技术变革、前瞻性挖掘和布局新兴市场需求、抢占市场先机。此外,基于公司在训练数据领域多年积累下的大量、多元化数据以及数据处理经验,通过算法平台团队与数据业务团队无缝衔接,公司可更好完成预识别算法性能提升,实现少量数据注入->算法训练->标注员反馈->模型生成->处理大量数据的自闭环体系,助力公司做大规模、提升效率、降低成本。同时,20多年数据行业的从业经验积累,使得公司具备较强的数据生产工程化能力,可助力公司大幅缩短数据研发及生产周期,为公司抢占市场提供了有力支撑。上述因素共同驱动公司构建较高的行业技术壁垒。
要点十: 产品优势 公司基于20多年数据服务经验、以及对客户需求的深刻理解,持续开拓标准化数据集,自有知识产权的训练数据产品储备达到1,877个,全面覆盖智能语音、计算机视觉、自然语言等多条业务线。这些高质量数据集可全面支持智能客服、个人助手、数字人等前沿AI应用场景的研发落地。特别值得一提的是,我们的标品数据已支持超300种语言/方言,能够充分满足全球AI企业的多语言需求,为客户的国际化战略提供强有力的数据支撑。
要点十一: 语音语言学能力优势 随着境外客户全球化扩张以及境内客户出海成为新的行业发展趋势,多语种能力成为数据服务领域的核心竞争力之一,而语音语言学储备则是实现多语种拓展的重要前提。经过20年积累,公司已沉淀下深厚的语音语言学基础研究成果,并已将其运用至构建高质量的智能语音、以及多模态训练数据。在语音语言学基础研究领域,公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累,以及不断创新的发音词典构建技术和流程技术。截至报告期末,公司已经拥有超过300个语种/方言的覆盖能力,不仅包括英、法、德、意、西、日、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时,公司已积累下近140个多语种的发音词典,覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种,累计词条数超过1,200万条,可支撑构建高质量的智能语音、以及多模态训练数据,是公司的主要竞争壁垒及核心技术之一。
要点十二: 数据安全及合规能力优势 海天瑞声自成立之初即把数据安全、数据合规视为生命线,公司在多年的数据风险识别和管理实践中,已经形成了较为成熟的安全、合规管理体系。资质方面,公司拥有ISO27001信息安全管理体系认证、ISO27701隐私信息管理体系认证、ISO42001人工智能管理体系认证证书、ISO20000信息技术服务管理体系、国家信息系统安全等级保护三级备案、北京市规划和自然资源委员会行政许可乙级测绘资质等。行业参与方面,公司入选中共中央网络安全和信息化委员会办公室“人工智能企业典型应用案例”,相关业务和数据安全实践受到《人民日报》等权威媒体报道和关注。公司为中国信通院数据安全推进计划成员单位,董事兼总经理李科连续入选该计划数安智库专家,其所参与、领导的公司数据安全工作,受到《北京日报》等权威媒体报道。此外,公司积极参与行业发展,入选国家标准《信息技术人工智能术语》核心参编单位、《人工智能数据标注平台技术要求和测试方法》核心参编单位,数据安全能力获得认可并产生广泛、积极的行业影响。
要点十三: 获得政府补助 2022年11月8日公司对外公告,公司及下属控股子公司自2022年8月19日至本公告披露之日,累计获得政府补助款项326.24万元,均属于与收益相关的政府补助。公司根据《企业会计准则第16号--政府补助》的有关规定,确认上述事项并划分补助类型。上述政府补助预计对公司2022年度利润产生一定积极影响,上述政府补助未经审计,具体的会计处理以及对公司2022年度损益的影响情况仍须以会计师年度审计确认后的结果为准。