要点一: 所属板块 互联网服务 北京板块 百元股 专精特新 融资融券 预亏预减 机构重仓 ChatGPT概念 机器视觉
要点二: 经营范围 技术开发、技术服务、技术咨询、技术转让、技术推广;销售计算机、软件;货物进出口、技术进出口;出租办公用房。(市场主体依法自主选择经营项目,开展经营活动;依法须经批准的项目,经相关部门批准后依批准的内容开展经营活动;不得从事本市产业政策禁止和限制类项目的经营活动。)
要点三: AI训练数据的研发设计、生产及销售业务 公司主要从事AI训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,通过软件形式向客户交付。
要点四: 软件和信息技术服务业 根据国家统计局《战略性新兴产业分类(2018)》,公司所从事的训练数据生产业务属于“新一代信息技术产业—新兴软件和新型信息技术服务—新型信息技术服务—信息处理和存储支持服务—数据加工处理服务”行业,是国家重点支持的“新一代信息技术领域”的战略性新兴产业。公司通过设计训练数据集结构、执行数据采集、加工处理过程,生产用于算法模型开发训练用途的专业数据集,并以软件形式向客户交付,所属行业为软件和信息技术服务业。根据中国证监会颁布的《上市公司行业分类指引》(2012年修订),公司所属行业为“软件和信息技术服务业”,行业代码为“I65”。
要点五: 长期投入构筑研发与技术壁垒 公司历来重视研发、技术工作,近年来更是加大研发投入的力度,全面提升公司的算法能力、工程化数据生产能力,持续加深算法辅助能力与人工工作的结合,达到更佳的人机协作,不断向训练数据生产智能化方向演进,助力公司做大规模、提升效率、降低成本。经过长期积累,公司在平台工具方面总体处于行业领先地位,一方面是基于公司持续且不断加大的研发团队建设和研发投入,另一方面是基于公司在训练数据领域多年积累下大量、多元化数据以及数据应用经验,通过这样的积累,持续迭代平台工具的适用性,并持续训练底层算法,形成适配性和功能性都更优的模型,可以做到少量数据注入->算法训练->标注员反馈->模型生成->处理大量数据的自闭环体系,在数据处理这个场景下,实现最佳的算法和平台能力,并驱动公司整体研发与技术实力不断迭代向前。2022年上半年,公司成功入选中国国际大数据产业博览会“十佳大数据案例”,该案例评选工作为我国大数据技术攻关、应用及模式创新起到了产业引领作用,充分展示出公司在数据技术自主创新和融合应用上的最佳实践。
要点六: 标准化数据集产品资源积累深厚、独具优势 标准化训练数据集产品的知识产权由公司享有,具有一次性研发生产、可重复多次销售的特点,是公司区别于众多竞争对手的一个优势亮点。报告期内,公司新增研发百余个训练数据集产品,自有知识产权的训练数据产品储备超过1,050个,全面覆盖智能语音、计算机视觉、自然语言、智能驾驶等业务线。持续构建标准化训练数据集产品资源集群一直是公司坚持的重点方向之一,公司开发大量通用型、复卖率高的标准化数据集产品,通过多次授权售卖为公司带来持续性利润,实现训练数据产品的规模化效应。
要点七: 拥有较强的语音语言学基础研究能力及丰厚沉淀 语音语言学领域的专业知识是构建高质量语音识别算法和语音合成算法的关键要素。经过多年积累,公司积累有深厚的语音语言学基础研究成果,并已将其运用至构建高质量的智能语音训练数据。在语音语言学基础研究领域,公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累,以及不断创新的发音词典构建技术和流程技术。截止报告期末,公司已经拥有190个语种/方言的覆盖能力,不仅包括含英、法、德、意、西、日、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种的服务上具备竞争优势。同时,公司已积累下超过100个语种/方言的发音词典,覆盖希伯来语、乌尔都语、缅甸语、阿姆哈拉语、普什图语、阿尔巴尼亚语、格鲁吉亚语等小语种,累计词条数超过1,000万条,可支撑构建高质量的智能语音训练数据,是公司的主要壁垒及核心技术之一。
要点八: 获得政府补助 2022年11月8日公司对外公告,公司及下属控股子公司自2022年8月19日至本公告披露之日,累计获得政府补助款项326.24万元,均属于与收益相关的政府补助。公司根据《企业会计准则第16号--政府补助》的有关规定,确认上述事项并划分补助类型。上述政府补助预计对公司2022年度利润产生一定积极影响,上述政府补助未经审计,具体的会计处理以及对公司2022年度损益的影响情况仍须以会计师年度审计确认后的结果为准。