对话海天瑞声:高质量AI训练数据如何得到丨2023数字中国年度对话
海天瑞声是A股稀缺的数据标注智能工厂,也是国内领先的AI训练数据专业提供商。在AI大模型百舸争流时代,能够提供高质量的AI训练数据。
作为AI三要素之一,数据的积累和质量对AI大模型的训练起到了决定性作用。
训练数据生产过程主要包括四个环节:设计、采集、加工(数据标注)及质检。其中,数据标注需要识别语音、图像、文本、视频等原始数据,并添加标签为机器学习模型指定上下文,帮助其做出准确的预测。
艾瑞咨询数据显示,包括数据采集、数据处理(标注)、数据存储、挖掘等模块在内的AI基础数据服务市场,将在未来数年内持续增长,到2025年,国内AI基础数据服务市场的整体规模预计将达到101.1亿元,增速将达31.8%(2024-2025年)。
数据采集需要大量人工来完成,数据标注以模型自动数据标注,叠加人工标注的方式为主流。因此对于训练数据厂商来说,研发出优越的标注模型、提供高质量的AI训练数据,是其竞争力的直接体现。在AI数据这一百亿市场中,海天瑞声(688787.SH)是A股稀缺的数据标注智能工厂,也是国内领先的AI训练数据专业提供商。
以下为部份采访实录(经整理):
第一财经:AI训练需要数据标注,AI大模型的爆火提升了数据标注需求。这个行业最近几年发展有哪些明显的变化?
数据行业的发展,伴随着AI技术路线的演进。高质量、多样性、多模态、行业数据方向都是近年来数据需求的趋势。以下三方面变化较为显著:
一是从大规模到高质量。随着人工智能技术的快速发展,对数据质量的要求也越来越高。从海量数据转向高质量数据,高质量的标注数据能够提高AI大模型的准确性和性能,更好地满足实际应用场景的需求。
二是从单模态到多模态。多模态数据能够为AI模型提供更丰富的信息,从而提高模型的理解能力和分析能力。近年来,从单一的文本、图像或语音等单模态数据需求,逐渐转向多模态数据需求,如文生图、文生音和图成文等。
三是标注人员也发生了变化。随着数据需求的升级,标注人员的角色也在发生变化,需要更专业的团队来完成高质量的标注任务。数据标注人员已经从最初的普通标注员,逐渐转向需要更高知识背景的专业人员,更为专业的领域还需要行业专家进行标注。
第一财经:不同行业的数据标注know how需要多长时间的积累?
不同行业的数据标注know how所需的时间积累,会根据项目类型、行业特点和数据复杂程度有所不同。
语音标注:语音标注涉及到音频的处理,包括标注、裁剪、转录等。对于一般的语音识别项目,标注人员可能需要在一段时间内熟悉标注流程和规范。对于小语种、方言、语种混杂等项目,则需要具备专业的语言能力,确保标注的准确性和有效性。
文本标注:针对情感分析、文本分类等任务,通过一定的训练和实践,标注人员可以快速掌握标注技巧。在专业性较强的领域,如医学、法律、金融等,需要拥有专业知识背景的人员才能完成较高的标注质量。
图像标注:对于一般性的图像分类项目,如标注物体、场景等,标注人员可以在较短时间内完成高质量的数据标注。而对于更复杂的任务,如细粒度分类、检测、分割等,则需要更长时间的积累和实践,以提高标注质量和准确性。
多模态标注:视频标注涉及到多个方面的技能,如视频分析、物体检测、跟踪等。对于简单的任务,例如视频分类,标注人员在一段时间内可以掌握技巧。而对于更复杂的任务,如行为识别、交通监控等,需要更长时间的积累。
例如在自动驾驶领域,3D点云数据的处理和分析相对复杂,包括点云的清洗、去噪、降维等。在进行标注之前,需要对数据进行预处理,以提高标注质量和效率。同时,需要系统性的对标注人员进行培训,更好的完成标注任务。
第一财经:数据标注行业的壁垒和痛点是什么?
首先是技术壁垒。一是自研数据处理平台的能力,除了数据的采集、标注、项目管理等,还包括数据存储和数据安全等维度。二是自动化标注的能力,通过人机协同的方式提升效率和准确率的同时,更好的实现成本管理。企业的技术研发能力一定程度上决定了在AI数据行业中的竞争力和市场份额。
其次是专业人才。数据标注是一个专业性很强的领域,不仅需要标注人员熟悉数据标注的流程和技术,还要具备垂直行业的专业知识背景。比如在医疗领域,标注人员需要理解医疗术语具备专业的医学知识,才能准确地进行标注。因此,培养和吸引专业领域人才,特别是具有跨学科知识背景的复合型人才,是数据标注行业的重要资源。
最后是数据安全合规。随着数据保护意识的提高,数据安全合规成为了数据行业的重要关注点。数据标注过程中会涉及个人隐私和敏感信息,需要在确保数据安全的前提下进行有效标注。企业需要建立严格的数据管理系统和遵循数据保护政策,以保证数据在整个标注过程中的安全性和合规性。
第一财经:数据标注行业是一个人力密集型行业吗?
数据标注阶段是需要人机协同的。海天瑞声作为技术驱动型企业,不断提升自动标注的准确性,减少人工干预,是我们一直以来的要求和目标。数据标注是把人类对信息的判断加载到数据上,计算机通过对数据的学习,来做出越来越趋近于人类的判断。而海量的数据标注需要有平台技术进行支撑,目前很多标注都是先通过算法进行预标注,再由人工来检查和调整。如果完全用人工来做,工作量是海量的且很难保证质量。
第一财经:目前很多厂商在做大模型的行业落地,但是行业数据获取难度很大。公司目前是否有行业数据业务?
海天瑞声在传统的语音、文本、图像、多模态数据业务的基础上,持续拓展优化包括大模型、自动驾驶在内的垂域数据服务能力。目前我们在自动驾驶、金融、医疗、政务等领域都积累了一定程度的垂直行业数据。
在自动驾驶领域,随着算法的不断迭代升级,数据处理也经历了从2D到3D,再到4D的发展。海天瑞声从2021年开始投入自动驾驶领域,并在今年4月推出了DOTS-AD自动驾驶数据平台,通过大模型来辅助数据标注,人机协同提高数据生产效率。在金融领域,智能客服的应用日益广泛,海天瑞声通过大模型赋能文本数据处理项目,生产和处理金融行业数据,覆盖金融咨询、知识问答等金融服务。
未来,我们也会把重点放在行业数据上,让模型更好的为千行百业服务。希望通过数据的力量,更好服务于我国人工智能技术的发展。