海天瑞声宣布开源多模态数据集 助力数字中国建设
本报记者 向炎涛
在5月26日举行的中关村论坛人工智能开放生态建设论坛上,AI训练数据服务商海天瑞声CEO王晓东发表题为《共享开放数据 助力数字中国建设》的演讲,并宣布海天瑞声将开放多模态数据集。此外,海天瑞声还将在A馆1018中关村科技城展台展示公司的产品和解决方案。
王晓东表示,作为AI数据行业里首家上市公司,公司肩负开源开放、推进数据资源整合共享的社会责任。此次即将开源的多模态数据集(DOTS-MM-0526)涵盖图像、语音、文本等多个维度。海天瑞声希望与全球AI开发者和研究人员建立更加紧密的合作关系,共同推动人工智能技术的发展和应用。同时,开源数据集计划亦是公司对于AI开放生态的一次有益尝试,是公司在数据智能化应用领域持续发力的体现。
会上,王晓东还隆重发布了海天瑞声企业品牌焕新战略:公司将启用全新Logo,英文名称将从“SpeechOcean”改成“DataOcean AI”,中文名称“海天瑞声”保持不变。
王晓东表示:“此次品牌升级,不仅仅是一次简单的改名,还代表海天瑞声将在数据科技和人工智能领域进一步发展和探索。”海天瑞声因优质海量的智能语音数据被大家所熟知,但近年来随着人工智能技术的不断迭代与发展,海天瑞声的业务已从单纯的语音领域服务扩展至提供覆盖语音、计算机视觉、自然语言处理和多模态数据解决方案及成品数据集,未来还将支持以数据驱动的生成式AI业务发展。为更好地反映公司的业务范围和技术实力,海天瑞声对企业品牌进行了升级,以更好地满足客户的全方位需求。
品牌升级背后,海天瑞声全新的战略布局也逐渐清晰。自2005年成立以来,海天瑞声就一直在为AI产业链上的各类机构提供AI算法模型开发训练所需的专业数据集。目前这些数据集已覆盖智能语音、计算机视觉、自然语言等AI核心领域。经过多年深耕,海天瑞声的产品和服务已获阿里巴巴、腾讯、三星等国内外互联网头部企业客户的认可,并在自动驾驶、虚拟主播、声纹识别、人脸姿态等众多人工智能场景及相关算法模型的训练过程中获得应用。
自动驾驶领域是海天瑞声着重进行业务布局、彰显其技术实力的核心领域之一。2023年5月18日,海天瑞声正式推出“DOTS-AD自动驾驶平台”。据海天瑞声CTO黄宇凯介绍,这是一款专为自动驾驶场景设计的全栈式数据平台,能够支持多维度、全方位的自动驾驶标注任务,数据标注效率提升8倍;支持万人同时作业,能够解决项目经理和标注员的使用痛点,提升标注效能,且支持多元化部署。
特别要提到的是该平台的四大核心功能:一是全面支持自动驾驶领域各维度2D/3D/4D点云或图像数据标注;二是能针对不同场景支持辅助标注/自动化标注;三是支持项目的柔性管理,支持流程/工具/标签的自定义;四是可实现对数据的智能化管理,确保客户的商业敏感数据安全合规。基于这些核心功能,海天瑞声建立起在智能驾驶数据训练领域的核心壁垒,也将赋能自动驾驶技术走迈向新高度。
去年年底以来,ChatGPT、GPT-4等大模型接二连三地发布,海天瑞声CTO黄宇凯认为,大模型与其他数据训练不一样的地方在于,不同企业关注的侧重点不同。比如,大模型主要分为预训练和强化学习两个阶段,这两个阶段对数据都有很高的要求。就前者而言,虽然大模型对应的是大数据,但并不是数据越多越好,还要执行数据清洗的步骤。数据公司必须掌握如何清洗、向哪个方向清洗,才能更好地应用于大模型的基础能力。对于后者来说,进行强化学习需要撰写对应的提示词,这对数据标注人员的逻辑思维能力和表达能力也有较高要求。
对于一家数据公司来说,数据安全与合规是其底线,也是立身之本。因此,海天瑞声组建了专门的团队,对欧盟颁布的《通用数据保护条例》、我国颁布的《数据安全法》和《个人信息法》等法律法规进行了深刻研究,制定了更严格的数据合规要求。公司要求所有员工,在严格遵循当地法律法规的基础上,开展包括数据采集、标注等在内的具体工作。
(编辑 汪世军)