海天瑞声:开源多模态数据集 助力数字中国建设

http://ddx.gubit.cn  2023-05-29 19:22  海天瑞声(688787)公司分析

证券时报网讯,2023年度的中关村论坛于5月25日在北京开幕。本届论坛设置了论坛会议、技术交易、展览展示、成果发布、前沿大赛和配套活动六大板块,共举办150余场活动,集中展示了人工智能、区块链、量子信息、高端制造等领域的全球最新进展和前沿科技成果。

其中,人工智能开放生态建设论坛于5月26日上午举办。AI训练数据龙头服务商海天瑞声CEO王晓东受邀出席该论坛,并发表了题为《共享开放数据助力数字中国建设》的演讲,宣布海天瑞声将开放多模态数据集。此外,海天瑞声将在A馆1018中关村科技城展台展示公司产品和解决方案。

开放生态是全球人工智能发展的大势所趋,尤其是AI算法的优化和模型的训练需要足够优质和丰富的数据集支持,因此共享数据集就成为AI开放生态系统中非常关键的一环,对行业的推动作用也变得至关重要。在此背景下,海天瑞声在本次大会上宣布开放共享数据集就更显得意义重大。

王晓东表示,作为AI数据行业里首家上市公司,海天瑞声天然肩负着开源开放、推进数据资源整合共享的社会责任。开源数据集可以帮助各领域的研究者和开发者快速获得更多高质数据样本,进而提高模型的精准度和鲁棒性,帮助他们更好地进行算法研究和模型训练。此次即将开源的多模态数据集「DOTS-MM-0526」涵盖图像、语音、文本等多个维度。海天瑞声希冀与全球AI开发者和研究人员建立更加紧密的合作关系,共同推动人工智能技术的发展和应用。同时,开源数据集计划亦是公司对于AI开放生态的一次有益尝试,是公司在数据智能化应用领域持续发力的体现。

去年年底以来,ChatGPT、GPT-4等大模型接二连三地发布,让我们加速走进了大模型时代,并真切地感受到了其与日俱增的能力。众所周知,大模型也需要进行训练,那么在此过程中与数据相关的工作,与此前有什么不同呢?

对此,海天瑞声CTO黄宇凯认为,从大方向上来看并没有什么不同,还是需要先提出数据方案,然后进行设计,再执行采集、标注等一系列的工作流程,最终目标也是让客户能够基于所提供的数据,训练出效果良好的模型。

其中,不一样的地方在于,不同企业关注的侧重点不同。比如,大模型主要分为预训练和强化学习两个阶段,这两个阶段对数据都有很高的要求。就前者而言,虽然大模型对应的是大数据,但却并不是数据越多越好,还要执行数据清洗的步骤。数据公司必须掌握如何清洗、向哪个方向清洗,才能更好地应用于大模型的基础能力。对于后者来说,进行强化学习需要撰写对应的提示词,这对数据标注人员的逻辑思维能力和表达能力也有较高的要求。

据了解,海天瑞声组建了专门的团队,对欧盟颁布的《通用数据保护条例》、我国颁布的《数据安全法》和《个人信息法》等法规法规进行了深刻的研究,并制定了高于国家法律的数据合规要求。会上,王晓东还隆重发布了海天瑞声企业品牌焕新战略:公司将启用全新Logo,英文名称将从“SpeechOcean”改成“DataOcean AI”,中文名“海天瑞声”不变。

王晓东表示:“此次品牌升级不仅是一个简单的改名,它还代表着海天瑞声将在数据科技和人工智能领域的进一步发展和探索。”他进一步阐述道,海天瑞声因优质海量的智能语音数据被大家所熟知,但近些年来随着人工智能技术的不断迭代与发展,海天瑞声的业务已从单纯的语音领域服务,扩展至提供覆盖语音、计算机视觉、自然语言处理和多模态的数据解决方案及成品数据集,未来还将支持以数据驱动的生成式AI业务发展。显然海天瑞声早已不再局限于“语音Speech”而是更广阔的“数据Data”海洋。为更好地反映公司的业务范围和技术实力,海天瑞声对企业品牌进行了升级,以更好地满足客户全方位需求。

而品牌升级背后,海天瑞声全新的战略布局也逐渐清晰呈现。据了解,自2005年成立以来,海天瑞声就一直在为AI产业链上的各类机构提供AI算法模型开发训练所需的专业数据集。目前这些数据集已覆盖智能语音、计算机视觉、自然语言等AI核心领域。经过多年深耕,海天瑞声的产品和服务已获得阿里巴巴、腾讯、三星等国内外头部客户的认可,并在自动驾驶、虚拟主播、声纹识别、人脸姿态等众多人工智能场景及相关算法模型的训练过程中获得应用。

随着数据要素作为国家级战略资源地位不断凸显,数据相关企业也肩负起未来数字化基建的重大责任。因此,无论是业务领域的自然扩展还是主动更名的品牌升级,都无疑在证明着一点,即海天瑞声在保障基础数据业务稳健发展的同时已找到新的业绩增长点并不断发力。从近期其在自动驾驶业务的接连动作可以看到海天瑞声正在发力聚焦自动驾驶赛道,通过平台、算法研发以及数据安全能力的持续建设,不断将之打造成为公司核心竞争力之一,使之成为公司第二增长曲线。

基于海量数据构建一套强大的数据链驱动系统,是自动驾驶技术发展过程中的必要环节。而要想推动该系统高效运转就少不了数据采集、管理、标注、质检和仿真等环节的支持和相互配合。

自动驾驶领域是海天瑞声着重进行业务布局和彰显技术实力的核心领域之一。就在上个月18日,海天瑞声正式推出“DOTS-AD自动驾驶平台”。 据海天瑞声CTO黄宇凯介绍,这是一款专为自动驾驶场景设计的全栈式数据平台,能够支持多维度、全方位的自动驾驶标注任务,数据标注效率提升高达8倍。支持万人同时作业,能够解决项目经理和标注员的使用痛点,提升标注效能,且支持多元化部署。

特别要提到的是该平台的四大核心功能:一是全面支持自动驾驶领域各维度2D/3D/4D点云或图像数据标注;二是能针对不同场景支持辅助标注/自动化标注;三是支持项目的柔性管理,支持流程/工具/标签的自定义;四是可实现对数据的智能化管理,确保客户的商业敏感数据安全合规。基于这些核心功能,海天瑞声正建立起在智能驾驶数据训练领域的核心壁垒,也将赋能自动驾驶技术走迈向新高度。

数据作为人工智能发展的重要一环,大模型的出现为数据需求带来了新的挑战和机遇。王晓东在此次中关村论坛上还表示,公司将坚持以“做智能世界的数据基石”为使命,积极与各方共同推动人工智能技术的发展和应用,促进企业数字化、智能化进程的加速推进,为建设数字经济和智能社会做出贡献。(燕云)