海天瑞声推千万轮对话预料库 7.9亿定增募资拟投向AI大模型训练数据集建设等项目

http://ddx.gubit.cn 2023-07-28 13:03 海天瑞声(688787)公司分析

每经记者可杨每经编辑文多

7月27日，海天瑞声宣布正式推出「中文千万轮对话语料库DOTS-NLP-216」。

海天瑞声方面分析认为，当前在中文对话领域，公开的数据集往往量少、分布有偏、价格昂贵甚至不能商用。导致一些大模型在中文对话方面的能力，相比英文对话略逊一筹。尤其是在一些需要比较深的中文语言理解能力的对话场景，无论开源的还是闭源的大模型，都往往表现不佳。

海天瑞声方面表示，真实场景采集，符合中文表达习惯的自然对话数据，将为中文大语言模型（LLM）带来新动能。

据海天瑞声方面介绍，此次发布的数据集，是一个符合中国人表达习惯的自然对话数据集，共计约1000万轮，上亿级token（标记）。

此前，海天瑞声发布公告称，拟定增募资不超过7.9亿元，其中，3.83亿元计划用于“AI大模型训练数据集建设项目”，4.07亿元计划投向“数据生产垂直大模型研发项目”。

海天瑞声在公告中表示，在人工智能产业进入以大模型为代表的新的发展时期，通过本次募投项目的实施，公司将建设一批适用性较强的大模型训练数据集，拓展潜在高增长价值的新型业务板块，并藉此进一步扩大公司业务规模；同时，以研发海天瑞声数据生产垂直大模型为核心，升级海天瑞声一体化技术支撑平台，研发并引入多项新兴技术，促进公司科技创新水平的不断提升，巩固公司的核心技术壁垒，构建长期技术实力支撑，从而进一步增强公司核心竞争力。