公司报道☆ ◇688787 海天瑞声 更新日期:2024-11-14◇ 通达信沪深京F10
─────────┬────────────────────────────────────────────────
2024-11-14 15:47│海天瑞声(688787):字节跳动一直以来是公司的重要客户
─────────┴────────────────────────────────────────────────
格隆汇11月14日丨海天瑞声(688787.SH)在投资者互动平台表示,字节跳动一直以来是公司的重要客户,公司为其提供智能语音
、计算机视觉以及自然语言等各类数据产品或服务。公司相关数据是否用于豆包,还请以字节跳动发布的相关信息为准。公司可以提
供包括但不限于文生视频等在内的各类大模型训练数据。
https://www.gelonghui.com/news/4892432
─────────┬────────────────────────────────────────────────
2024-11-12 20:01│海天瑞声:11月11日至11月12日高管吕思遥、黄宇凯减持股份合计3100股
─────────┴────────────────────────────────────────────────
证券之星消息,根据11月12日市场公开信息、上市公司公告及交易所披露数据整理,海天瑞声(688787)最新董监高及相关人员
股份变动情况:2024年11月11日至2024年11月12日公司董事吕思遥、董事黄宇凯共减持公司股份3100.0股,占公司总股本为0.0052%
。变动期间公司股价上涨8.68%,11月12日当日收盘报74.0元。
https://stock.stockstar.com/RB2024111200033629.shtml
─────────┬────────────────────────────────────────────────
2024-11-11 20:00│海天瑞声(688787)2024年11月11日投资者关系活动主要内容
─────────┴────────────────────────────────────────────────
1、请问公司三季度收入大幅增长的原因是什么?
答:2024年前三季度,公司收入为1.50亿元,同比增长44.90%,主要是受益于大模型技术的快速发展以及应用场景不断落地,以
智能终端厂商、科技互联网公司等为代表的国内外科技巨头纷纷加大多模态数据投入以支撑其智能终端、内容生成等领域的AI能力。
由此带来,以多语种、多音色为代表的智能语音业务需求、以及以指令微调、偏好对齐为代表的自然语言业务需求均同比呈现大幅增
长,整体上驱动公司营业收入同比显著增加。截至9月末,公司已为近20家境内外大模型企业、科研机构,在预训练、指令微调、偏
好对齐等方面提供了训练数据服务或标准化产品,为后续承接更大规模的大模型领域数据需求奠定基础。
2、公司前三季度净利润同比也呈现出比较好的增长,背后的原因除了收入增长外,公司是否做了其他的举措来控制费用?
答:2024年1-9月,归属于上市公司股东的净利润为378.87万元,同比增长3,590.86万元。背后的驱动因素,除了公司整体营业
收入大幅增长外,前三季度具有高毛利特点的数据集产品收入占比有所提升,驱动公司整体毛利率增加至66.83%。此外,为进一步提
升整体运营效率,公司进行了管理资源的合理配置和流程优化,使得管理费用有效降低;与此同时,公司DOTS一体化数据处理平台开
发已达到阶段性成熟状态,相关投入强度呈现自然回落;同时,部分账龄较长的大额应收账款在报告期间完成回款,信用减值损失大
幅降低,以上因素共同驱动公司前三季度净利润同比大幅增长。
3、看到公司前三季度境外收入快速增长,除了三季报里讲到的行业侧的多模态大模型的驱动外,公司本身在境外做了哪些布局
和投入?
答:为更好把握行业机遇、进一步扩大全球客户辐射范围,公司从体系搭建、市场研究、品牌升级、营销推广等多维度提升业务
、客户触达及服务能力。前三季度,公司持续加强境外销售团队建设,进一步织密客户服务网络;同时,通过参与包括 Web Summit
Qatar、ICASSP、AI EXPO TOKYO、Autosense and InCabin 及 CVPR 等全球知名行业及学术顶会,以及布局搜索广告投放、社交媒体
矩阵等多类宣传渠道等方式,向全球市场展示公司先进技术实力及创新产品,提升行业影响力和美誉度。2024年,公司全新发布海外
官网,全面升级官网服务模式,通过搭建marketplace,便捷用户目标服务/产品的选择,有效提升新客户拓展以及订单转化率。
4、前三季度,公司在大模型领域进行了哪些投入?
答:公司继续加大大模型数据方向的研发投入,增厚大模型领域的数据储备,已完成并持续建设包括“大语言模型中文对话预训
练数据集”、“语音大模型(声音复刻、歌曲)微调数据集”、“语音大模型(多语种)预训练及微调数据集”、“视觉大模型(图
像-文本)预训练及微调数据集”、“视觉大模型(视频-文本)预训练及微调数据集”等在内的多领域大模型数据集。同时,针对大
模型在特定行业的应用需求,公司重点开发了医疗、金融、法律、艺术等垂直领域的标注资源,形成垂直领域专家库,为公司提供高
质量行业数据服务奠定坚实基础。与此同时,为更好理解大模型技术方向,公司通过前瞻性研究,探索大模型数据的规模化生产方式
。公司已和清华大学联合启动多语种语音大模型研发计划,该项目将基于最新的语音大模型框架技术,自研多语种数据清洗技术,训
练多个不同规模的语音大模型,有效提升多语种语音数据处理的效率和准确性。
5、三季报中有提到,境内、外客户购买了公司很多语音数据,请问公司在智能语音数据方面的储备和进展如何?
答:语音一直以来都是公司的优势领域,公司已沉淀下深厚的语音语言学基础研究成果,并已将其运用至构建高质量的智能语音
、以及多模态训练数据。在语音语言学基础研究领域,公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累,以及不
断创新的发音词典构建技术和流程技术。目前,公司已经拥有超过205个语种/方言的覆盖能力,不仅包括含英、法、德、意、西、日
、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同
时,公司已积累下超过130个多语种的发音词典,覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳
语、达利语等小语种,累计词条数超过1,200万条,可支撑构建高质量的智能语音、以及多模态训练数据,是公司的主要竞争壁垒及
核心技术之一。
6、智能终端的AI agent出来之后,对数据需求有什么变化?
答:智能终端侧的AI agent将成为继智能驾驶之后又一个重要的AI落地场景,会带来新型的数据需求。首先,智能终端agent需
要能够处理和理解来自终端场景的多样化数据,因此需要获取相册中的照片、视频、以及短信和电子邮件内容,通过这些数据的学习
,使得AI agent能够深入解读和响应终端的文本和图像信息。其次,为了模拟和执行人类的操作行为,AI agent需要大量的各类应用
的操作数据,来训练其对各类操作流程的理解。此外,AI agent必须能够理解和响应各种语音输入,这也激发了对多语种、多音色和
多风格语音数据的进一步需求。针对以上AI agent多样化的数据需求,海天瑞声均具备设计、采集、加工等数据服务能力。
7、强化学习阶段的数据需求,今年有什么变化趋势?
答:目前来看,随着各大模型的陆续上线,强化学习环节的整体数据需求在逐渐攀升,并在具体标注任务上呈现如下趋势:
(1)逐渐向更多垂类拓展(例如,法律、金融、医疗);
(2)强化学习标注的评价/评分指标变得更为丰富,会要求标注人员从更多维度对模型的问答进行评判和打分;
(3)由单模态向多模态转变:23年主要的标注需求集中在文本类标注,今年开始逐步向多模态拓展(例如,文本-视频、文本-
图像等)
https://data.tdx.com.cn/zxfile/pdf_tb_news_jgdyxx/202411/52989688787.pdf
─────────┬────────────────────────────────────────────────
2024-11-07 20:01│海天瑞声:11月7日高管吕思遥减持股份合计2000股
─────────┴────────────────────────────────────────────────
证券之星消息,根据11月7日市场公开信息、上市公司公告及交易所披露数据整理,海天瑞声(688787)最新董监高及相关人员
股份变动情况:2024年11月7日公司董事吕思遥共减持公司股份2000.0股,占公司总股本为0.0033%。变动期间公司股价上涨0.66%,1
1月7日当日收盘报68.25元。
https://stock.stockstar.com/RB2024110700032376.shtml
─────────┬────────────────────────────────────────────────
2024-11-06 15:37│海天瑞声(688787):选举贺琳为董事长
─────────┴────────────────────────────────────────────────
格隆汇11月6日丨海天瑞声(688787.SH)公布,根据相关法律、法规、规范性文件及《公司章程》的规定,公司全体董事选举贺琳
女士为公司第三届董事会董事长,任期自第三届董事会第一次会议审议通过之日起至第三届董事会任期届满之日止。
https://www.gelonghui.com/news/4887116
─────────┬────────────────────────────────────────────────
2024-11-05 11:30│海天瑞声(688787)2024年11月5-7日投资者关系活动主要内容
─────────┴────────────────────────────────────────────────
1、请问公司三季度收入大幅增长的原因是什么?
答:2024年前三季度,公司收入为1.50亿元,同比增长44.90%,主要是受益于大模型技术的快速发展以及应用场景不断落地,以
智能终端厂商、科技互联网公司等为代表的国内外科技巨头纷纷加大多模态数据投入以支撑其智能终端、内容生成等领域的AI能力。
由此带来,以多语种、多音色为代表的智能语音业务需求、以及以指令微调、偏好对齐为代表的自然语言业务需求均同比呈现大幅增
长,整体上驱动公司营业收入同比显著增加。截至9月末,公司已为近20家境内外大模型企业、科研机构,在预训练、指令微调、偏
好对齐等方面提供了训练数据服务或标准化产品,为后续承接更大规模的大模型领域数据需求奠定基础。
2、公司前三季度净利润同比也呈现出比较好的增长,背后的原因除了收入增长外,公司是否做了其他的举措来控制费用?
答:2024年1-9月,归属于上市公司股东的净利润为378.87万元,同比增长3,590.86万元。背后的驱动因素,除了公司整体营业收
入大幅增长外,前三季度具有高毛利特点的数据集产品收入占比有所提升,驱动公司整体毛利率增加至66.83%。此外,为进一步提升
整体运营效率,公司进行了管理资源的合理配置和流程优化,使得管理费用有效降低;与此同时,公司DOTS一体化数据处理平台开发
已达到阶段性成熟状态,相关投入强度呈现自然回落;同时,部分账龄较长的大额应收账款在报告期间完成回款,信用减值损失大幅
降低,以上因素共同驱动公司前三季度净利润同比大幅增长。
3、智能终端的AI agent出来之后,对数据需求有什么变化?
答:智能终端侧的AI agent将成为继智能驾驶之后又一个重要的AI落地场景,会带来新型的数据需求。首先,智能终端agent需要
能够处理和理解来自终端场景的多样化数据,因此需要获取相册中的照片、视频、以及短信和电子邮件内容,通过这些数据的学习,
使得AI agent能够深入解读和响应终端的文本和图像信息。其次,为了模拟和执行人类的操作行为,AI agent需要大量的各类应用的
操作数据,来训练其对各类操作流程的理解。此外,AI agent必须能够理解和响应各种语音输入,这也激发了对多语种、多音色和多
风格语音数据的进一步需求。针对以上AI agent多样化的数据需求,海天瑞声均具备设计、采集、加工等数据服务能力。
4、看到公司前三季度境外收入快速增长,除了三季报里讲到的行业侧的多模态大模型的驱动外,公司本身在境外做了哪些布局
和投入?
答: 为更好把握行业机遇、进一步扩大全球客户辐射范围,公司从体系搭建、市场研究、品牌升级、营销推广等多维度提升业务
、客户触达及服务能力。前三季度,公司持续加强境外销售团队建设,进一步织密客户服务网络;同时,通过参与包括 Web Summit
Qatar、ICASSP、AI EXPO TOKYO、Autosense and InCabin 及 CVPR 等全球知名行业及学术顶会,以及布局搜索广告投放、社交媒体
矩阵等多类宣传渠道等方式,向全球市场展示公司先进技术实力及创新产品,提升行业影响力和美誉度。2024年,公司全新发布海外
官网,全面升级官网服务模式,通过搭建marketplace,便捷用户目标服务/产品的选择,有效提升新客户拓展以及订单转化率。
5、前三季度,公司在大模型领域进行了哪些投入?
答:公司继续加大大模型数据方向的研发投入,增厚大模型领域的数据储备,已完成并持续建设包括“大语言模型中文对话预训
练数据集”、“语音大模型(声音复刻、歌曲)微调数据集”、“语音大模型(多语种)预训练及微调数据集”、“视觉大模型(图
像-文本)预训练及微调数据集”、“视觉大模型(视频-文本)预训练及微调数据集”等在内的多领域大模型数据集。同时,针对大
模型在特定行业的应用需求,公司重点开发了医疗、金融、法律、艺术等垂直领域的标注资源,形成垂直领域专家库,为公司提供高
质量行业数据服务奠定坚实基础。与此同时,为更好理解大模型技术方向,公司通过前瞻性研究,探索大模型数据的规模化生产方式
。公司已和清华大学联合启动多语种语音大模型研发计划,该项目将基于最新的语音大模型框架技术,自研多语种数据清洗技术,训
练多个不同规模的语音大模型,有效提升多语种语音数据处理的效率和准确性。
6、三季报中有提到,境内、外客户购买了公司很多语音数据,请问公司在智能语音数据方面的储备和进展如何?
答:语音一直以来都是公司的优势领域,公司已沉淀下深厚的语音语言学基础研究成果,并已将其运用至构建高质量的智能语音
、以及多模态训练数据。在语音语言学基础研究领域,公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累,以及不
断创新的发音词典构建技术和流程技术。目前,公司已经拥有超过205个语种/方言的覆盖能力,不仅包括含英、法、德、意、西、日
、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同
时,公司已积累下超过130个多语种的发音词典,覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳
语、达利语等小语种,累计词条数超过1,200万条,可支撑构建高质量的智能语音、以及多模态训练数据,是公司的主要竞争壁垒及
核心技术之一。
7、客户什么时候会选择定制服务,什么时候会选择标准化数据集产品?
答:通常来说,客户在选择标准化数据集或定制化数据服务时的逻辑为:在客户的AI产品在上线之前及初期,因为其自身尚未产
生实网数据,通常需要采购模拟型数据集(即,标准化数据集)进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数
据之后,则会提供实网数据给到我们进行数据加工(即,定制化数据服务),加工的数据反哺到客户的产品上从而促进其产品的迭代
、升级。之后,客户需要进行产品功能或语种的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代。相较而
言,对于新兴的人工智能领域,尤其是在向细分产业或场景拓展初期,通常来讲定制化数据需求占比偏多,而后随着公司对于该领域
熟知程度的加深、且市场上假若能逐渐形成共性需求,则公司会逐步拓展该领域的标准化数据集建设。
8、训练数据产品和服务的定价模式、收费模式是什么样的?价格变动趋势如何?
答:定制服务定价模式:一般采用成本加成定价法。公司根据客户的具体服务需求预估项目成本,在预估成本的基础上,参考公
司制定的指导毛利率水平,结合项目技术难度、复杂程度、时限要求等进行报价,并根据市场环境与客户协商,最终确定价格。
产品定价模式:一般采用需求导向定价法。公司综合考虑训练数据集的开发支出、市场需求程度、预计未来重复销售的频率等因
素,制定产品标准价格及价格区间,在销售过程中,根据客户的实际需求情况,以价格区间为基础向客户报价,经双方协商确定最终
销售价格。训练数据产品通常以单个数据集为单位进行定价,定价比较灵活。
价格走势主要由市场的供需关系决定。如果某类数据为市场稀缺数据,例如具有较高进入壁垒的多模态、虚拟人等前沿类数据需
求、或传统业务里的多语种数据,都可在一定时间内维持较高的溢价水平。但在较为成熟的细分方向,比如中文智能语音数据领域,
确实存在进入者增多、价格竞争的情况。因此,未来公司将主攻有较高技术壁垒,存在较大毛利空间的细分场景,尽力避免价格竞争
带来的过度消耗。
9、项目周期一般有多久?
答:公司的项目实施周期可以分为以下2个类别:
(1)产品类数据库的周期:因为其在销售时已经是成品状态,通常1-2个月能实现收入确认;
(2)定制类服务的项目周期:根据项目实际,生产过程可能涵盖设计、采集、处理、质检等环节,平均周期在6个月左右。如果
仅为数据加工服务,则根据客户提供的数据量和难度,周期在3-9个月不等。
10、境外业务的毛利率为什么会比境内业务高?
答:首先,公司境外业务当中标准化数据集产品的销售占比相对更高一些,而标准化产品的销售毛利率为100%,远大于定制服务
毛利水平。此外,相比于境内客户,境外客户更认同数据服务商的综合能力及品牌价值、价格敏感度相对较低。以上两个因素综合导
致境外业务较高的毛利水平。
https://data.tdx.com.cn/zxfile/pdf_tb_news_jgdyxx/202411/52770688787.pdf
─────────┬────────────────────────────────────────────────
2024-11-05 08:02│【私募调研记录】复胜资产调研美芯晟、海天瑞声
─────────┴────────────────────────────────────────────────
根据市场公开信息及11月4日披露的机构调研信息,知名私募复胜资产近期对2家上市公司进行了调研,相关名单如下:1)美芯
晟(上海复胜资产管理合伙企业(有限合伙)参与公司特定对象调研&业绩说明会)个股亮点:公司的主要产品包括高集成度MCU数字控
制SoC电源--无线充电芯片,以及模拟电源--LED照明驱动芯片。
https://fund.stockstar.com/RB2024110500006562.shtml
─────────┬────────────────────────────────────────────────
2024-10-30 20:00│海天瑞声(688787)2024年10月30日投资者关系活动主要内容
─────────┴────────────────────────────────────────────────
1、请问公司三季度收入大幅增长的原因是什么?
答: 2024年前三季度,公司收入为1.50亿元,同比增长44.90%,主要是受益于大模型技术的快速发展以及应用场景不断落地,
以智能终端厂商、科技互联网公司等为代表的国内外科技巨头纷纷加大多模态数据投入以支撑其智能终端、内容生成等领域的AI能力
。由此带来,以多语种、多音色为代表的智能语音业务需求、以及以指令微调、偏好对齐为代表的自然语言业务需求均同比呈现大幅
增长,整体上驱动公司营业收入同比显著增加。截至9月末,公司已为近20家境内外大模型企业、科研机构,在预训练、指令微调、
偏好对齐等方面提供了训练数据服务或标准化产品,为后续承接更大规模的大模型领域数据需求奠定基础。
2、公司前三季度净利润同比也呈现出比较好的增长,背后的原因除了收入增长外,公司是否做了其他的举措来控制费用?
答:2024年1-9月,归属于上市公司股东的净利润为378.87万元,同比增长3,590.86万元。背后的驱动因素,除了公司整体营业
收入大幅增长外,前三季度具有高毛利特点的数据集产品收入占比有所提升,驱动公司整体毛利率增加至66.83%。此外,为进一步提
升整体运营效率,公司进行了管理资源的合理配置和流程优化,使得管理费用有效降低;与此同时,公司DOTS一体化数据处理平台开
发已达到阶段性成熟状态,相关投入强度呈现自然回落;同时,部分账龄较长的大额应收账款在报告期间完成回款,信用减值损失大
幅降低,以上因素共同驱动公司前三季度净利润同比大幅增长。
3、智能终端的AI agent出来之后,对数据需求有什么变化?
答:智能终端侧的AI agent将成为继智能驾驶之后又一个重要的AI落地场景,会带来新型的数据需求。首先,智能终端agent需
要能够处理和理解来自终端场景的多样化数据,因此需要获取相册中的照片、视频、以及短信和电子邮件内容,通过这些数据的学习
,使得AI agent能够深入解读和响应终端的文本和图像信息。其次,为了模拟和执行人类的操作行为,AI agent需要大量的各类应用
的操作数据,来训练其对各类操作流程的理解。此外,AI agent必须能够理解和响应各种语音输入,这也激发了对多语种、多音色和
多风格语音数据的进一步需求。针对以上AI agent多样化的数据需求,海天瑞声均具备设计、采集、加工等数据服务能力。
4、看到公司前三季度境外收入快速增长,除了三季报里讲到的行业侧的多模态大模型的驱动外,公司本身在境外做了哪些布局
和投入?
答:为更好把握行业机遇、进一步扩大全球客户辐射范围,公司从体系搭建、市场研究、品牌升级、营销推广等多维度提升业务
、客户触达及服务能力。前三季度,公司持续加强境外销售团队建设,进一步织密客户服务网络;同时,通过参与包括 Web Summit
Qatar、ICASSP、AI EXPO TOKYO、Autosense and InCabin 及 CVPR 等全球知名行业及学术顶会,以及布局搜索广告投放、社交媒体
矩阵等多类宣传渠道等方式,向全球市场展示公司先进技术实力及创新产品,提升行业影响力和美誉度。2024年,公司全新发布海外
官网,全面升级官网服务模式,通过搭建marketplace,便捷用户目标服务/产品的选择,有效提升新客户拓展以及订单转化率。
5、前三季度,公司在大模型领域进行了哪些投入?
答:公司继续加大大模型数据方向的研发投入,增厚大模型领域的数据储备,已完成并持续建设包括“大语言模型中文对话预训
练数据集”、“语音大模型(声音复刻、歌曲)微调数据集”、“语音大模型(多语种)预训练及微调数据集”、“视觉大模型(图
像-文本)预训练及微调数据集”、“视觉大模型(视频-文本)预训练及微调数据集”等在内的多领域大模型数据集。同时,针对大
模型在特定行业的应用需求,公司重点开发了医疗、金融、法律、艺术等垂直领域的标注资源,形成垂直领域专家库,为公司提供高
质量行业数据服务奠定坚实基础。与此同时,为更好理解大模型技术方向,公司通过前瞻性研究,探索大模型数据的规模化生产方式
。公司已和清华大学联合启动多语种语音大模型研发计划,该项目将基于最新的语音大模型框架技术,自研多语种数据清洗技术,训
练多个不同规模的语音大模型,有效提升多语种语音数据处理的效率和准确性。
6、三季报中有提到,境内、外客户购买了公司很多语音数据,请问公司在智能语音数据方面的储备和进展如何?
答:语音一直以来都是公司的优势领域,公司已沉淀下深厚的语音语言学基础研究成果,并已将其运用至构建高质量的智能语音
、以及多模态训练数据。在语音语言学基础研究领域,公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累,以及不
断创新的发音词典构建技术和流程技术。目前,公司已经拥有超过205个语种/方言的覆盖能力,不仅包括含英、法、德、意、西、日
、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同
时,公司已积累下超过130个多语种的发音词典,覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳
语、达利语等小语种,累计词条数超过1,200万条,可支撑构建高质量的智能语音、以及多模态训练数据,是公司的主要竞争壁垒及
核心技术之一。
https://data.tdx.com.cn/zxfile/pdf_tb_news_jgdyxx/202411/52284688787.pdf
─────────┬────────────────────────────────────────────────
2024-10-25 20:00│海天瑞声(688787)2024年10月25日投资者关系活动主要内容
─────────┴────────────────────────────────────────────────
北京海天瑞声科技股份有限公司于2024年10月25日在海天瑞声会议室举行投资者关系活动,参与单位名称及人员有北京证券业协
会王羽琛、蔡燕,华泰证券郭丽丽、王思佳,华林证券陈旸、李钊、张磊,山西证券李昊、高泽栋,国都证券王颖杰、安荔、邹燚,
东吴证券邹欣然、靳胜富、杨智、刘美玲,中银证券唐丝、汪亚林、韩振、沐浩,中金公司王立、郝杰灵、涂通,中金财富赵倩,上
市公司接待人员有证券部总经理张哲。
https://data.tdx.com.cn/zxfile/pdf_tb_news_jgdyxx/202410/51385688787.pdf
─────────┬────────────────────────────────────────────────
2024-10-16 08:35│海天瑞声(688787)2024年10月16日投资者关系活动主要内容
─────────┴────────────────────────────────────────────────
1、公司上半年净利润增长的原因是什么?
答:公司在上半年收入增长的同时,由于标准化数据集产品收入占比大幅提升,同时公司整体数据交付能力在管理能力、平台技
术提升、供应链进一步整合和扩展等因素的共同推动下,使训练数据定制服务的毛利率也同比显著增长,共同驱动公司整体毛利率增
加至70.34%。同时,在研发投入方面,随着首发募投项目的结项,公司在传统深度学习数据集建设等方向已达到阶段性成熟状态,整
体研发投入强度呈现自然回落;同时,在销售及管理投入方面为进一步提升整体运营效率,公司进行了资源的合理配置和流程优化,
使得销售费用以及管理费用有效降低,以上因素共同驱动公司上半年净利润大幅增长,实现扭亏为盈。
2、公司未来发展规划是什么?
答:公司将自身发展战略定位为以下三个方向:
(1)全球化业务:为更好把握国际市场需求,公司将推出一项更为全面的出海战略,涵盖技术创新、品牌升级、体系构建、市
场推广等,全面加速全球市场的拓展。公司还将建立一个海外技术研发体系,紧跟全球AI的发展动态,并积极开发与海外新兴技术相
适应的AI数据解决方案,以不断增强公司在国际市场的竞争力。
(2)智能驾驶业务:公司将积极把握智能驾驶领域的发展良机,继续升级自动驾驶数据平台DOTS-AD;同时,不断完善算法技术
,提高人机交互的数据处理效率及实现规模化效应;此外,公司会继续加强数据安全管理体系建设,确保数据处理流程的安全与合规
;并进一步有效利用已获得的测绘资质,延伸数据服务范围,以提升公司智能驾驶业务的毛利水平。
(3)新兴业务探索—大模型、数据要素:公司将持续探索围绕大模型所需数据相关服务,通过前沿技术跟踪研究,开展以预训
练、强化学习为代表的多元化数据获取、高阶垂向拓展等方向的数据服务能力建设;此外,还将探索以数据治理、数据交易、数据处
理等为核心的数据要素领域,力争将数据要素创新业务打造成为具有潜在高增长价值的新兴业务板块。
3、公司获得境外客户认可的核心竞争力是什么?
答:除了长期合作的良好口碑,公司在语音方面积累深厚,尤其是多语种方面的积累和能力,可以更好服务境外公司全球化布局
。截至今年6月30日,公司已覆盖超过200种语种/方言,不仅包括含英、法、德、意、西、日、韩等常见语种,还包括东南亚、一带
一路等国家地区的罕见多语种,尤其在亚洲多语种的服务上具备竞争优势。除核心业务能力外,公司制定了更为全面的全球化发展战
略,从品牌升级、体系搭建、团队建设、营销推广等多维度升级海外市场布局,大大提升海外客户触达和服务能力,上半年境外业务
增势显著,收入同比增长50%。
4、客户对训练数据是否有持续需求?
答:客户对训练数据本身的需求是会长期持续的。
客户的AI产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练;在产品上线
并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产
品的迭代、升级。之后,客户需要进行产品功能的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代,如此
周而复始。因此,客户对训练数据的需求是持续的,且随着应用AI技术的场景越来越多,各种场景的数据集需求会兴起,带来的是训
练数据的需求会越来越大。
5、上半年公司在大模型业务上有哪些新的布局,以及具体进展?
答:2024年上半年,公司继续加大大模型数据方向的研发投入,增厚大模型领域的数据储备,已完成并持续建设包括“大语言模
型中文对话预训练数据集”、“语音大模型(声音复刻、歌曲)微调数据集”、“语音大模型(多语种)预训练及微调数据集”、“
视觉大模型(图像-文本)预训练及微调数据集”、“视觉大模型(视频-文本)预训练及微调数据集”等在内的多领域大模型数据集
。同时,针对大模型在特定行业的应用需求,公司重点开发了医疗、金融、法律、艺术等垂直领域的标注资源,形成垂直领域专家库
,为公司提供高质量行业数据服务奠定坚实基础。与此同时,为更好理解大模型技术方向,公司通过前瞻性研究,探索大模型数据的
规模化生产方式。公司已和清华大学联合启动多语种语音大模型研发计划,该项目将基于最新的语音大模型框架技术,自研多语种数
据清洗技术,训练多个不同规模的语音大模型,有效提升多语种语音数据处理的效率和准确性。
6、24年大模型都在往多模态拓展,请问这个趋势对公司业务带来哪些影响和变化?
答:大模型向多模态发展后,将会产生更多的新型数据需求。例如文生图的多模态大模型,通过文字输入生成对应图片,这就需
要机器理解文字语义的同时将理解的关键词与图片的关键标签进行映射,通过对齐两种独立模态关键特征的方式,实现按指令的创作
,以此完成学习训练过程。因此,当大模型向多模态能力维度拓展时,高质量多模态训练数据集的持续学习训练的重要性将更加凸显
,多模态的发展将推动数据服务行业进入更大的增量空间。
7、今年公司在智能驾驶领域的技术研发上有哪些进展?
今年上半年,为更好抢抓智能驾驶行业机遇,同时应对更为复杂的数据处理需求,2024年上半年,公司加大了对高级别数据标注
工具的研发力度,截至6月底,DOTS-AD平台新增3D动静分离标注工具,BEV多图层4D车道线标注工具,并升级点云分割工具支持连续
帧叠加标注和4D分段加载等核心能力,有效支撑了自动驾驶BEV和OCC主流算法演进对数据标注工具的需求。此外,公司不断优化算法
中台中枢能力,开发了2D-3D融合的动静分离检测追踪算法,在点云连续帧融合
|