公司报道☆ ◇688787 海天瑞声 更新日期:2025-03-11◇ 通达信沪深京F10
─────────┬────────────────────────────────────────────────
2025-02-25 16:35│海天瑞声:2024年净利1121.5万元 同比扭亏
─────────┴────────────────────────────────────────────────
海天瑞声发布业绩快报,2024年度实现营业收入2.37亿元,同比增长39.46%,扭亏为盈。公司受益于大模型技术的快速发展和应
用场景落地,尤其是智能语音和自然语言业务需求大幅增长,推动营业收入显著增加。国内外科技巨头纷纷加大在多模态数据方面的
投入。
https://www.gelonghui.com/live/1840378
─────────┬────────────────────────────────────────────────
2025-02-25 16:35│海天瑞声(688787):2024年净利润1121.5万元 同比扭亏
─────────┴────────────────────────────────────────────────
海天瑞声发布2024年业绩快报,实现营业收入23,709.44万元,同比增长39.46%;归属于母公司所有者的净利润和扣除非经常性
损益的净利润分别增加4,160.02万元和4,816.57万元,由亏转盈。增长主要得益于大模型技术快速发展及应用场景落地,智能语音和
自然语言业务需求大幅增长,同时数据集产品毛利提升和信用减值损失减少也推动了净利润显著增长。
https://www.gelonghui.com/news/4944998
─────────┬────────────────────────────────────────────────
2025-02-21 16:39│海天瑞声(688787):已在多数场景下引入了智能化标注
─────────┴────────────────────────────────────────────────
海天瑞声在投资者互动平台上表示,随着AI行业的不断发展,数据需求量不断增长,数据标注的成本和效率成为算法客户关注的
重要指标。公司将智能化标注视为未来发展方向,目前已在多数场景引入智能化标注,通过算法实现高效的人机协同。未来将持续优
化算法,提升标注效率并扩大应用场景。
https://www.gelonghui.com/news/4943352
─────────┬────────────────────────────────────────────────
2025-02-18 08:02│【私募调研记录】趣时资产调研海天瑞声、竞业达
─────────┴────────────────────────────────────────────────
知名私募趣时资产近期调研了海天瑞声和竞业达两家上市公司。海天瑞声的产品和服务获得多家国内外知名企业的认可,字节跳
动一直是其重要客户;竞业达则以AI+大数据技术落地部分高校智能应用,并成为百度文心一言的首批生态合作伙伴。趣时资产成立
于2015年,专注于证券投资基金,拥有多名资深基金经理和强大的投研能力,多次获得行业奖项。本次调研的上市公司平均市盈率高
达763.28。以上内容不构成投资建议。
https://fund.stockstar.com/RB2025021800006990.shtml
─────────┬────────────────────────────────────────────────
2025-02-12 20:00│海天瑞声(688787)2025年2月12日、13日、14日投资者关系活动主要内容
─────────┴────────────────────────────────────────────────
1、2024年收入增长的驱动因素是什么?
答:受益于大模型技术的快速发展以及应用场景不断落地,以智能终端厂商、科技互联网公司等为代表的国内外科技巨头纷纷加
大多模态数据投入以支撑其智能终端、内容生成等领域的 AI 能力建设。在此背景下,以多语种、多音色为代表的智能语音业务需求
、以及以指令微调、偏好对齐等为代表的自然语言业务需求同比均呈现大幅增长,整体上驱动公司营业收入同比显著增加。
2、DeepSeek出来后,对数据需求的影响如何?是否会降低AI行业对数据的需求?
答:(1)Deepseek推出了一系列模型,其中V3模型依然使用了预训练、以及SFT等训练方式,其中预训练阶段的token使用量达
到了14.8T,远超GPT4等同类可比大模型预训练阶段的数据使用量,且在后训练阶段也使用了一定规模的标注数据,这也更加说明海
量以及高质量数据对于基础模型能力提升的重要意义。
(2)关于让大家震撼的R1模型,基于目前的公开信息来看,其部分优势体现在推理类任务上,尤其是那些具备较强的规则性、
可以推导的任务类型上,确实不需要大量的人工标注,但是对于其他领域(尤其是更为广阔的垂向领域)的复杂问题,依然需要观察
,我们认为高阶的数据专家的参与依然非常重要。
(3)此外,数据质量不仅影响模型获取和表达知识的能力,还决定了模型生成内容的风格和准确性,帮助DeepSeek实现了在输
出端的文采能力提升。
其一,高质量数据可以提升模型表达和推理能力。优质数据包含准确、连贯且富有表现力的语言样本。例如,包含CoT数据可以
引导模型在推理时进行反思,进而在生成回答时展现出清晰的逻辑和优美的语言表达。这正是DeepSeek模型能够生成既准确又具有华
丽文风的关键因素之一。
其二,高质量数据可以降低噪音和确保一致性。数据中的错误、噪音或不一致信息会导致模型生成内容出现语法或逻辑问题。高
质量的数据则能有效减少这些问题,使模型更好地学习到语言规律,从而提高整体生成质量。
其三,高质量数据可以提升泛化能力。数据的多样性和全面性使得模型在面对不同领域和任务时都能生成高质量的回答。丰富且
准确的样本帮助模型在多种场景下自如切换风格,无论是精炼的技术解答还是文采斐然的创意写作,都能游刃有余。
(4)往未来看,Deepseek模型的出现,有望进一步助推模型向产业端发展,真正让大模型技术深入滲透到各个行业中,这一过
程中必将凸显专业知识的直要性,需要更多数据、以及数据专家的参与,因此我们看好并期待未来大模型在各行业百花齐放的局面。
3、有部分专家说可用的训练教据已经用完了,未来训练数据会不会出现瓶颈?
答:可用的训练数据面临枯竭主要指的是互联网上可以直接获取的数据,而在具有更大价值量、更大体量的数据并未在互联网进
行公开展示,例如政务数据、公共数据、各垂类公司的私城数据、以及个人信息数据等,但上述教据对于模型训练尤其是模型在向垂
类以及细分场景拓展时,起到重要作用,所以,并不会存在数据枯竭的问题。未来,随着国家政策对公共数据开放、治理、流通支持
力度的特续加大,以及国家对大模型行业化拓展的持续加码,训练数据源将会持续拓展,催生更大的训练数据市场。
4、标品化的产品数据集业务与定制化服务业务的区别是什么?
答:产品数据集是先于客户需求形成的模拟数据,是公司区别于其他竞争对手的一大特色,基于公司对市场的判断和通用化需求
的提取能力,其属于是一次性投入、未来重复授权销售,对于公司的营收、毛利有着重要作用;而定制业务的需求来源是客户的定向
化需求,有些定制业务的原始数据来源是客户提供的实网数据,公司提供纯加工的服务。
客户的AI产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线
并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产
品的迭代、升级。之后,客户需要进行产品功能或语种的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代
。
5、训练数据产品和服务的定价模式、收费模式是什么样的?
答:定制服务定价模式:一般采用成本加成定价法。公司根据客户的具体服务需求预估项目成本,在预估成本的基础上,参考公
司制定的指导毛利率水平,结合项目技术难度、复杂程度、时限要求等进行报价,并根据市场环境与客户协商,最终确定价格。
产品定价模式:一般采用需求导向定价法。公司综合考虑训练数据集的开发支出、市场需求程度、预计未来重复销售的频率等因
素,制定产品标准价格及价格区间,在销售过程中,根据客户的实际需求情况,以价格区间为基础向客户报价,经双方协商确定最终
销售价格。训练数据产品通常以单个数据集为单位进行定价,定价比较灵活。
6、公司的核心竞争力主要体现在哪?
答:(1)公司的业务模式是服务产品双模式,且产品化贡献显著,是收入和毛利的主要来源,标准化数据集的研、产、销体系
是公司从业多年探索出来的业务模式,其复用性为公司的规模化和高利润率提供了保障。而保持这样的能力需要具备对行业需求的强
判断力和较强的资金实力。截至2024年6月末,公司已积累超过1,650个自有知识产权的训练数据标准化产品,数据库存量稳居全球企
业前列。
(2)技术平台能力:公司历来重视技术的研发,近年来更是加大研发投入的力度,全面提升公司的算法能力、平台能力、工程
化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同效率,这样能够做大规模、提升效率、降低成本。
(3)供应链资源管理能力:公司通过长期建设的供应链体系,保障资源的获取,未来,公司会进一步加大供应链资源平台的建
设,使人员管理、采标资源分配、质量检验、远程工作等各方面的能力得到显著提升,为客群拓展提供有力支撑。
(4)数据安全及合规能力:数据安全及合规能力已经成为了衡量品牌数据服务商综合能力的重要指标。公司在多年数据风险识
别和管理实践中,已形成了较为成熟的安全、合规管理体系。
7、公司的主要竞争对手有哪些?
答:从短期来看,公司竞对仍是传统模式下的数据服务公司,国内的主要竞争对手是一些品牌数据提供商,如数据堂、标贝以及
一些新兴公司;国外的主要竞争对手是Appen。
与竞争对手相比,海天瑞声自身还是存在显著的竞争优势的,如丰富的产品积累、成熟的数据处理技术和平台、全球化的供应链
管理能力等等。另外,从公司创业历程看,由于长期与国际性科技企业合作,对数据安全和合规的重视是深入到公司运作的方方面面
的。而数据安全和合规是需要投入较高的成本建设的,在日益完善的法律环境下,这方面的投入为公司带来了新的竞争壁垒,也将会
为公司未来在垂直行业和政企业务拓展形成有利优势。
但从长期来看,随着训练数据需求逐渐向高品质、规模化、行业化方向转变,基于自身持续研发能力建设的数据生产智能化程度
将成为数据服务商的核心竞争力,因此,未来诸如Scale AI这类具有更强技术属性的同业公司将成为海天的主要竞争对手,为此海天
自身已经开始在研发、人才等方面大规模持续投入,为未来竞争提前布局。
8、客户是否会自建数据团队?
答:有一些客户是会有自建团队的,客户自建团队主要解决其自身的部分数据需求,如敏感数据等,但受专业化分工的影响,客
户仍然会大量购买数据服务提供商的数据,尤其是那些需要投入较高研发力量的复杂数据,以充实其算法模型训练的规模性需求。
9、公司采集业务往往涉及大量终端人,请问公司是否需要获得终端人的授权?
是的,对于业务中所采集的终端人个人信息,我们按照《个人信息保护法》《数据安全法》等法律要求,依法依规进行采集。法
律要求获得授权同意的,我们会事先取得合法有效的授权,以此来保护其个人信息安全及相关合法权益。因此,公司在开展涉及个人
信息采集的业务时,会根据所适用的法律要求,并结合项目具体情况,事先准备好授权文件,供终端人了解项目情况及其所享有的权
利,终端人了解了授权文件的内容、同意作出授权并签署授权文件后,公司才会开始相关采集作业。
https://data.tdx.com.cn/zxfile/pdf_tb_news_jgdyxx/202502/57621688787.pdf
─────────┬────────────────────────────────────────────────
2025-02-07 15:58│海天瑞声(688787):暂未与DeepSeek或幻方量化有任何形式的合作
─────────┴────────────────────────────────────────────────
格隆汇2月7日丨海天瑞声(688787.SH)在投资者互动平台表示,截至目前,公司暂未与DeepSeek或幻方量化有任何形式的合作,
未来将积极尝试接洽,探索业务方面的合作可能。
https://www.gelonghui.com/news/4936282
─────────┬────────────────────────────────────────────────
2025-01-24 18:56│海天瑞声(688787):2024年净利润预盈800万元到1200万元
─────────┴────────────────────────────────────────────────
格隆汇1月24日丨海天瑞声(688787.SH)公布2024年年度业绩预盈公告,2024年年度实现归属于母公司所有者的净利润与上年同期
(法定披露数据)相比,将实现扭亏为盈,实现归属于母公司所有者的净利润800.00万元到1,200.00万元。归属于母公司所有者扣除
非经常性损益后的净利润350.00万元到500.00万元。
https://www.gelonghui.com/news/4933316
─────────┬────────────────────────────────────────────────
2025-01-15 18:04│海天瑞声(688787)2025年1月15日投资者关系活动主要内容
─────────┴────────────────────────────────────────────────
1、标品化的产品数据集业务与定制化服务业务的区别是什么?
答:产品数据集是先于客户需求形成的模拟数据,是公司区别于其他竞争对手的一大特色,基于公司对市场的判断和通用化需求
的提取能力,其属于是一次性投入、未来重复授权销售,对于公司的营收、毛利有着重要作用;而定制业务的需求来源是客户的定向
化需求,有些定制业务的原始数据来源是客户提供的实网数据,公司提供纯加工的服务。
客户的AI产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线
并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产
品的迭代、升级。之后,客户需要进行产品功能或语种的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代
。
2、公司的核心竞争力主要体现在哪?
答: (1)公司的业务模式是服务产品双模式,且产品化贡献显著,是收入和毛利的主要来源,标准化数据集的研、产、销体系
是公司从业多年探索出来的业务模式,其复用性为公司的规模化和高利润率提供了保障。而保持这样的能力需要具备对行业需求的强
判断力和较强的资金实力。截至2024年6月末,公司已积累超过1,650个自有知识产权的训练数据标准化产品,数据库存量稳居全球企
业前列。
(2)技术平台能力:公司历来重视技术的研发,近年来更是加大研发投入的力度,全面提升公司的算法能力、平台能力、工程
化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同效率,这样能够做大规模、提升效率、降低成本。
(3)供应链资源管理能力:公司通过长期建设的供应链体系,保障资源的获取,未来,公司会进一步加大供应链资源平台的建
设,使人员管理、采标资源分配、质量检验、远程工作等各方面的能力得到显著提升,为客群拓展提供有力支撑。
(4)数据安全及合规能力:数据安全及合规能力已经成为了衡量品牌数据服务商综合能力的重要指标。公司在多年数据风险识
别和管理实践中,已形成了较为成熟的安全、合规管理体系。
3、公司的主要竞争对手有哪些?
答:从短期来看,公司竞对仍是传统模式下的数据服务公司,国内的主要竞争对手是一些品牌数据提供商,如数据堂、标贝以及
一些新兴公司;国外的主要竞争对手是Appen。
与竞争对手相比,海天瑞声自身还是存在显著的竞争优势的,如丰富的产品积累、成熟的数据处理技术和平台、全球化的供应链
管理能力等等。另外,从公司创业历程看,由于长期与国际性科技企业合作,对数据安全和合规的重视是深入到公司运作的方方面面
的。而数据安全和合规是需要投入较高的成本建设的,在日益完善的法律环境下,这方面的投入为公司带来了新的竞争壁垒,也将会
为公司未来在垂直行业和政企业务拓展形成有利优势。
但从长期来看,随着训练数据需求逐渐向高品质、规模化、行业化方向转变,基于自身持续研发能力建设的数据生产智能化程度
将成为数据服务商的核心竞争力,因此,未来诸如Scale AI这类具有更强技术属性的同业公司将成为海天的主要竞争对手,为此海天
自身已经开始在研发、人才等方面大规模持续投入,为未来竞争提前布局。
4、客户也在做自己的算法,也可以用算法做预标注,海天瑞声的价值在哪里?
答:目前行业内确实存在少量客户自身利用算法进行预标注的情况,但该类客户仍有大量数据需求依赖第三方数据服务商解决。
一方面,对于已经过客户算法预标注的数据,仍将依赖第三方服务商在其预标注结果基础上进行更高难度、更加精细化的处理,以达
到更高的数据准确率。相比于客户的预标注算法,海天瑞声在部分场景下具有更优的算法预标注能力,因为公司算法迭代速度更快,
我们是以人机藕合的方式进行数据处理,我们的预标注算法能够第一时间、甚至以近乎实时的方式得到人工处理的反馈,使得预标注
算法能够在最短的时间内实现快速迭代,最大程度提升对数据的预标注效果。另一方面,由于其预标注范围仅局限于其过往积累的数
据现象,客户算法通常无法覆盖所有类型的数据标注需求,因此,对于行业较为前沿、愈加丰富的数据需求或标注场景,客户仍将依
赖专业的第三方数据服务机构进行数据处理。
5、如何定义平台功能的好坏?
答:数据处理平台是否具备较强竞争力,首先要看其功能点的覆盖程度,覆盖的功能类型越丰富,其可处理的数据场景、以及可
满足的客户需求就会越多。以智能驾驶为例,目前同时具备3D点云标注、2D-3D联合标注、4D标注以及3D语义分割标注的供应商比较
有限,能以最快速度覆盖更多功能需求的数据服务商将能更好掌握智能驾驶数据市场的主动权以及议价能力。
第二个评价要素是平台的产出效率。平台的智能化程度越高,对人的依赖程度越低,在提高平台的生产效率的同时可以大幅降低
生产成本。
第三是平台友好度,即平台操作的便捷性。便捷性越强,标注员上手越快,标注效率则越高。
从长期看,数据处理平台除了覆盖数据标注需求外,如何能与客户的算法平台连接,做好数据管理的工作,进而加速数据训练迭
代,也将是评判平台能力的因素。
6、公司如何看待合成数据这个技术?
答:数据合成技术可以作为数据采集的有效辅助,但也存在较强的局限性,降低真实世界各类特征的训练效果,因此目前仅可作
为数据采集的一种辅助方式。从目前数据服务行业来讲,以计算机视觉场景为例,合成数据主要应用于某些高危的、罕见的corner c
ase的模拟训练当中,但合成数据毕竟是由机器生成的虚拟数据,其数据质量以及真实性仍无法替代真实场景数据,因此按照目前的
技术路线,绝大多数企业仍在使用真实场景数据进行模型训练。
https://data.tdx.com.cn/zxfile/pdf_tb_news_jgdyxx/202501/56918688787.pdf
─────────┬────────────────────────────────────────────────
2024-12-26 08:02│【私募调研记录】致顺投资调研海天瑞声、世纪瑞尔
─────────┴────────────────────────────────────────────────
知名私募致顺投资近期对两家上市公司进行了调研,分别是海天瑞声和世纪瑞尔。海天瑞声主营AI训练大数据定制及应用服务,
客户包括阿里巴巴、腾讯等知名企业。世纪瑞尔在铁路行业多次承担开创性项目,主要产品涵盖行车安全监控系统等。致顺投资成立
于2017年,专注成长价值投资,追求为投资者创造风险匹配、合理满意的投资回报。本次调研的上市公司平均市盈率为413.89。
https://fund.stockstar.com/RB2024122600005391.shtml
─────────┬────────────────────────────────────────────────
2024-12-25 08:02│【私募调研记录】展博投资调研海天瑞声
─────────┴────────────────────────────────────────────────
知名私募展博投资近期调研了海天瑞声,该公司专注于AI训练大数据服务,已获得阿里巴巴、腾讯等国内外客户的认可。海天瑞
声提供智能语音、计算机视觉和自然语言处理等数据产品。展博投资成立于2008年,从事资产管理及投资咨询业务,目前管理的阳光
私募基金平均市盈率为1217.66。以上信息由证券之星整理,仅供参考。
https://fund.stockstar.com/RB2024122500007530.shtml
─────────┬────────────────────────────────────────────────
2024-12-24 17:04│海天瑞声(688787)2024年12月24日投资者关系活动主要内容
─────────┴────────────────────────────────────────────────
1、公司前三季度收入增长的原因是什么?
答:主要是受益于大模型技术的快速发展以及应用场景不断落地,以智能终端厂商、科技互联网公司等为代表的国内外科技巨头
纷纷加大多模态数据投入以支撑其智能终端、内容生成等领域的AI能力。由此带来,以多语种、多音色为代表的智能语音业务需求、
以及以指令微调、偏好对齐为代表的自然语言业务需求均同比呈现大幅增长,整体上驱动公司营业收入同比显著增加。
2、今年开始,是否有新的应用方面的数据需求?
答:我们观察到在IoT硬件厂商的端侧应用中,数据需求呈现一些新的共性特点,包括但不限于语音转写、文档修饰、改写、生
成摘要、短信自动回复、图片和视频自动处理等。此外,办公场景中的数据需求也在增加,例如通过OCR技术改进财务办公类应用的
发票处理方面的数据需求等。
但与此同时,我们也看到,目前AI应用发展正处于早期,AI应用带来的数据需求规模以及释放节奏仍有待观察、验证;同时,公
司也需要时间迭代、升级数据服务能力,来适应市场需求的快速变化。所以请广大投资者务必理性对待行业以及公司发展,注意投资
风险。
3、智能终端的AI agent出来之后,对数据需求有什么变化?
答:智能终端侧的AI agent有望成为继智能驾驶之后又一个重要的AI落地场景,预期会带来新型的数据需求。首先,智能终端ag
ent需要能够处理和理解来自终端场景的多样化数据,因此需要获取例如终端设备中的照片、视频、以及短信和电子邮件内容,通过
这些数据的学习,使得AI agent能够深入解读和响应终端的文本和图像信息。其次,为了模拟和执行人类的操作行为,AI agent需要
大量的各类应用的操作数据,来训练其对各类操作流程的理解。此外,AI agent必须能够理解和响应各种语音输入,这也激发了对多
语种、多音色和多风格语音数据的进一步需求。
4、大模型的数据源是否面临枯竭的风险?
答:在垂直场景中,许多数据并不在互联网上,需要通过与众多垂域场景的数据持有方开展合作进行定向采集获得。过往近20年
的创业发展历程中,海天瑞声在这方面积累了丰富的技术、资源、经验优势。此外,随着中共中央办公厅、国务院办公厅近期出台了
《关于加快公共数据资源开发利用的意见》,我们相信国内公共数据资源领域的开发利用进程也将加速,预计将为AI训练提供新的数
据来源。
5、海天瑞声在海外的业务布局情况如何?
答:为更好把握行业机遇、进一步扩大全球客户辐射范围,公司从体系搭建、市场研究、品牌升级、营销推广等多维度提升业务
、客户触达及服务能力。前三季度,公司持续加强境外销售团队建设,进一步织密客户服务网络;同时,通过参与包括 Web Summit
Qatar、ICASSP、AI EXPO TOKYO、Autosense and InCabin 及 CVPR 等全球知名行业及学术顶会,以及布局搜索广告投放、社交媒体
矩阵等多类宣传渠道等方式,向全球市场展示公司先进技术实力及创新产品,提升行业影响力和美誉度。2024年,公司全新发布海外
官网,全面升级官网服务模式,通过搭建marketplace,便捷用户目标服务/产品的选择,有效提升新客户拓展以及订单转化率。
6、标品化的产品数据集业务与定制化服务业务的区别是什么?客户会如何选择?
答:区别:产品数据集是先于客户需求形成的模拟数据,是公司区别于其他竞争对手的一大特色,基于公司对市场的判断和通用
化需求的提取能力,其属于是一次性投入、未来重复授权销售,对于公司的营收、毛利有着重要作用;而定制业务的需求来源是客户
的定向化需求,有些定制业务的原始数据来源是客户提供的实网数据,公司提供纯加工的服务。
客户的AI产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线
并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产
品的迭代、升级。之后,客户需要进行产品功能或语种的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代
。
产品+服务的组合一直是公司向市场提供的综合解决方案,是一个整体,服务于不同客户的不同研发阶段需求,其收入贡献比例
在各年间也呈现较为一致的趋势。而产品+服务带来的数据积累,也哺育了公司的数据处理平台和相关算法不断提升,努力达到数据
处理场景下的行业最优。
https://data.tdx.com.cn/zxfile/pdf_tb_news_jgdyxx/202412/55946688787.pdf
─────────┬────────────────────────────────────────────────
2024-12-23 20:00│海天瑞声(688787)2024年12月23日投资者关系活动主要内容
─────────┴────────────────────────────────────────────────
1、公司前三季度收入增长的原因是什么?
答:主要是受益于大模型技术的快速发展以及应用场景不断落地,以智能终端厂商、科技互联网公司等为代表的国内外科技巨头
纷纷加大多模态数据投入以支撑其智能终端、内容生成等领域的AI能力。由此带来,以多语种、多音色为代表的智能语音业务需求、
以及以指令微调、偏好对齐为代表的自然语言业务需求均同比呈现大幅增长,整体上驱动公司营业收入同比显著增加。
2、今年开始,是否有新的应用方面的数据需求?
答:我们观察到在IoT硬件厂商的端侧应用中,数据需求呈现一些新的共性特点,包括但不限于语音转写、文档修饰、改写、生
成摘要、短信自动回复、图片和视频自动处理等。此外,办公场景中的数据需求也在增加,例如通过OCR技术改进财务办公类应用的
发票处理方面的数据需求等。
但与此同时,我们也看到,目前AI应用发展正处于早期,AI应用带来的数据需求规模以及释放节奏仍有待观察、验证;同时,公
司也需要时间迭代、升级数据服务能力,来适应市场需求的快速变化。所以请广大投资者务必理性对待行业以及公司发展,注意投资
风险。
3、智能终端的AI agent出来之后,对数据需求有什么变化?
答:智能终端侧的AI agent有望成为继智能驾驶之后又一个重要的AI落地场景,预期会带来新型的数据需求。首先,智能终端ag
ent需要能够处理和理解来自终端场景的多样化数据,因此需要获取例如终端设备中的照片、视频、以及短信和电子邮件内容,通过
这些数据的学习,使得AI agent能够深入解读和响应终端的文本和图像信息。其次,为了模拟和执行人类的操作行为,AI agent需要
大量的各类应用的操作数据,来训练其对各类操作流程的理解。此外,AI agent必须能够理解和响应各种语音输入,这也激发了对多
语种、多音色和多风格语音数据的进一步需求。
4、大模型的数据源是否面临枯竭的风险?
答:在垂直场景中,许多数据并不在互联网上,需要通过与众多垂域场景的数据持有方开展合作进行定向采集获得。过往近20年
的创业发展历程中,海天瑞声在这方面积累了丰富的技术、资源、经验优势。此外,随着中共中央办公厅、国务院办公厅近期出台了
《关于加快公共数据资源开发利用的意见》,我们相信国内公共数据资源领域的开发利用进程也将加速,预计将为AI训练提供新的数
据来源。
5、智能语音是不是公司的优势业务?
答:智能语音是公司优势业务之一,公司在智能语音方面积累深厚。截至2024年6月底,公司已积累智能语音标准化训练数据集
超过1,100个,覆盖智能家居、机器人、虚拟人等11种应用场景。此外,截至6月底,公司语言研究能力已覆盖超过200种语种/方言,
尤其是在多语种方面具备显著优势,公司在多语种方面的积累也成为公司拓展境内、境外市场的重要抓手,同时也为公司毛利水平提
供了良好支撑。未来,公司将持续加大语音方面研发投入,增厚语音领域壁垒,赋能公司智能语音业务以及整体收入的持续增长。
6、海天瑞声在海外的业务布局情况如何?
答:为更好把握行业机遇、进一步扩大全球客户辐射范围,公司从体
|