chaguwang.cn-查股网.中国

查股网.CN

 

海天瑞声(688787)最新消息公司新闻

 

查询最新消息新闻报道(输入股票代码):

公司报道☆ ◇688787 海天瑞声 更新日期:2025-06-14◇ 通达信沪深京F10 ─────────┬──────────────────────────────────────────────── 2025-06-09 20:00│海天瑞声(688787)2025年6月9日投资者关系活动主要内容 ─────────┴──────────────────────────────────────────────── 1、Meta为什么投资Scale AI? 答:Meta投资Scale AI的核心原因有以下几点: (1)战略渠道拓展 Scale AI与美国政府以及军方关系紧密,近几年其大部分收入均来自政府以及军方订单。而Meta此前较少参与该类项目,通过此 次投资可间接获取军方合作渠道。 (2)补齐数据短板 Meta具备较强的算法能力以及算力储备,但Meta最新发布的Llama 4在多模态理解、长文本推理等关键指标上仍落后于GPT-4.5, 其核心原因就是数据问题。据了解,Meta约有30%训练数据来自低质量社交媒体内容,这也是导致模型频繁输出错误信息的核心原因 。而Scale AI常年服务北美科技巨头,其数据处理经验丰富,并拥有海量高质量多模态数据储备,高质量数据的替换,预计可将Meta 数据污染率大幅降低,并使Llama 5训练周期大幅缩短。 (3)获取顶尖人才 根据媒体消息,Scale AI创始人Alexandr Wang将出任Meta"超级智能小组"负责人。因此,此次并购Meta不仅可以获得技术资产 ,更关键的是获取了核心AI人才团队。 2、Scale AI从数据服务扩展到模型训练的业务延伸,对海天的战略发展有什么启示?海天在这方面有何布局? 答:Scale AI的业务延伸给我们带来了重要启示。我们认为: 首先,在模型开源的大趋势下,数据质量已成为决定模型效果的核心要素。海天作为数据服务领域的领先企业,具备向下游延伸 的天然优势。通过将数据优势转化为模型优化能力,不仅能提升客户价值,还能获得更高的商业回报。目前,我们正在积极探索这一 方向。 其次,我们正着力将多年积累的核心能力产品化。具体布局包括: 1)数据处理平台产品化:依托参与国家级数据标注基地建设的契机,我们将把自主研发的数据处理平台打造成标准化产品; 2)数据运营平台建设:为促进数据要素的高效流通,我们正在构建数据运营平台,实现从单纯的数据服务向数据生态运营的升 级。 这种战略转型将使海天从传统的数据服务商,升级为综合的数据解决方案提供商,在产业链中占据更有利的位置。 3、2025年第一季度,公司收入增长的驱动因素是什么? 答:随着多模态大模型的快速迭代及行业应用渗透提速,公司计算机视觉业务和自然语言业务分别同比实现高速增长。其中,在 国家对“AI+数据要素”政策同步发力的背景下,以运营商、互联网平台公司为代表的大型客户持续加码高质量图像/视频等多模态数 据采购,为其通用多模态大模型训练提供有力支撑;同时,政务、法律合规等场景应用的落地,带动场景类文本数据需求快速增加。 在全球化布局方面,公司去年在东南亚新增建设的数据交付体系已进入爬坡运营阶段,通过拓展海外定制服务市场,不仅带来了可观 的增量收入,并有望成为海外业务扩展新的战略支点。上述因素,共同驱动公司2025年第一季度营业收入显著增长。 4、目前公司是否有在尝试新的业务或者商业模式? 答:当前,在国家大力推进“人工智能+”行动和“数据要素X”的战略指引下,公司正积极探索与实践数据产业新业务和新模式 。一是按照国家推动公共数据资源的开发利用,发挥海天瑞声的技术优势,与多地政府、地方运营商等开展战略合作,共同探索数据 要素市场化与产业化的创新路径,通过构建“数据可信空间”,协助地方政府打造安全、高效、合规的数据治理与流通体系,推动数 据要素的价值释放。二是发挥海天瑞声的行业经验和积累,联合当地高校,培训和培养数据标注人才,提升就业率的同时夯实区域数 字经济发展人才基础。三是,发挥海天瑞声的生态优势,助力地方及产业园区打造数据标注基地和构建数据标注产业新生态。 5、公司与运营商的合作进展如何? 答:在国家"AI+数据要素"战略的指引下,尤其是国务院国资委连续两年开年启动部署中央企业“AI+”专项行动以来,以运营商 为代表的重点央企自2024年起加速布局通用+垂向大模型研发,带动了高质量图像、视频等训练数据的规模化采购需求。公司凭借在 数据领域的核心优势,已快速成为运营商类客户重要的数据服务供应商。未来,随着以运营商为代表的重点央企在多模态大模型方向 的持续加码,以及其基座大模型在更多传统行业的应用落地,预计相关数据需求将进一步增长,为公司收入带来持续的增长动能。 6、2025年公司营收的核心增长点是什么? 答:2025年公司营收增长的核心驱动力来自AI产业的两大发展趋势。首先,多模态AI技术的快速演进催生了跨模态融合数据的增 量需求。随着AI从单一文本处理扩展到视觉生成、语音交互等多元模态,市场对高质量图文对数据、细粒度标注语音数据集等高价值 多模态数据服务的需求呈上升态势,这为公司业务增长提供了基础。其次,AI在垂直行业的深度应用创造了新的市场机遇。开源大模 型的普及推动AI在政务、法律合规等专业领域快速落地,这些场景对专业化数据服务的需求将会显著提升。此外,公司去年在东南亚 新增建设的数据交付体系已进入爬坡运营阶段,该基地可以帮助公司拓展海外定制服务市场,预计可为公司带来可观的收入增量,并 有望成为海外业务扩展新的战略支点。 7、数据标注行业未来会有什么样的发展趋势? 答:首先是更加智能化,即通过拓展算法覆盖的场景以及算法预识别的准确率等,持续提升机器参与程度以及人机协作效率,降 低数据处理成本。 其次,随着AI技术不断革新,应用行业以及场景不断增加,各行业、各领域数据安全规范逐渐落地将成为趋势,对于以数据生产 为主营业务的数据服务企业,数据安全及合规能力将成为数据服务能力的核心评价维度,成熟的安全合规管理体系将成为重要评价标 准,能持续跟踪法律环境变化,积极响应监管政策的企业将具有更强的市场竞争力。 此外,随着境内、外企业的全球化扩张成为确定性趋势以及各类客户群体扩张步伐加速,多语种能力作为支撑企业顺利出海的核 心要素之一,重要意义更加凸显,具有强大语言研究能力的数据服务企业将获得更多商业机会。 另外,随着数据服务向多元化、多类型、多场景持续发展,充足、稳定且高质量的数据处理团队储备、以及更加智能化的资源配 置能力,将成为数据高效、稳定交付的重要保障。 https://data.tdx.com.cn/zxfile/pdf_tb_news_jgdyxx/202506/67658688787.pdf ─────────┬──────────────────────────────────────────────── 2025-06-05 20:00│海天瑞声(688787)2025年6月5日投资者关系活动主要内容 ─────────┴──────────────────────────────────────────────── 北京海天瑞声科技股份有限公司于2025年6月5日在视频录播+网络文字互动举行投资者关系活动,参与单位名称及人员有参加业 绩说明会的广大投资者,上市公司接待人员有董事、总经理:李科,董事、副总经理、财务负责人:吕思遥,董事会秘书:张哲,独 立董事:杨柳。 https://data.tdx.com.cn/zxfile/pdf_tb_news_jgdyxx/202506/67315688787.pdf ─────────┬──────────────────────────────────────────────── 2025-06-04 15:48│海天瑞声(688787)2025年6月4日投资者关系活动主要内容 ─────────┴──────────────────────────────────────────────── 北京海天瑞声科技股份有限公司于2025年6月4日在现场交流举行投资者关系活动,参与单位名称及人员有国泰海通杨林,陆家嘴 国泰张颖杰,磐稳投资陈奕霖,华宝信托张卿隆,国投瑞银马柯,九方智投吴清淳,东方红资管张明宇,健顺投资罗庆,巴富罗投资 周刘为,中移资本郑遒哲,上市公司接待人员有投资者关系负责人袁璐。 https://data.tdx.com.cn/zxfile/pdf_tb_news_jgdyxx/202506/67316688787.pdf ─────────┬──────────────────────────────────────────────── 2025-05-30 17:21│中邮证券:首次覆盖海天瑞声给予买入评级 ─────────┴──────────────────────────────────────────────── 中邮证券给予海天瑞声“买入”评级,认为其作为AI数据训练龙头,业绩拐点已至。公司2024年营收增长39.45%,净利润扭亏, 受益于大模型需求增长。公司拥有大量自有数据集,与政府合作构建可信数据空间,并与华为推出数据飞轮智能体解决方案。预计未 来数据需求将持续增长,支撑公司业绩稳步提升。 https://stock.stockstar.com/RB2025053000027844.shtml ─────────┬──────────────────────────────────────────────── 2025-05-29 09:30│海天瑞声(688787)2025年5月29-30日投资者关系活动主要内容 ─────────┴──────────────────────────────────────────────── 1、2025年第一季度,公司收入增长的驱动因素是什么? 答:随着多模态大模型的快速迭代及行业应用渗透提速,公司计算机视觉业务和自然语言业务分别同比实现高速增长。其中,在 国家对“AI+数据要素”政策同步发力的背景下,以运营商、互联网平台公司为代表的大型客户持续加码高质量图像/视频等多模态数 据采购,为其通用多模态大模型训练提供有力支撑;同时,政务、法律合规等场景应用的落地,带动场景类文本数据需求快速增加。 在全球化布局方面,公司去年在东南亚新增建设的数据交付体系已进入爬坡运营阶段,通过拓展海外定制服务市场,不仅带来了可观 的增量收入,并有望成为海外业务扩展新的战略支点。上述因素,共同驱动公司2025年第一季度营业收入显著增长。 2、目前公司是否有在尝试新的业务或者商业模式? 答:当前,在国家大力推进“人工智能+”行动和“数据要素X”的战略指引下,公司正积极探索与实践数据产业新业务和新模式 。一是按照国家推动公共数据资源的开发利用,发挥海天瑞声的技术优势,与多地政府、地方运营商等开展战略合作,共同探索数据 要素市场化与产业化的创新路径,通过构建“数据可信空间”,协助地方政府打造安全、高效、合规的数据治理与流通体系,推动数 据要素的价值释放。二是发挥海天瑞声的行业经验和积累,联合当地高校,培训和培养数据标注人才,提升就业率的同时夯实区域数 字经济发展人才基础。三是,发挥海天瑞声的生态优势,助力地方及产业园区打造数据标注基地和构建数据标注产业新生态。 3、公司与运营商的合作进展如何? 答:在国家"AI+数据要素"战略的指引下,尤其是国务院国资委连续两年开年启动部署中央企业“AI+”专项行动以来,以运营商 为代表的重点央企自2024年起加速布局通用+垂向大模型研发,带动了高质量图像、视频等训练数据的规模化采购需求。公司凭借在 数据领域的核心优势,已快速成为运营商类客户重要的数据服务供应商。未来,随着以运营商为代表的重点央企在多模态大模型方向 的持续加码,以及其基座大模型在更多传统行业的应用落地,预计相关数据需求将进一步增长,为公司收入带来持续的增长动能。 4、2025年公司营收的核心增长点是什么? 答:2025年公司营收增长的核心驱动力来自AI产业的两大发展趋势。首先,多模态AI技术的快速演进催生了跨模态融合数据的增 量需求。随着AI从单一文本处理扩展到视觉生成、语音交互等多元模态,市场对高质量图文对数据、细粒度标注语音数据集等高价值 多模态数据服务的需求呈上升态势,这为公司业务增长提供了基础。其次,AI在垂直行业的深度应用创造了新的市场机遇。开源大模 型的普及推动AI在政务、法律合规等专业领域快速落地,这些场景对专业化数据服务的需求将会显著提升。此外,公司去年在东南亚 新增建设的数据交付体系已进入爬坡运营阶段,该基地可以帮助公司拓展海外定制服务市场,预计可为公司带来可观的收入增量,并 有望成为海外业务扩展新的战略支点。 5、数据标注行业未来会有什么样的发展趋势? 答:首先是更加智能化,即通过拓展算法覆盖的场景以及算法预识别的准确率等,持续提升机器参与程度以及人机协作效率,降 低数据处理成本。 其次,随着AI技术不断革新,应用行业以及场景不断增加,各行业、各领域数据安全规范逐渐落地将成为趋势,对于以数据生产 为主营业务的数据服务企业,数据安全及合规能力将成为数据服务能力的核心评价维度,成熟的安全合规管理体系将成为重要评价标 准,能持续跟踪法律环境变化,积极响应监管政策的企业将具有更强的市场竞争力。 此外,随着境内、外企业的全球化扩张成为确定性趋势以及各类客户群体扩张步伐加速,多语种能力作为支撑企业顺利出海的核 心要素之一,重要意义更加凸显,具有强大语言研究能力的数据服务企业将获得更多商业机会。 另外,随着数据服务向多元化、多类型、多场景持续发展,充足、稳定且高质量的数据处理团队储备、以及更加智能化的资源配 置能力,将成为数据高效、稳定交付的重要保障。 6、我们标准数据集是如何积累的? 答:公司标准数据集产品的积累方式主要为基于公司对市场需求趋势的判断和共性需求的提炼能力,先于客户需求开发数据集。 数据集产品的这种商业模式在行业内往往具有较高壁垒,一方面需要公司对未来需求趋势有精准把握,另一方面由于产品开发属于先 投入后产出,因此需要公司具备充足的资金保障,只有具有大量行业经验+know-how积累以及资金充足的企业,才能具备产品开发能 力。因此,产品模式也成为公司区别于其他竞争对手的一大特色,目前公司产品数据集储备已处于行业头部水平,产品的积累对公司 未来的收入扩张和毛利提升都将起到重要作用。 7、产品库销售时,如何保护海天自身的知识产权? 答:公司对于产品数据集知识产权的保护主要通过以下几方面来实现:(1)在与客户前期商务谈判中,严格约定知识产权保护 相关条款,明确双方权利义务,确定违约责任,形成有效的法律制约;(2)在数据交付过程,采用加密方式传输,防止数据的泄露 和传播。此外,公司的客户通常为大型科技企业、科研院所等,其自身对知识产权保护的意识和措施也是很严格。 8、公司的核心竞争力主要体现在哪? 答:(1)公司的业务模式是服务产品双模式,且产品化贡献显著,是收入和毛利的主要来源,标准化数据集的研、产、销体系 是公司从业多年探索出来的业务模式,其复用性为公司的规模化和高利润率提供了保障。而保持这样的能力需要具备对行业需求的强 判断力和较强的资金实力。截至2024年12月末,公司已积累超过1,700个自有知识产权的训练数据标准化产品,数据库存量稳居全球 企业前列。 (2)技术平台能力:公司历来重视技术的研发,近年来更是加大研发投入的力度,全面提升公司的算法能力、平台能力、工程 化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同效率,这样能够做大规模、提升效率、降低成本。 (3)供应链资源管理能力:公司通过长期建设的供应链体系,保障资源的获取,未来,公司会进一步加大供应链资源平台的建 设,使人员管理、采标资源分配、质量检验、远程工作等各方面的能力得到显著提升,为客群拓展提供有力支撑。 (4)数据安全及合规能力:数据安全及合规能力已经成为了衡量品牌数据服务商综合能力的重要指标。公司在多年数据风险识 别和管理实践中,已形成了较为成熟的安全、合规管理体系。 https://data.tdx.com.cn/zxfile/pdf_tb_news_jgdyxx/202506/66873688787.pdf ─────────┬──────────────────────────────────────────────── 2025-05-23 18:34│海天瑞声联合华为发布海天瑞声x昇腾DeepSeek数据飞轮智能体 ─────────┴──────────────────────────────────────────────── 5月23日,海天瑞声与华为昇腾发布“X昇腾 DeepSeek 数据飞轮智能体”,聚焦企业数字化转型难题,提供零代码、低门槛的智 能体部署方案。该方案基于昇腾AI平台,整合数据标注与模型训练闭环,具备数据安全、智能进化、高效标注三大优势,助力企业实 现全场景智能化升级,推动AI落地应用。 http://www.dongtaibao.cn/#/releaseDetail?id=946233 ─────────┬──────────────────────────────────────────────── 2025-05-23 15:42│海天瑞声(688787):Google一直以来是公司的重要客户 ─────────┴──────────────────────────────────────────────── 海天瑞声表示,Google是其重要客户,曾为其提供多语种语音数据服务,但具体是否用于Google Meet需以Google信息为准。公 司虽不直接做同声传译,但其语音数据提升了多款AI模型的多语种识别能力,可应用于同声传译场景。 https://www.gelonghui.com/news/5009479 ─────────┬──────────────────────────────────────────────── 2025-05-21 11:35│海天瑞声(688787)2025年5月21日投资者关系活动主要内容 ─────────┴──────────────────────────────────────────────── 1、2025年第一季度,公司收入增长的驱动因素是什么? 答:随着多模态大模型的快速迭代及行业应用渗透提速,公司计算机视觉业务和自然语言业务分别同比实现高速增长。其中,在 国家对“AI+数据要素”政策同步发力的背景下,以运营商、互联网平台公司为代表的大型客户持续加码高质量图像/视频等多模态数 据采购,为其通用多模态大模型训练提供有力支撑;同时,政务、法律合规等场景应用的落地,带动场景类文本数据需求快速增加。 在全球化布局方面,公司去年在东南亚新增建设的数据交付体系已进入爬坡运营阶段,通过拓展海外定制服务市场,不仅带来了可观 的增量收入,并有望成为海外业务扩展新的战略支点。上述因素,共同驱动公司2025年第一季度营业收入显著增长。 2、目前公司是否有在尝试新的业务或者商业模式? 答:当前,在国家大力推进“人工智能+”行动和“数据要素X”的战略指引下,公司正积极探索与实践数据产业新业务和新模式 。一是按照国家推动公共数据资源的开发利用,发挥海天瑞声的技术优势,与多地政府、地方运营商等开展战略合作,共同探索数据 要素市场化与产业化的创新路径,通过构建“数据可信空间”,协助地方政府打造安全、高效、合规的数据治理与流通体系,推动数 据要素的价值释放。二是发挥海天瑞声的行业经验和积累,联合当地高校,培训和培养数据标注人才,提升就业率的同时夯实区域数 字经济发展人才基础。三是,发挥海天瑞声的生态优势,助力地方及产业园区打造数据标注基地和构建数据标注产业新生态。 3、公司与运营商的合作进展如何? 答:在国家"AI+数据要素"战略的指引下,尤其是国务院国资委连续两年开年启动部署中央企业“AI+”专项行动以来,以运营商 为代表的重点央企自2024年起加速布局通用+垂向大模型研发,带动了高质量图像、视频等训练数据的规模化采购需求。公司凭借在 数据领域的核心优势,已快速成为运营商类客户重要的数据服务供应商。未来,随着以运营商为代表的重点央企在多模态大模型方向 的持续加码,以及其基座大模型在更多传统行业的应用落地,预计相关数据需求将进一步增长,为公司收入带来持续的增长动能。 4、2025年公司营收的核心增长点是什么? 答: 2025年公司营收增长的核心驱动力来自AI产业的两大发展趋势。首先,多模态AI技术的快速演进催生了跨模态融合数据的 增量需求。随着AI从单一文本处理扩展到视觉生成、语音交互等多元模态,市场对高质量图文对数据、细粒度标注语音数据集等高价 值多模态数据服务的需求呈上升态势,这为公司业务增长提供了基础。其次,AI在垂直行业的深度应用创造了新的市场机遇。开源大 模型的普及推动AI在政务、法律合规等专业领域快速落地,这些场景对专业化数据服务的需求将会显著提升。此外,公司去年在东南 亚新增建设的数据交付体系已进入爬坡运营阶段,该基地可以帮助公司拓展海外定制服务市场,预计可为公司带来可观的收入增量, 并有望成为海外业务扩展新的战略支点。 5、数据标注行业未来会有什么样的发展趋势? 答:首先是更加智能化,即通过拓展算法覆盖的场景以及算法预识别的准确率等,持续提升机器参与程度以及人机协作效率,降 低数据处理成本。 其次,随着AI技术不断革新,应用行业以及场景不断增加,各行业、各领域数据安全规范逐渐落地将成为趋势,对于以数据生产 为主营业务的数据服务企业,数据安全及合规能力将成为数据服务能力的核心评价维度,成熟的安全合规管理体系将成为重要评价标 准,能持续跟踪法律环境变化,积极响应监管政策的企业将具有更强的市场竞争力。 此外,随着境内、外企业的全球化扩张成为确定性趋势以及各类客户群体扩张步伐加速,多语种能力作为支撑企业顺利出海的核 心要素之一,重要意义更加凸显,具有强大语言研究能力的数据服务企业将获得更多商业机会。 另外,随着数据服务向多元化、多类型、多场景持续发展,充足、稳定且高质量的数据处理团队储备、以及更加智能化的资源配 置能力,将成为数据高效、稳定交付的重要保障。 6、公司的核心竞争力主要体现在哪? 答:(1)公司的业务模式是服务产品双模式,且产品化贡献显著,是收入和毛利的主要来源,标准化数据集的研、产、销体系 是公司从业多年探索出来的业务模式,其复用性为公司的规模化和高利润率提供了保障。而保持这样的能力需要具备对行业需求的强 判断力和较强的资金实力。截至2024年12月末,公司已积累超过1,700个自有知识产权的训练数据标准化产品,数据库存量稳居全球 企业前列。 (2)技术平台能力:公司历来重视技术的研发,近年来更是加大研发投入的力度,全面提升公司的算法能力、平台能力、工程 化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同效率,这样能够做大规模、提升效率、降低成本。 (3)供应链资源管理能力:公司通过长期建设的供应链体系,保障资源的获取,未来,公司会进一步加大供应链资源平台的建 设,使人员管理、采标资源分配、质量检验、远程工作等各方面的能力得到显著提升,为客群拓展提供有力支撑。 (4)数据安全及合规能力:数据安全及合规能力已经成为了衡量品牌数据服务商综合能力的重要指标。公司在多年数据风险识 别和管理实践中,已形成了较为成熟的安全、合规管理体系。 7、DeepSeek出来后,对数据需求的影响如何?是否会降低AI行业对数据的需求? 答:(1)DeepSeek推出了一系列模型,其中V3模型依然使用了预训练、以及SFT等训练方式,其中预训练阶段的token使用量达 到了14.8T,远超GPT4等同类可比大模型预训练阶段的数据使用量,且在后训练阶段也使用了一定规模的标注数据,这也更加说明海 量以及高质量数据对于基础模型能力提升的重要意义。 (2)关于让大家震撼的R1模型,基于目前的公开信息来看,其部分优势体现在推理类任务上,尤其是那些具备较强的规则性、 可以推导的任务类型上,确实不需要大量的人工标注,但是对于其他领域(尤其是更为广阔的垂向领域)的复杂问题,依然需要观察 ,我们认为高阶的数据专家的参与依然非常重要。 (3)此外,数据质量不仅影响模型获取和表达知识的能力,还决定了模型生成内容的风格和准确性,帮助DeepSeek实现了在输 出端的文采能力提升。 其一,高质量数据可以提升模型表达和推理能力。优质数据包含准确、连贯且富有表现力的语言样本。例如,包含CoT数据可以 引导模型在推理时进行反思,进而在生成回答时展现出清晰的逻辑和优美的语言表达。这正是DeepSeek模型能够生成既准确又具有华 丽文风的关键因素之一。 其二,高质量数据可以降低噪音和确保一致性。数据中的错误、噪音或不一致信息会导致模型生成内容出现语法或逻辑问题。高 质量的数据则能有效减少这些问题,使模型更好地学习到语言规律,从而提高整体生成质量。 其三,高质量数据可以提升泛化能力。数据的多样性和全面性使得模型在面对不同领域和任务时都能生成高质量的回答。丰富且 准确的样本帮助模型在多种场景下自如切换风格,无论是精炼的技术解答还是文采斐然的创意写作,都能游刃有余。 (4)往未来看,Deepseek模型的出现,有望进一步助推模型向产业端发展,真正让大模型技术深入滲透到各个行业中,这一过 程中必将凸显专业知识的直要性,需要更多数据、以及数据专家的参与,因此我们看好并期待未来大模型在各行业百花齐放的局面。 8、训练特定垂向领域的大模型所需的数据,主要来源于哪里? 答:目前来看,训练垂直领域大模型的核心数据来源可分为三类:公开数据、客户自有数据和垂直场景定向采集数据。其中,公 开数据(如互联网知识库、开源数据集和行业标准文档)可以为模型提供基础数据支撑;客户自有数据和定向采集数据则针对具体业 务场景进行专项优化。值得注意的是,这些原始数据必须经过专业处理流程才能投入使用,主要包括:1)数据清洗与标准化;2)格 式转换(如语音转文本);3)领域专家标注与校验。以智能病历系统开发为例,数据加工流程包括:首先将门诊录音转为文本数据 ,再由医学专家进行专业校对并提取关键临床信息,最终生成结构化电子病历。这一过程高度依赖专业领域知识,需要大量临床医师 参与质量把控。正因如此,在垂直领域大模型训练中,专业数据服务商扮演着双重角色:既是特定领域高质量数据的提供方,也是专 业数据加工服务的提供商。 https://data.tdx.com.cn/zxfile/pdf_tb_news_jgdyxx/202505/66022688787.pdf ─────────┬──────────────────────────────────────────────── 2025-05-12 20:00│海天瑞声(688787)2025年5月12日、13日、14日投资者关系活动主要内容 ─────────┴──────────────────────────────────────────────── 北京海天瑞声科技股份有限公司于2025年5月12日、2025年5月13日、2025年5月14日在线上交流、现场交流举行投资者关系活动 ,参与单位名称及人员有金信基金谭佳俊、赵浩然、曾艳、江泽希,招商信诺赵若琼、林威宇、郁琦,南方基金何欣冉,国信证券库 宏垚,国新自营蒋坤鹏,国信证券贺东伟,麦高证券金朝振,紫时私募丁帅,北京飞旋陈旋,天壹资本张宇翔,鸿竹资管费征帅,龙 赢富泽郑明吉,上市公司接待人员有董事会秘书张哲。 https://data.tdx.com.cn/zxfile/pdf_tb_news_jgdyxx/202505/64385688787.pdf ─────────┬──────────────────────────────────────────────── 2025-05-06 20:00│海天瑞声(688787)2025年5月6-8日投资者关系活动主要内容 ─────────┴──────────────────────────────────────────────── 1、2025年第一季度,公司收入增长的驱动因素是什么? 答:随着多模态大模型的快速迭代及行业应用渗透提速,公司计算机视觉业务和自然语言业务分别同比实现高速增长。其中,在 国家对“AI+数据要素”政策同步发力的背景下,以运营商、互联网平台公司为代表的大型客户持续加码高质量图像/视频等多模态数 据采购,为其通用多模态大模型训练提供有力支撑;同时,政务、法律合规等场景应用的落地,带动场景类文本数据需求快速增加。 在全球化布局方面,公司去年在东南亚新增建设的数据交付体系已进入爬坡运营阶段,通过拓展海外定制服务市场,不仅带来了可观 的增量收入,并有望成为海外业务扩展新的战略支点。上述因素,共同驱动公司2025年第一季度营业收入显著增长。 2、公司2025年第一季度收入结构中,语音、视觉、文本的占比分别是多少? 答:2025年第一季度,公司收入结构呈现阶段性显著变化:视觉业务占比超过45%,首次超越语音业务占比,文本业务占比约10% 。这一结构性转变主要源于,在大模型逐步向多模态领域发展的大背景下,公司一季度头部客户的数据需求集中体现在计算机视觉领 域,带动视觉业务收入实现快速增长。展望全年,各业务方向的收入占比预计也将呈现动态变化。 3、训练特定垂向领域的大模型所需的数据,主要来源于哪里? 答:目前来看,训练垂直领域大模型的核心数据来源可分为三类:公开数据、客户自有数据和垂直场景定向采集数据。其中,公 开数据(如互联网知识库、开源数据集和行业标准文档)可以为模型提供基础数据支撑;客户自有数据和定向采集数据则针对具体业 务场景进行专项优化。值得注意的是,这些原始数据必须经过专业处理流程才能投入使用,主要包括:1)数据清洗与标准化;2)格 式转换(如语音转文本);3)领域专家标注与校验。以智能病历系统开发为例,数据加工流程包括:首先将门诊录音转为文本数据 ,再由医学专家进行专业校对并提取关键临床信息,最终生成结构化电子病历。这一过程高度依赖专业领域知识,需要大量临床医师 参与质量把控。正因如此,在垂直领域大模型训练中,专业数据服务商扮演着双重角色:既是特定领域高质量数据的提供方,也是专 业数据加工服务的提供商。 4、国内大模型数据的来源有哪些? 答:根据艾瑞咨询的调研报告,目前大模型训练主要有5类数据来源:分别

www.chaguwang.cn & ddx.gubit.cn 查股网提供数据 商务合作广告联系 QQ:767871486