云天励飞申请奖励模型优化方法等专利,实现提升原始奖励模型的评估性能的目的
本文源自:金融界
金融界2025年6月25日消息,国家知识产权局信息显示,深圳云天励飞技术股份有限公司申请一项名为“奖励模型优化方法、装置、计算机设备及存储介质”的专利,公开号CN120197723A,申请日期为2023年12月。
专利摘要显示,本发明公开了一种奖励模型优化方法、装置、计算机设备及存储介质,该方法包括:获取训练数据,训练数据包括提示词和训练答复;接收训练数据对应的标注结果,基于标注结果,确定每一训练数据的第一奖励分数;采用原始奖励模型对训练数据进行打分标注,确定每一训练数据的第二奖励分数;基于同一提示词对应的多个训练数据的第一奖励分数和第二奖励分数,确定原始奖励模型对应的优化函数值;在优化函数值未满足收敛条件时,优化原始奖励模型的模型参数;在优化函数值满足收敛条件时,将原始奖励模型作为目标奖励模型。该方法能够使奖励模型的评估效果较为接近人工标注的评估效果,实现提升原始奖励模型的评估性能的目的。
天眼查资料显示,深圳云天励飞技术股份有限公司,成立于2014年,位于深圳市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本35513.372万人民币。通过天眼查大数据分析,深圳云天励飞技术股份有限公司共对外投资了31家企业,参与招投标项目265次,财产线索方面有商标信息415条,专利信息1785条,此外企业还拥有行政许可37个。