创意信息申请大语言模型高并发量推理方法及系统专利,提升大模型推理的并发量
本文源自:金融界
金融界2025年6月21日消息,国家知识产权局信息显示,创意信息技术股份有限公司申请一项名为“一种大语言模型高并发量推理方法及系统”的专利,公开号CN120181245A,申请日期为2025年05月。
专利摘要显示,本发明涉及人工智能技术领域,公开了一种大语言模型高并发量推理方法及系统,利用执行器计算显存块大小分配显存空间;利用调度器转换请求序列放入调度器的等待队列;调度器为每个请求序列分配相应的显存块直至每个请求序列都能够进行下一次推理;调度器按照优先级顺序计算等待队列中请求序列的显存需求,将等待队列中的请求序列转移到运行队列中;根据请求序列的预填充类型数量和解码类型数量,分配用于执行预填充推理或用于执行解码推理的显存块数量;由此,本发明采用连续批处理、动态分配空间机制和任务调度框架,充分利用连续批处理的并行推理能力,提升了大模型推理的并发量和吞吐量,解决传统连续批处理需要预分配空间的局限性。
天眼查资料显示,创意信息技术股份有限公司,成立于1996年,位于成都市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本60757.615万人民币。通过天眼查大数据分析,创意信息技术股份有限公司共对外投资了20家企业,参与招投标项目1635次,财产线索方面有商标信息6条,专利信息128条,此外企业还拥有行政许可15个。