电厂 | 科大讯飞的「大模型突围」
在经历了上半年的「千模大战」之后,如今已经没人会怀疑「人类已经踏入 AI 时代」这件事。
但眼下,人们关于大模型的疑问却没有因此变少:随着包括 ChatGPT 在内的消费级生成式对话机器人的用户增长已经显出疲态,普通用户对 AI 大模型的关注度也在下降,但对于大模型的下一个最重要的应用形态会是什么。没人能说得清。因此行业头部玩家的每一步,都备受关注。
10月24日,在2023年科大讯飞全球 1024 开发者节上,科大讯飞董事长刘庆峰介绍了星火认知大模型最新的 3.0 版本:除了前两个版本中已有的文本生成、语言理解和多模态等能力提升,这次科大讯飞还重点升级了星火大模型的代码能力。
在介绍 3.0 版本更新时,刘庆峰还宣布,不管是外部对通用认知大模型的评测,还是根据 OpenAI 构建的测试集,星火大模型 3.0 在综合能力上,都超越了 GPT-3.5。
星火大模型最初在五月发布,并在五月、八月、十月三个时间点快速迭代,将星火大模型迭代至 3.0 版本。如此迭代速度很难说是科大讯飞在此期间真的获得了突破性进展,更像是科大讯飞在此之前数年在 AI 以及认知智能领域的厚积薄发。
八月,在星火大模型 2.0 发布的同时,科大讯飞同时还宣布了与华为联手、联合攻关算力卡脖子的问题,如今这项合作的成果也随着 3.0 版本一起公布:科大讯飞与华为在算力上实现合作,联合发布了基于昇腾芯片的大模型底座「飞星一号」平台,在半年内实现了将星火大模型训练与推理效率翻倍。
此前,科大讯飞已经与华为合作推出了「星火一体机」,提示工程等5种定制优化模式,开箱即可使用,提供从底层算力、AI框架、训练算法、推理能力、应用成效等AI能力。
对于从2019年开始就已经被美国列入实体清单的科大讯飞而言,国产自主算力一直都是在计划之中的必选项:可控的算力也是未来进一步拓展大模型使用场景的必然需求。这在今年10月17日,美国政府进一步收紧限制,禁止英伟达和其他芯片制造商向中国销售高性能半导体芯片 —— 包括 H800、A800 在内多款原本还是可选项的 GPU 都即将无法购买的背景下,更是时代需求:安全可控的自研算力是未来稳定发展的关键,也是另一种意义上的「技术底座」。
刘庆峰同时还表示:基于对标 GPT-4 的下一代更大参数规模的大模型,已经在基于训练中。预计将在2024年上半年发布,其使用的华为昇腾 910B 的算力,已经基本可以对标英伟达 A100,这是自主大模型之路的底气所在。
目前,星火大模型目前的注册用户数量已经超过 1200 万,讯飞开放平台从五月后新增 17.8 万大模型开发者,与华为合作构建的自主算力平台也已经投入使用,在讯飞星火中已有4109个助手开发者团队开发出7862款星火助手;可以说科大讯飞是目前少数几个能构建硬件/软件/开发者生态全栈布局的大模型玩家,因此科大讯飞的选择自然备受关注。
但对于此时的科大讯飞,单一参数的对标,似乎已经不再是最需要优先关注的对象:大模型已经逐渐跨过了早期发展中「先上牌桌」的阶段,开始寻求在大模型的行业应用中突围,先一步抢占行业市场。国内大模型厂商也逐渐减少大模型参数与性能的宣传,而是更加聚焦于大模型的商业落地场景以及用户数量。这本身就是行业更加成熟的表现。
即使如今的 GPT 4.0 已经能从图像中识别出画面的信息、以及具备了生成图片、视频等进阶能力,仍然没有完全解决那个最致命的问题:通用大模型几乎全部是基于网络上公开文献与信息训练而来,这些信息中往往充斥着大量错误、偏见甚至是谣言,这些导致模型数据中充斥着太多的噪音。
在很多行业场景中,专业用户对于行业大模型所提供的数据要求更高,容错度也要更低,这意味着对大模型的可控、可修正能力也至关重要,但这些往往要求更多用户本身的数据来做「最后一公里」级的训练与精调,才能在世纪场景中解决某个具体问题 —— 这些即使放眼全球也仍算是罕有玩家深入的无人区。
「行业大模型需要更加前瞻的布局,有先手优势的玩家同时也承担起了教育市场的任务」一位行业大模型领域分析师对电厂记者表达了关于大模型行业应用落地的看法。认为现有大模型厂商普遍选择教育、医疗、自动驾驶等应用领域,其实在本轮 AI 浪潮之前已有深度介入。但如何挖掘 B 端用户在流程中出现的深度需求,实现更快速的迭代开发以及深度对接,才是下一个阶段「千模大战」需要关注的重点。
看清楚这一点,其实也就不难看懂科大讯飞在星火大模型上的布局:以行业大模型近期最常被提到的编程辅助能力举例:其中具体到应用场景,又分为代码设计、开发以及测试等不同阶段。在开发需求上又对应了包括代码生成、代码补齐、代码纠错、代码解释、单元测试生成等内容。
这些细分领域的 Knowhow,是考验大模型多模态能力的关键,跟业务结合也是最困难的部分。在这一点上,科大讯飞的答案是搭载讯飞星火 V3.0 的智能编程助手 iFlvCode2.0。
按照科大讯飞给出的数据,iFlvCode2.0 发布后,发现产品在编程的设计阶段提效 50%、开发阶段提效 37%、测试阶段提效 44%,大幅提升软件从业人员效率:科大讯飞展示了智慧课堂项目的从 Windows 到 Linux 跨平台移植:该项目代码超过 20 万行,在智能编程助手 iFlyCode 的帮助下,开发时间从传统方式在的三个月,缩短到了一个月。
在多模态方面,星火 3.0 够理解更口语化表示、同时包含更多细节的 Prompt:发布会上,科大讯飞还用一个简单Prompt 展示大模型在代码中的理解能力,要求大模型「用 Python 代码画出一个大大的心形,然后里面大大小小的五颜六色的很多星星逐步呈现出来」,这些包含复杂任务与理解能力的需求,既是目前 GPT 4 的短板,同时也从科大讯飞的展示中看到了更多可能。
除了代码能力之外,科大讯飞还发布了 AI 心理咨询师「小星」:这是一款基于星火认知大模型、帮助青少年舒缓心理困扰的多模态心理产品,它能够通过视频、语音、文字等多模态方式与青少年展开类人自由对话,理解青少年的情绪情感,表达接纳与共情,促进青少年自我觉察,并提供个性化行动建议。
通过 550 万个心理分析评估数据以及 40 万篇期刊文献,也能在共情能力上展现出不同于以往生成式对话机器人的一面,有自动情感识别、个性化心理辅导等对话特征。
集成了症状自查、报告解读、医疗信息快速查询、健康档案管理等功能的医疗大模型 —— 讯飞晓医 APP,是科大讯飞在本次 1024 开发者大会中发布的另一项应用:针对医疗场景容错率更低的天然需求,讯飞星火医疗大模型通过上线实际使用数据抽查 12 万例,并通过国家科技信息资源综合利用与公共服务中心(STI)数据来辅助生成专业医疗内容。即使用户不知道该如何表达自己的病情,或是想要对比自己的体检报告,都可以直接用最通俗的语言询问。
目前,讯飞星火医疗大模型在医疗海量知识问答、医疗复杂语言理解、医疗专业文本生成、医疗诊断治疗推荐的问题回答正确率已经超越了 GPT-4。这就是在行业应用场景中最重要的部分 —— 与行业内有实际需求的用户深度合作,快速推动大模型在具体场景内更新迭代。
不难看出,「千模大战」的下一阶段,将会是各家大模型在商业应用场景中落地的竞赛,技术能力直接决定了大模型未来在各种领域拓展的可能性,更多应用场景的落地才能更快地体现出大模型的商业价值。未来不只是教育、代码医疗领域,几乎所有常见的行业应用场景都有大模型发展成熟的可能:科大讯飞甚至展示了未来能应用于工业等特种领域的机器人超脑平台 AIBOT,给 AI 赋予了形体让其能够处理更多复杂任务。
这些都依赖核心技术的支持,因此到了2023的下半年,「技术底座」成了大模型赛道头部玩家越来越多提及的名词同时在这个过程里,业务数据会成为稀缺资源。
「国产大模型必须正视和 GPT-4 的差距。“国产大模型在复杂知识推理、小样本快速学习、超长文本处理、跨模态统一理解上距GPT4还有差距」刘庆峰表示,唯有实事求是的科学精神,才能真正实现超越。
但新的共识已经出现:随着大模型进一步深入行业应用,大模型行业很快将迎来另一次重新洗牌。这其中,有更多行业大模型实际使用经验的科大讯飞,或许会成为这个时代,先一步「突围」的大模型厂商。