对话科大讯飞副总裁、研究院院长刘聪:中国大模型已从追赶对标走向自主原创
出品|网易科技《态度AGI》对话栏目
作者|丁广胜
“从通用AI助手到懂你的AI助手”这是讯飞星火4.0的新口号,“通用”的一词之差,背后是翻天覆地的变化。
科大讯飞副总裁、研究院院长刘聪说,我们研究院考虑的是“刚需”和“代差”两个因素,做的事情必须有实际的价值,做每一个研究都要和业务进行对齐,不能闭门造车。
“如果说2023年我们还在追赶、对标、摸索,那2024年我们做的就是场景沉淀。讯飞的逻辑是,底层模型得有,更重要的是找落地价值,带来工作生活学习的提效,这是讯飞的目标。”
即,通用大模型是讯飞“1+N”战略的1,是“天花板”立在那里,而现在需要在场景上面下功夫。讯飞的“1+N”,其中“1”代表通用大模型底座,“N”代表将大模型技术应用在教育、医疗、汽车、办公、智能硬件等多个行业领域。
对于大模型,目前有两种声音,一波人认为中国很差,一波人认为中国很强,刘聪说确实我们有些地方还有差距,但我们在相当部分已经很强了,国外很多demo有不少是营销目的,讯飞在做大模型国产化的相关工作,到了2024年,可以说我们已经摸索出了自己的一条路,开始踏踏实实的做场景、找商业模型了。
那讯飞的产品方法论是什么?刘聪表示,找PMF(市场匹配度),讯飞基因好、积累好,是厚积薄发,比如,讯飞做了很多年的学习机,家长和孩子接受度很高,原来交互性不强,现在大模型来了,体验升级,大家乐见其成。
“归根结底,是找到每家企业自身擅长的地方,做透做扎实,证明自己,有所侧重,在国内甚至全球范围内做到最好,最后找到商业模型。”而做到这一切,我们要有耐心。
刘聪还回应近期热门的具身智能话题,他认为,人形虽然很热,但全面实用化还需要走过正常周期,但大模型带来了底层能力的提升,在交互能力、知识能力、数据能力上带来好消息,比如之前是机械臂比较火,而现在大家看到了解决复杂任务的可能性。
而对于大模型和小模型的争论,刘聪谈到,大模型小模型的发展不矛盾,两种模型是并行发展的,大模型是“天花板”的探索,小模型的核心是根据实际情况和成本来搞定场景。他举例,讯飞把任务定义为三类,一般难度的任务,比如翻译、文字、代码,中小规模的模型就够了;中等难度的任务,比如行业深度场景,用中等模型;高难度任务,比如复杂推理,数学场景,就需要用到更复杂的大模型。
谈及如果决胜大模型的未来,刘聪谈到,第一,关注国际动态,比如我们对于scaling law的进展理解非常清晰;第二,结合实践,比如在算法方面做测试,结合实践来做未来判断;第三,“以我为主”的赛道聚焦,通用做到第一梯队之后,做优势领域,即教育,做深做透。
刘聪还犀利评论OpenAI,他表示,GPT-5底座大模型投入巨大,升级周期会变长,局部亮点可能会不断出现,但很难有GPT3.5到4那么大的提升了。
科大讯飞副总裁、研究院院长刘聪与媒体对话精华:
问:讯飞星火V4.0的重点是什么?哪些地方的升级是关键点?
刘聪:我们仍然沿用1+N的路径,继续拓展多模态,在底座能力上,重点关注图文能力,这是讯飞一直以来的特点。
问:讯飞星火V4.0提出布局AI助手,如何与市面上的产品做差异化?
刘聪:当底座达到一定程度,我们关注的是真正能够满足刚需且具有落地价值的产品,这非常关键。每个人都应该有一个助手,个性化就变得很重要,真正让用户深入使用并产生粘性,这时候他就不愿意再用别的产品了。
讯飞研究院并非一个闭门造车的技术研究院,我们所有技术都对应业务需求。
问:讯飞的大模型是如何迭代的?
刘聪:我们一直在摸索scaling law是否符合我们的预期,摸索这条线。但我们更加关注的是模型的场景化,把“N”做透,深入解决系统化问题,这非常关键。在多模态中,我将重点关注OCR,以确保OCR做到最好。当然,我们还有国产化的工作需要完成。
问:讯飞在场景落地过程中,如何找PMF(市场匹配度)?
刘聪:大模型之前,讯飞是人工智能企业中较少有的,能够真正把技术实现产品落地的企业。当年在教育场景下还没有to c用户,我们每天与老师们在一起打磨,做到对这个场景非常熟悉,不能仅凭想象和拍脑袋。有了大模型之后,你会发现作文批改比之前厉害很多,除了修改字词错误,还可以处理比喻和修辞方面的问题。
这就是我们找PMF之所以准确,是源于过去25年我们在场景上的积累。这是我们的逻辑。
问:今年具身智能较为火爆,讯飞也推出了双足机器人,您如何看待这个机会?
刘聪:在资本界,最近一年多,大模型、人形机器人是最热的。但站在真正实用化的角度,所有技术发展一样,仍然需要正常周期。
可以肯定的是,大模型出来后,人形机器人可以做更多事情了,之前都是机械臂,做重复的事情。而现在,处理复杂任务成为可能。
问:您如何看待“小模型”话题?大家开始更关注小模型可以做的事情。
刘聪:我们一直强调小模型时代,并不意味着不再关注大模型、小模型就足够了。其实核心技术原理是大模型在更新,大模型先找到天花板,再优化小模型。小模型的不断进步依赖于大模型的发展。
问:语音转译,很多AI产品都具备,讯飞的竞争力在哪里?
刘聪:首先,通用效果更为重要,我们涉及到中英文以及其他语种。第二,做到“信达雅”大家都还有很大空间,我们发布的科研助手已经体现了对学术论文全面翻译的能力,第三,讯飞擅长语音翻译、同传翻译。后续会有相关新产品和大家见面。
问:从整个产业看,怎么来定义目前大模型的发展阶段?
刘聪:我们现在的状态是经过两年对标,正处于厚积薄发的状态,已经进入了一个需要比拼耐力和耐心的过程。中国大模型已从追赶、对标走向自主原创。
接下来的提升可能在“局部”,Sora非常惊艳,但并没有像GPT刚出来时的颠覆性。对于讯飞而言,我们的视频优先级较低,我们需要找到自己的优势场景和定位,形成自我造血,透彻地提高产品价值。
问:中美大模型差距是否正在缩小?
刘聪:毫无疑问,中美在大模型之间的差距正在缩小,无论是正式的榜单还是实际任务,大家都可以体验。
问:讯飞星火从2022年12月正式立项到现在一年多了,您个人状态和之前有什么不同?
刘聪:相当充实,发际线依然在。我现在是“首席演示官”,每场“演出”都站在台前,以前都是在幕后。