实测科大讯飞大模型“星火”:多轮对话能写代码 还将迭代三轮

http://ddx.gubit.cn  2023-04-25 17:15  科大讯飞(002230)公司分析

随着文心一言、通义千问等国内类ChatGPT大模型纷纷问世,人工智能公司科大讯飞也终于“下场”开始角逐国内大语言模型市场。根据计划,科大讯飞将于5月6日正式发布讯飞“星火”认知大模型,并将同步推出面向教育、办公、车载等行业的解决方案。

4月24日,新京报贝壳财经记者获得了“星火”大模型的测试资格。经测试发现,“星火”大模型可以连贯回答记者提出的问题,完成写文章、作诗、编写代码等任务,并在记者提出的部分“诱导性”问题上成功避坑。不过,作为人工智能模型,“星火”也不可避免的存在“幻觉”现象,其虽然能够理解记者提出的一些高难度问题并可以给出回答,但对一些偏小众的问题会生成不够准确的回答,且其回答无法涵盖近期的新闻事件。此外,目前“星火”不支持文生图功能。

对于“星火”大模型,科大讯飞董事长刘庆峰在科大讯飞2022年业绩说明会上表示,有信心在中文领域的认知大模型上做到业界领先,同时在教育、医疗等行业中率先深度应用,而且形成独特的优势,“第一,在认知大模型的技术投入上,对于应该投入的重点方向,我们将饱和投入、绝不手软;第二,不需要那么多人力和资金,现在科大讯飞的团队和资金完全覆盖得住;第三,投入也是自主可控,可以保证不受到国外卡脖子,长期发展可以一步一个脚印往前走。”

以下为新京报贝壳财经记者在逻辑性诱导提问、写文字写诗等能力提问以及生僻知识提问三方面对“星火”大模型的测试结果:

逻辑能力测试:

“避坑”大多数逻辑问题

新京报贝壳财经记者登录讯飞星火认知大模型首页发现,其标注有“您好,我是讯飞星火认知大模型,能够学习和理解人类的语言,进行多轮对话,回答问题,高效便捷地帮助人们获取信息、知识和灵感”的介绍语,下方为输入框,可以直接开始问答。

记者首先测试了大语言模型的“基本功”:逻辑理解能力,此前一些大模型可能在诸如“鱼香肉丝是什么鱼做的”这类问题上“翻车”,记者测试发现星火大模型能够给出正确答案,不过由于此类问题之前曾被公开问过多次,其也有可能是吸取了此前其他大模型的“教训”,做了人工标注,因此记者尝试“原创”一些诱导性质的提问,看“星火”能否正确理解。

如记者提问:都说“打铁还需自身硬”,如果我比别人硬,我的打铁技术是不是就会更好?对此,“星火”回答:“打铁还需自身硬”这句话的意思是说,在做任何事情时,都需要具备一定的能力和素质才能够做好。如果你比别人更硬,那么你在某些方面可能具有更强的能力和素质,这可能会对你的打铁技术产生积极的影响。然而,仅仅拥有强大的能力和素质并不一定能够保证你成为一名优秀的打铁师傅。除了技术和能力之外,还需要具备耐心、细心、专注等品质,以及对打铁工艺的热爱和执着追求。因此,即使你比别人更硬,也需要不断地学习和实践,才能够真正成为一名出色的打铁师傅。

而记者再次提问:我是个学富五车的人,此时有人找我借了一辆车,请问我还剩几辆车?对此“星火”直接回答“很抱歉,作为一个语言模型,我无法得知您目前拥有多少辆车。请您自行查询或回忆一下您的车辆数量。”

由于上述提问均为记者原创,此前并未有相应的训练数据,因此可以看出星火大模型确实能够“避坑”一些诱导性提问。

不过,星火大模型也并非躲过了所有逻辑问题,如记者拿一些自相矛盾的选择题提问“星火”时,其并未反驳问题中的逻辑谬误,仍然给出了自认为正确的选项。

相比其他大模型,“星火”在交互设计上给出了左下角一键复制答案的选项,方便用户使用,并设计了点赞和点踩两个正负反馈机制,用户针对错误回答可以进行反馈并填写更优答案。

谈及科大讯飞在中文语料上的积累,刘庆峰称,中文文本数据方面,科大讯飞拥有语音及语言信息处理国家工程研究中心,在中文语音应用的主流领域市场份额达70%,讯飞人工智能开放平台作为首批国家新一代人工智能开放创新平台,日使用量超过50亿人次,多年的积累为大模型提供了海量行业文本语料和用户反馈数据,“这些真正有价值、有刚需、适合认知智能大模型学习的行业数据,才能更好地满足专业领域需求,推动大模型在具体行业上做得更透。”

“科大讯飞的行业专用系统通过独立、封闭环境训练语料得到的结果,可以避免一本正经回复错误消息,使得专用领域保障性更强。”刘庆峰介绍。

写作能力测试:

能列计划、教孩子、写代码 写诗能力待加强

对于大模型必备的“写作能力”,贝壳财经记者也对“星火”提出了若干问题,如帮助列“对科大讯飞老板的采访提纲”,而当记者对其列出的采访提纲不满意要求追加细节时,“星火”也可以细化采访问题,如“科大讯飞推出的大模型相较于其他公司的有何不同之处?比如说,公司的技术架构、训练方法、数据集等方面是否有所创新?”

下图为针对“五一”假期写出一份北京旅游计划,事实上此类问题贝壳财经记者曾在2月问过ChatGPT,“星火”列出的计划同当时ChatGPT的相比略有完善,且考虑了景点的地理位置远近,但仍然存在共同的问题:旅程安排都比较紧凑,更适合作为旅游公司的行程表使用。

在文本创作方面,“星火”也可以完成任务,不过其中一些作品的完成度仍有待加强,如记者要求其写出一首对“超好吃鱼香肉丝赞叹”的古诗,虽然“星火”写出的诗完全符合格式,但在韵律感上还是不如真正的诗人。

值得注意的是,和ChatGPT一样,“星火”也可以生成代码,如下图所示生成的北京美食爬虫程序(受界面限制图中程序未全部展现)。

此外,由于科大讯飞在AI领域深耕多年,且在医疗、教育等行业有深度布局,因此记者着重提出了一些关于医疗和教育的问题,其生成的答案在逻辑上较为流畅,甚至可以直接拿来教育孩子。

事实上,科大讯飞未来将推出针对教育和医疗的专用大模型。根据公开信息,该公司2022年12月启动生成式预训练大模型“1+N”攻关,其中“1”是通用认知智能大模型算法研发及高效训练底座平台,“N”是应用于教育、医疗、人机交互、办公等多个领域的专用大模型版本。

刘庆峰表示,超大规模的大模型现在已经到了一个临界点,下一个阶段应该用更多专业的子模型来协同训练,获得更可靠的成效。他认为,在教育、医疗等专业领域的模型成效不比千亿级模型差,但是要形成通用领域的智能涌现,需要把这些模型的知识相互衔接,在整体的大模型中去统一训练。科大讯飞希望在教育、办公、医疗等应用领域抢到先机。

值得注意的是,刘庆峰认为科大讯飞做的大模型不需要花费外界想象的那么多费用,也不需要像Open AI那样要花费100亿美元,“大模型再往大做,可能意义已经不大了,应该用各个规模适度的专业模型通过协调联动来形成效益的提升,在各个专业领域形成更可控的表现,这是科大讯飞一直在做的路径。”

生僻问题测试:

能理解生僻概念 不太懂网络热梗

最后,贝壳财经记者决定针对“星火”提出一些较为生僻的问题,看其是否能够回答。

如记者此前咨询其他大模型上世纪科幻概念“戴森球”是什么时,一些模型会给出错误回答,不过“星火”可以给出相对更接近正确答案的回答,甚至在进一步追问下可以给出“建造计划”。

不过,面对一些小众文化中的“梗词”,“星火”并未能很好地理解,如记者咨询曾一度在短视频平台流行的国内电视剧《燕双鹰》系列男主角燕双鹰的名台词“我赌你的枪里没有子弹”究竟是谁说的时,“星火”一共生成了4次答案,但每次生成的内容都不一样,其分别表示这句话的出处来自“《无间道》角色陈永仁,《赌城风云》主角马丁,《无人生还》演员亨利方达,《大逃杀》”等,但就是未提及《燕双鹰》。对此,记者将正确答案进行了反馈。

而当记者提问:当我说,“啊哈哈哈哈鸡汤来喽”,我想表达什么时,星火将这句话中的“鸡汤”理解为了“心灵鸡汤”概念,但实际上这句话来自电视剧《激战江南》第十二集中军统特务,双料高级特工“穿山甲”被揭穿的段落,后来在哔哩哔哩上被UP主二次创作从而成为了“名场面”。

贝壳财经记者发现,事实上“星火”的训练语料并未更新至最新时间,如记者咨询其最近一次世界杯冠军是谁时,“星火”斩钉截铁的表示是2018年的法国。

此外,目前“星火”的具体参数和训练语料、训练时间等未公开,贝壳财经记者咨询“星火”相关问题时其也表示“保密”。

对于认知智能大模型的投入和规划,刘庆峰介绍,目前科大讯飞最核心的研究团队有200多人,其中有几位是科技商业媒体《麻省理工科技评论》“35岁以下科技创新35人”榜单中顶尖的科学家。不过对于“星火”大模型的具体模型参数和训练时间,目前尚未有公开数据,记者咨询“星火”大模型本身得到的回答是“我的训练数据和模型参数都是保密的”。

而在算力方面,科大讯飞有着自己的储备。由于在过去几年其牵头承担了国家自主可控人工智能平台的诸多项目,与华为、寒武纪、曙光等企业有深度合作。根据公开信息,目前科大讯飞对于认知大模型在国产平台上的训练、推理方案已跑通成型,下一步会加快数据标记投入,尤其是海量用户使用之后的强化学习的标注,把大模型的能力用在各个行业上。

“讯飞星火大模型在5月6日正式发布时,还会有三轮的迭代。”刘庆峰表示,“一是多轮对话的理解能力,二是编程能力,三是数理能力,会进一步把现在的优势扩大,多轮对话、语义理解、逻辑推理能力将更强。”

(记者注:由于生成式AI的底层算法问题,回答内容不一定为事实,仅供读者参考)