演讲实录 | 金山办公于叶舟:从好看到好用,WPS AI 2.0的思考与实践
前言:2025年5月22日-24日,由中国电子工业标准化技术协会信息技术服务分会、信标委人工智能分技术委员会指导,ITSS数据中心运营管理组(DCMG)、DCMM金融行业社区技术委员会主办,双态IT论坛承办的“2025第十四届双态IT用户大会”在浙江乌镇成功举办。
2025年5月23日,2025第十四届双态IT用户大会之“人工智能管理与数据管理提升之道主题会议”圆满结束。本次会议由中国电子工业标准化技术协会信息技术服务分会、信标委人工智能分技术委员会指导,ITSS数据中心运营管理组(DCMG)、DCMM金融行业社区技术委员会主办,双态IT论坛承办,共有来自金融、央国企等行业的400余人到场出席。
金山办公大客户解决方案中心总经理于叶舟带来《从好看到好用,WPS AI 2.0的思考与实践》主题分享,剖析了AI 办公“好看却难用”成因,分享了WPS AI 2.0对问题的解决思路,成果和企业建设AI的建设建议。
随着AI原生时代的加速到来,AI原生应用也迎来爆发式增长,并逐渐成为各场景应用体验的核心要素。金山办公WPS AI 2.0办公助手涵盖AI写作助手、AI阅读助手、AI数据助手和AI设计助手功能,通过自研20个以上的功能模型,补齐基础模型的能力缺陷,实现从好看到好用。同时构建“产+存+管+用” 的基于“办公非结构化数据”整合+应用的WPS产品逻辑。他表示,基于自身做过很多年AI项目的经验,建议可以多用一些AI工具。一是优先建设原应用工具厂商+AI的应用;二是优先在企业内已有流程中加入AI处理环节;三是尝试通用Agent+通用工具箱型AI,比如MCP工具范式。
下面为演讲实录全文
前面听刘总提及硅基员工和碳基员工之间的交互问题,非常有感触。
从三年前到今年,我大概参与200多个不同规模的AI项目,这些项目都面临着很大的交互问题。特别是在进行办公领域的AI建设时,去年年中我们和客户一起发现了问题:除了基于回答的工具使用频率很高,活跃度很高,使用价值比较明显,以及部分一步式生成辅助材料在垂直领域的使用较高外,大多数人工智能应用在面向企业普通员工时,其利用率并不高。
从数据可以看出,应用刚上线时的使用率很高,达到80%,但随着时间退役,逐步降到50%、30%、15%,甚至两个月后,应用活跃度维持在10%左右。我们发现这个问题以后,很直观的感受到,大多数面向普通员工的AI应用实际上并未得到有效利用,我们亟需探索背后的原因。
如上图所示,这是我们与70多家不同行业的单位深入交流后,他们对于AI在日常工作中的应用满意度变化的曲线图。开始阶段,员工对AI的应用满意度较高,随着实际应用过程中问题的不断出现满意度降低,到最后几乎崩溃。最后,他们认为据大部分的AI工具是玩具,对对日常工作的帮助并不大。
正如我们每天都能看到有关AI的新闻,但实际工作中使用AI取得成果的比例究竟有多少,这可能是我们共同面临的一个问题。经过一年多的的深入探讨,我们大仙普通员工应用AI用不起来的原因主要有三个,一句话来说就是门槛过高。
以上图为例,是来自一个社区的真实样章,其中记颜色的部分是其想要生成报告实际工作的实质性内容。然而,大部分内容生成失败或存在错误。这导致第一个问题也就是可用性问题的出现,随之也导致正确性问题出现,用户撰写内容本质上是为其内容负责,而AI不能代替人类;反复调整过程中就导致了第三个问题的出现,在全文生成主导者是AI时,内容严丝合缝难以修改,造成强烈的挫败感,最终导致用户无法有效使用。
去年下半年,金山办公将WPS AI从1.0版本升级至2.0版本,并推出了面向员工的办公助手产品。
其中,生成方式采用了新的方法,我们称之为“伴写”,这是除AIGC之外的第二种生成方式。我们致力于解决无法有效使用的核心问题。我们发现,代码补全功能非常符合逻辑。不使用提示词,类似于我们日常写作的方式。如果设定一个与我们期望相匹配的角色,并且能够阅读简单的工作报告或内容,那么在不需要提示词的情况下,就能够辅助完成后续内容的撰写,并且用户可以自行决定是否采用这些辅助内容。
针对之前提出的三个问题。我们的回答如下:首先,是否使用提示词?答案是不使用。其次,是否有事实性内容来源?答案是有。最后,控制权掌握在谁手中?答案是员工手中,即人类手中。通过这次尝试,我们发现,使用AI生成与工作相关的内容后,相关账号的活跃度得到了显著提升。
接下来,举两个场景的例子来解释金山的实践结成果。
之前说了“写”,现在说下“改”。改是除写之外用户更常见的场景之一。之前的改写方式是把包括内容、格式等在内的原有内容全部删除,生成一篇全新的内容,这需要从头到尾看一遍。那么,为什么给出这样一篇内容?它好在哪里?改在哪里?等等,导致用不起来。
针对上述问题,我们用修订的概念重新设计改写。以下面的样章为例,我们称为全文润色,通过AI辅助润色,不需要输入提示词。润色后的界面会展现几个核心点:一是标注出改动之处,二是显示被删除的内容,三是解释改动的原因以及新增的好的内容的来源。同时,用户可以自行决定是否接受这些修正。这种方式更接近员工的日常工作方式,我们称之为2.0版本。我们相信,除了AIUI类的问答式交互,还有很多遵循GUI交互逻辑的应用场景,而2.0版本的绝大部分场景就是遵循GUI逻辑的。
我们基于GUI交互能力做了80多项工作。我们相信,这个工作方式可以解决绝大多数AI好看而不好用的问题,这就是WPS这两年中,针对在自然语言交互领域建完以后用不起来,所采取的解决思路。
总结来说,我们在AI 1.0时代发现的问题,在AI 2.0时候形成了一个观点,叫做“AI应用也许没有门槛,所有门槛都在AI之外”,这是因为我们发现AI存在一种很矛盾的情况,尽管它可以进行画图、写代码、写文章等操作,但是很多专业人员并不使用。至于AI 3.0是什么样我不知道,但AI 2.0的逻辑是切实可行的的。
好用背后 必然要下苦功夫
想要实现低门槛的目标,还是需要付出一定努力,下面我简单介绍下相关工作。
无需输入提示词,且拥有图形用户界面,我们应如何实现任务?如何消除差异?金山办公具备一套自己的文档洞察引擎。
首先是解析。解析PDF、DOC、XLX、PPT、markdown等格式文档,包含文中段落、标题、字体等格式信息或图片、表格等媒体信息,让大模型可以与文档高价值信息全面交互,取代仅能处理类TXT简单文档的局限方案。
其次是分块,基于文档大纲结构进行智能切分。依据大纲构建段落级文档结构树,根据标题级别和段落字数进行段落分组,而后在分组基础之上进行段落拆分,从而使每个分块数据的语义理解接近比较准确的理解状态。
三是Query理解。用户查询内容进行分析和理解的过程,从而更准确地把握用户的意图和需求,从而提供更相关、更精准的信息或答案。
最后是召回排序&溯源。从大量文档中选取与用户查询最相关的文档的过程,并与大模型交互后呈现给用户的最后一程。
以上是我们藏在基础模型之后,或者说是藏在AI Server背后所做的工作。我们大概自研了20余个功能模型,且数量在不断增加。这些功能模型与到基础模型组合到一起会有一个非常好使用的体验效果。它不仅适合大众使用,也符合了金山办公做基础办公或通用办公领域的公司定位。
基于此,我们开发了一种垂类应用。以公文为例,包含专业编辑器工具、数据源以及范文样本模板库,实现了文档一键快速排版功能,其排版效果几乎可与专业排版软件媲美。
最终我们在绝大部分场景摆脱传统排版软件,直接进入高效排版,这解决了95%以上的工作需求。再加上AI的辅助,每种应用才能达到专业机构和专业人员所期望的状态。AI 3.0的发布时间我不清楚,但是我相信AI 2.0就是一个很好的状态,这就是 AI 时代基于“办公非结构化数据”整合+应用的WPS 365产品逻辑。
AI 2.0跟金融机构是比较有相关性的,AI 2.0或是包括2.0在内的WPS 365,都支持私有化部署,并且能够适应各种安全级别的需求,实现跨网络安全的数据和文件交换,无论是从低安全级别向高安全级别,还是从高安全级别向低安全级别的数据迁移。
最后,基于在人工智能项目领域积累的经验,对于AI应用怎么去建的困惑,我个人有三项建议。
首先,优先建设原应用工具厂商+AI的应用。基于AI应用门槛可能在AI之外这个逻辑,专业厂商原本使用的软件,包括所有业务系统、办公系统等,我认为优先考虑自己已经做完AI应用的能力,这是一种保证。
其次,企业内已有流程中加AI处理环节。如果脱离这些厂商应用之外,可以优先考虑内部已经长期以及固化存在的流程,选择一个环节加入AI技术,以增强流程的活跃性、使用频率以及用户体验。
最后,尝试-通用Agent+通用工具箱型AI。类似于Manners这样的交互方式与MCP这样的工具泛式共识,我相信在未来,除了前述两种应用之外,对于那些难以预判意图和流程的应用,可能会通过思维链的思考,制定一个策略(Llay),然后执行并调动其他模型仅剩行动(Action)。在执行过程中,通过MCP调动通用工具箱获取外部数据,最终实现预期效果。这种模式可能是一种低投入、高回报的建设途径。