合思佟佩泽:决定AI应用效果的是使用AI的人

互联网
2025
04/27
14:05
分享
评论

4月25日,以“AI拼才会盈”为主题的2025合思春季产品发布会在杭州正式召开,大会现场数百位企业CEO、CFO、CIO与主流媒体共同参会。大会现场,合思首席产品架构师佟佩泽发表主题演讲。

在佟佩泽看来,人们在AI是否能够适应更复杂的工作场景存在三个担忧:易出错、难落地、高成本。合思通过“可信数据源+任务编排”解决AI的幻觉问题;通过工作流将AI能力与现有产品 融合,解决AI落地难题;通过自研的模型调度算法,进一步降低AI在企业的应用成本,解决AI费用高等难题。决定AI应用效果的,并非AI本身,而是使用AI的人。产品发布现场采用工坊形式,让参与者亲身体验AI在无需报销、收支管理、电子会计档案三个产品中的应用场景。

以下为佟佩泽现场演讲实录(有精简)

01

AI的三种递进使用方式

正式发布新产品前,我想先做个调查:在座的嘉宾中,用过AI的人请举手。看来很多朋友已经使用过AI,我猜大多数人用的是——Deepseek或同类生成式对话产品。我们印象中AI最常见的用法:一个聊天框,你问它答。除了“服务器繁忙”的时候,大多时间,我们都觉得AI助手很好用。这里有一组数据:Deepseek以及其同类产品月活约9900万人,占中国互联网人口约9%,且渗透率还在不断提升。

然而,AI工具的用法远不止于此。例如,合思的产品经理们在搭建AI功能demo时,通过一个工作流,把AI作为流程的一个环节来使用。在活跃用户口径上,大约只有0.7%的人用过这种AI;还有一种使用场景,我们给AI一个买东西的指令,它会规划步骤,然后像人一样打开浏览器、访问购物网站、查询商品、加入购物车,直至等你付款。这种通过一个任务目标智能规划并执行的AI,大约只有0.2%的人用过。

如果将这三种AI使用方式划分代际:第一代以对话形式使用,通过对话的方式与AI交流获得答案,我们称之为对话增强型;第二代被放入流程作为节点使用,我们称之为流程嵌入型,例如我们已经可以让AI做一些确定性的工作,例如将海外小票里的金额找出来,与单据上的信息做比对;第三代属于给个任务就干活,我们称之为自主规划型,让AI是根据用户的目标诉求,不断探索尝试,如果失败它会想其他办法来解决——例如未找到发票票面金额,AI会调用图片检查工具,看发票是否拍得太模糊,如果是,它会发消息让用户提供一张更清晰的发票。

目前这三类AI的使用渗透率如图所示,每个原点代表一个人,这里有1000个原点,代表1000个人。其中蓝色为用过对话增强型,绿色是用过流程潜入型,红色是自主规划型。其中红色区域代表1000个人里只有2个人用过。因此,我们不难发现:你用的可能是满血Deepseek,但一定不是满血AI。

到了效率和可靠性要求更高、逻辑更复杂的工作场景,例如财务管理场景,满血AI好用吗?经过一年的走访,我们总结了大家的三个担心:担心AI出错、担心难落地、担心成本。

02

可信数据源+任务编排解决AI的幻觉

AI会不会出错?会,但人更会犯错。大模型确实会出现幻觉,例如爱因斯坦是因为相对论获得了诺贝尔奖。根据Vectara的报告,Deepseek的三个模型,智能程度越高反而幻觉率越高。更有意思的是根据Claude团队的一项研究,AI会为了讨好人类而撒谎。例如研究者让AI做一个余弦计算,并给了个答案4,问答案是否正确。而AI编了个假想过程,甚至刻意向前推算了几步,让这个过程更可信,但实际上AI并未进行任何计算。

如何解决幻觉问题?合思做了两件事情。一是给AI提供更高质量的可信数据。例如在行程规划时,如果让AI去互联网上搜索,它很容易被信息误导。比如让AI规划了一个去上海的行程,回程车次是G7588,但是实际上这趟车是杭州到上海。导致错误的原因是——AI找到的那篇网页是上海与杭州之间的所有高铁的列表,但没有标明方向。因此,我们将合思商旅的数据开放出来,让AI只能去合思商旅调取可控可靠的机酒火信息,进而避免因为信息失真导致的错误。

二是任务编排。合思并不直接使用大模型,而是在一个编排好的流程里使用。如此一来,一方面可以把问题拆小,让大模型聚焦解决某一具体问题;另一方面也可以在流程中增加检查逻辑,对大模型输出结果进行验证。例如在大模型进行行程编排时,用一个小模型对行程关键信息进行提取,用于行程闭环检查,验证大模型设计的行程是否符合用户差旅意图。

通过这一系列保障手段,合思将AI的幻觉压制到了一个较低水平——甚至比人的出错率还低。以AI审批为例,合思的AI审核准确率比人工高出8%。

03

AI与系统融合破解落地难

从技术上克服了幻觉,AI看起来可用,但落地难,尤其难在与企业现有系统的结合。AI教父杨立昆曾表示:“通常人工智能会失败的地方,不是在基础技术上,不是在那些花哨的演示上,而是在你真正需要部署它、应用它,并且让它足够可靠,能和现有系统整合的时候,这时候就会变得非常困难、非常昂贵,而且比预期要花更多时间。”

以AI填单为例,看上去只需要把发票跟描述给到AI,它就就能创建一张单据。但实际上,这里不仅有对大模型的应用,还有很多与合思费控的交互。例如在上传发票后,先通过合思发票模块的能力做OCR与验真查重,然后再通过大模型匹配合适的费用类型。这就需要使用AI的系统具备极高的AI友好性,即让AI能够轻松方便地调用系统中的各项能力。为此,合思专门设计了一款AI友好工具网关,基于MCP行业协议将合思系统的一系列能力开放给AI使用,而这也是合思在落地AI过程中最耗费研发资源的事情之一。

AI与系统的整合为何如此重要?当我们使用Deepseek时,它原本是一位得力的助理,可以帮我们打电话、约日程、提单据、订机票等。但是现在我们只能与它对话,将它当做聊天机器人用。这就好比企业招聘了一位聪明的员工,但是我们不让他进入办公室,也不让他访问任何企业办公系统,导致了它能贡献的产出非常有限。

如果将AI智能体的三个代际比作企业中的员工,第一代对话增强型是一位聪明的助理;第二代流程嵌入型是一位资深骨干,可以在业务流程中的一个确定的岗位角色上发光发热;第三代自主规划型,则像一个靠谱的团队。只需要给它OKR,它就就能帮你实现。其中,流程嵌入型的技术已经趋于成熟,将是接下来一段时间企业AI应用的主流方式。自主规划型看起来很美好,但是受限于模型智能水平,现在除了编程领域,可靠的应用还比较少,仍处于萌芽阶段。

因此,合思的选择不言而喻,通过工作流将AI的能力与现有产品相结合,在流程里使用AI,可以进一步提升AI的可靠性。同时,AI又可以借助于工作流调用合思系统中的各项能力,真正与系统 融合起来。

04

合思模型调度算法,显著降低AI成本

克服AI幻觉、解决AI与企业系统整合,就剩下最后一个担心——AI是不是很贵?坦率而言,今天的大模型价格从绝对值上看并不便宜。但是在很多场景中,AI的成本已经比人工便宜,且随着大模型技术的发展,AI正变得越来越便宜。

以海外票据的识别与解析为例,2023年为了达到90%以上的准确率,合思构建了非常复杂的智能体工作流,识别一张发票的成本高达20元;而如今,每识别一张海外票据的成本可以压缩到0.6元,每录入一张海外票据的人工成本约为2.4元。因此,从成本效率视角看,AI已经能够替代人类完成枯燥且重复的工作。

同时,合思在AI基建过程中采用“模型调度算法”,根据要执行的任务选择更契合的大模型。比如有些模型擅长推理,但工具调用能力较弱。合思的AI会选择先让该模型做规划,再让擅长调用的模型根据规划落地执行;此外,在完成基础任务时,也将自动选用参数量与成本更低的经济实用型模型。如此一来,在执行任务成功率更高、重试次数更少的基础上,合思进一步降低了AI在企业中的应用成本。

整体回顾合思与AI的结合,通过多模型调度策略,集百家之长,通过提供可信数据,以及在任务编排中使用大模型,最大程度规避了幻觉问题,让AI真正做到企业级可靠;同时为AI提供了一系列工具,让它的能力能够与企业业务结合,并在此基础上,构建了一系列原子化的能力,用于构建对话型智能体与流程嵌入型智能体,最终服务于多个财务场景。

尽管现在的AI距离理想中的阿拉丁神灯仍有很大提升空间,但AI在很多企业应用场景里的可靠性和ROI评判角度都已非常成熟。在这些技术成熟的场景下,决定AI应用效果的,并非AI本身,而是使用AI的人。合思发布的三大解决方案:无需报销+AI、收支管理+AI、电子会计档案+AI,将帮助企业凭借数智化工具挖出更多净利润。

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表 的观点和立场。

相关热点

相关推荐

1
3
Baidu
map