
1
引言:知识萃取需要什么原料?
我在知乎看到一位做AI训练的哥们的分享,和我的一段经历很相似,他是这么说的:
最近遇到一个生产轧钢设备的客户,他想做一个设备维修大模型。
起初和负责设备的客户总监谈的很兴奋,但是设备维修是一个挺复杂的事儿,很多老员工不用专业的设备,打开机器,听听声音就知道毛病在哪。新来的员工不学习个几年根本看不出毛病。
他们希望做一个维修大模型,这个设备有啥毛病,手机装上一个APP,用语音往模型里一输,然后大模型就给出一些维修的建议,还能给出参考图纸。
产品的想法很好,但是我们进企业一了解需求,发现根本没办法做。为什么呢?因为它的企业数字化系统不支持。
所有的设备修检完后,维修单上就潦潦草草写几个字“修理完毕”。啥原因不说,啥症状不说,怎么修不说,就这么多年没有积累下来数字化的知识和数据。没有维修知识,根本无法搭建知识库,更不用提训练大模型。最后客户负责人也只好遗憾地作罢。
来源:知乎。链接:https://zhuanlan.zhihu.com/p/691829022
这一个案例,特别有代表意义。
假设这家企业维修单管理很严格,信息记录完整,那会有什么不同呢?
答案是可以进行数据整理和适当知识标注,形成训练数据集,那么,可以训练设备维修的AI小模型。
如果不用AI来做,可不可以用人工来完成设备维修知识的萃取?答案是可以,需要识别典型的维修场景,根据典型的维修单,选择有代表性的维修案例,结合业务专家访谈,可以萃取相对比较完善的知识框架模型和详情内容,形成我们比较容易接受和理解的知识手册 - 设备维修指南。
这就是知识萃取的机器学习方法和人工萃取方法。两者有什么区别?如果你需要了解详细内容,请点击访问:
接下来,我们介绍一个完整体现两种萃取模式的咨询项目案例。
2
模式1:水果选品知识萃取之人工萃取
这是一个真实的知识萃取项目,我们的客户是一家水果分销电商平台。
背景不复杂。客户的客户是小B商家,也就是水果店,水果店从水果分销平台进货,再卖给自己的顾客。
水果不同于普通的商品,不好保存,如果不能快速卖掉,就容易坏掉,完全失去价值。
而快速卖掉的关键要素是进货选品要对。
前几年,客户是不管小B商家是怎么进货的,但随着水果电商平台竞争加剧,小B商家选品不好,不能赚钱,就会直接影响客户的持续盈利。
实践也发现,选品是提高平台和水果店黏性的有效手段,但具体的选品方法和技巧零散琐碎,针对不同的地区、不同的门店位置,都有不同的方法。
在这样的情况下,平台邀请我们知识顾问进行专业的调研和萃取,期望提炼一套标准化的选品方法,赋能客户销售工作。
进场之后,我们发现,客户内部其实已经做了一些经验萃取的事情,内部的学习平台上有业务BD的选品分享、有经验萃取课程学习之后的课件,大体内容是一个水果选品流程,以及在每一个流程环节的要点技巧。
客户反馈,这些课程赋能拓展经理帮助小B商家,效果不太好,原因是不够实操,在落地方面,曾经开发为微课,提供给店老板和BD人员,但效果不是很理想,课程的学习率、完成率很低,更不要说转化应用了。
怎么改善呢?要提高萃取质量,自然是用演绎式知识萃取的解决方案了。
首先,需要精准定义选品的知识解法。这是一个典型的决策、预测场景,如果单纯将知识解法框架选择为流程,那就是不精确的,比较好的解法框架是选品要素模型。接下来,沿着这个方向,从四个维度细化高价值选品场景,开发出10多个场景下的选品模型。停留在选品模型还不够,还需要提供具体的操作标准。我们在每一个选品维度下,收集各种关键决策因子(9个),围绕决策因子,建立了100多个典型消费特征标签,调取销售和BD的客户跟进数据,选用各种要素之间的影响匹配数据,确定最佳组合,获得量化评分数据。借助AI的数据分析功能,收集上千种水果在各个场景下、评价维度下数据,最终得到一个选品组合量化工具。最后,作为知识萃取的落地方式,我们为客户设计了一个软件工具,内嵌到业务系统中。BD人员只要选择场景数据、需求基本数据、选品供应等选项,这个工具就会提供一套选品方案。这套方案就是基于萃取的数据来完成的,可以帮助进货选品的组合大概率盈利,内测显示各个批次选品的实际盈利比例是72%,大大高过普通店主自发选品效率。
3
模式2:水果选品AI专业小模型训练
这种非常强调成果导向的人工知识萃取其实是很费劲的,特别是确认决策因子以及收集各种组合的量化关系时,特别不容易。
但这个过程有一个很让人兴奋的发现。
在萃取水果选品知识经验的过程中,我们最大的收获不是开发选品模型和选品组合量化工具的设计开发,而是发现客户数据的新用途。
客户有一个电商销售平台,平台上有大量的小B客户信息、真实的进货信息,与此同时,客户还有一些BD人员的地推和运营数据,包括小B端的进货记录、销售记录(POS)、库存记录等,这些数据非常详实,数据量也很大,是非常优质的数据。
于是,我们建议客户依托这些大数据,训练水果电商销售的知识模型,也就是建立水果销售相关的专业小模型,这个模型应该可以成为一个很有价值的数字资产,成为电商平台的一个竞争优势。
除此之外,AI的小模型也可以大幅度提高选品决策的精确度。
人工萃取的选品决策模型中,找到、确定影响水果动销的要素,以及要素的评价维度或评价指标依靠的是直觉经验,在最终确定决策因子的量化工具表中的很多数据,实际上也是一种经验的数据,精确性还是存疑。
客户最终采纳了我们的建议,今年开始,通过采集水果销售的数据,并进行清洗优化,经过数据训练,基本建立起了这样的一个专业AI小模型,并设计了阶段性的数据刷新机制。
部署和发布后,内部测试表明,小模型的确提高了批次选品的盈利概率,大部分组合盈利概率可以达到90%。
与此同时,模型覆盖了人工水果选品模型没有覆盖的选品维度和影响因子,让“长尾店铺”也可以科学选品。
我们分析下来,基于大数据训练的AI专业小模型有几个优势:
1、数据量化,知识精确。
比如,水果选品的影响决策因子,在人工选品时只能重点收集和分析7~9个,但小模型可以分析33个,并且可以做到量化(下图是top15),有些量化分析还超出了经验直觉(比如保质期对盈利的影响)。而量化直接决定了选品组合的组合数量计算

2、发现和深度挖掘知识模型
在AI模型中,目前挖掘到的知识模型包括决策要素组合、四步选品评估法、水果量化组合设计等等。如下图示例:
图一:一家深圳社区店的选品评估分析思维链

图2:给定预算的水果推荐组合方案(示意节选)

3、非常适合业务的AI化
这个案例中,训练完成后,成果就是模型的数据权重集合,如下:

这个集合可以由程序解读,经过算法设计和大语言模型调用,就可以产品化,业务流程非常清晰,可解释性强。
4
知识萃取的未来主线:AI专业小模型
从这个案例,可以回应上一篇文章的基本观点:
1、演绎式知识萃取的价值高于普通的经验萃取。主要是解法框架更科学。
2、在演绎式萃取思维的基础上,有优质数据加持训练的AI专业小模型明显优于人工的知识萃取,并且直接软件工具化,很多情况下可以绕开赋能培训的环节
。
经验丰富的、能拿到业务结果的业务专家,在演绎式知识萃取的加持下,准确识别高价值场景,绘制知识图谱,借助大语言模型,可以高质量地完成一次深度的知识萃取
。如果在业务领域积累了大量的业务数据,还可以进一步训练出业务领域的专业AI小模型,service as software,更进一步放大知识的价值。