知识萃取专题1 - 演绎式知识萃取技术

作者:江焕勇

· 知识萃取专题
简课网    知识萃取  江焕勇

开篇语:

知识萃取技术分享专题,共6篇,这是第一篇,硬核学习技术,欢迎关注,未经授权,不要用于任何商业用途,谢谢。

1

归纳式知识萃取方法

在通常的理解中,知识萃取是从案例或经验中归纳总结出知识的过程。

比如,铁轨常规故障检查中,有一种方法就是“敲打铁轨判断故障方法”。这种方法就是总结出异常声音和潜在故障之间对照关系。这就是从经验中总结归纳出来的知识。

简课网    知识萃取    江焕勇

这种归纳式的知识萃取方法,现在应用很广,常见的大体是以下形式:

比如:

简小一在四川眉山观察一位川菜厨子加工一个猪肘子,将他做菜的过程总结为若干个步骤,与此同时,观察厨师每个步骤的操作要点,记录为动作的方法,这个提取的过程就是归纳式知识萃取方法。

这个过程和动作步骤的操作要点,就可以作为一个知识,作为知识萃取的结果,名叫“东坡肘子料理秘笈”。

简课网    知识萃取    江焕勇

所以,归纳式知识萃取的关键字是:经验 + 归纳总结

2

演绎式知识萃取

归纳式知识萃取近几年得到了大面积应用,取得了不少的成果,与此同时,也暴露了一些实际问题,其中最大的一个问题是:归纳萃取,所得到的知识比较零碎,不够系统,也不够完整。

这主要有两个原因:

一方面,在组织内部,岗位条块分工,业务专家的实践经验往往是一个工作任务部分环节,嗯,千万不要以为业务专家什么都懂。

另一方面,即使部分业务专家业务实践全面,缺乏萃取的知识结构框架,他也只能从局部进行知识的总结归纳,很难总结出结构完整体系化知识。

这也是现在知识萃取往往从一个个具体案例、一个个“妙招”着手的结构性原因。

演绎式知识萃取,核心是:知识框架演绎结构+知识点结构 +分层知识归纳提取。也就是说,演绎式知识萃取并不排除归纳法,而是先根据知识的结构规律,确定知识主题的框架和知识点的内容结构,然后再使用归纳方法进行内容提取。

这样,既可以提取知识内容,也可以保证知识主题的系统和结构的完整性。

简课网    知识萃取    江焕勇

下面以一个实际例子进行说明:

这是一个钻井勘探相关的一个知识萃取主题,关联的工作任务是解除卡钻(钻具不能自由活动)。场景大概类似下图这样:

简课网    知识萃取   教学案例

演绎式知识萃取方法,是这么工作的:

共分为三个部分,一是绘制知识框架(A部分),二是提取知识点内容(B部分),三是表达知识理解性内容(C部分)。下面分解说明:

3

演绎式知识萃取 - A部分

A部分是确定所萃取主题的知识框架。这个环节其实很关键,如果完成得不好,很可能导致B、C部分的返工。

关键点有三个,分别是:

(1)知识框架演绎前提:完成工作或解决问题的知识都有一个内在的结构。

也就是说,完成一项工作任务、或者解决一个具体问题,所需要的知识往往有一个流程步骤、一些动作要领/操作策略/条件参数、一组需要辨认的概念或分类、以及完成动作或辨认所需要的一些关键信息和清单模板。

我将以上结构称之为知识萃取图谱

下图就是一个实例:

要成功完成【陈述事实】这个动作,需要有一个指导方法:【表达事实,不要表达观点】的行为原则,而要做到这个行为,关键是辨认【观点和事实】,而提高辨认准确率,有一个清单工具【常见表达事实的话术清单】。

简课网    知识萃取    教学案例

(2)梳理场景任务的核心过程

以上面的例子进行说明,【解除卡钻】是一个工作任务,其核心步骤主要有三个:(1)判断是否发生卡钻;(2)判断卡钻的类型;(3)解除卡钻

一个业务专家,面对这样一个单一的局部知识,是可以通过归纳法梳理出解决问题的核心流程的。如果不能,基本可以肯定,这位业务专家并非是萃取这个主题最合适的人选。

简课网    知识萃取   江焕勇

(3)分解核心步骤的知识点

分解工具就是知识萃取图谱(简称为知识图谱)。

分解的过程是:

  • 自上而下分解,从过程 → 原理 → 概念 → 信息工具

  • 审视分解知识点的衍生知识点。也就是看概念衍生,过程 → 概念和原理 → 概念,以及信息工具的衍生,过程 → 信息工具、原理 → 信息工具。

这种分解不是对知识内容的分解,而是对上一级知识衍生知识点的梳理,并不是思维导图的逻辑。

分解完毕后,完整的知识图谱大体上是这样(7个知识点):

简课网   知识萃取    知识图谱    江焕勇

4

演绎式知识萃取 - B部分

B部分是提取知识图谱中各个知识点的内容。

演绎式知识萃取,在提取知识内容方面,并不是由萃取者按自己喜好归纳,而是在知识内在结构规律的基础上进行归纳。

简课网   知识萃取

演绎式知识萃取认为知识有分类,每一种类型的知识都有自己独有的知识结构,归纳提取其内容时,需要按照这个知识结构进行内容的总结和表达。

实际上,演绎式知识萃取,将知识分为四种类型,15种萃取结构。

如下图样例所示:

简课网   知识萃取   江焕勇

5

演绎式知识萃取 - C部分

这一部分是开发所提取的知识的理解性材料。

提取出来的知识内容,可理解性比较差,这时还需要进行:

  • 生动化表达的优化

  • 增加理解性材料,主要是例证材料和测试题,前者是提供例子,后者是提供理解是否正确的反馈。

(1)生动化表达,主要是降低内容表达的理解难度。

用视觉用到的方法很多,比如,下面,这个就是理解两个概念,用的是图形+对比。

简课网   知识萃取   江焕勇

用B部分提取的知识内容,其实很方便做出这种对比+图形的优化表达效果。如果要了解这方面更多内容,可以点击:生动化表达的技巧

简课网   知识萃取   江焕勇

(2)编写知识点的例证材料

为了理解知识点的内容,除了信息工具之外,其他三种类型的知识点都需要编写例证材料。

简课网   知识萃取   江焕勇

(3)编写测试题

 

测试题的目的不是为了考试,是为了让知识阅读者确定自己的理解程度。因为不同的知识类型,学习目标差异很大,所以,编写测试题的策略,是根据不同的知识类别编写不同类型的测试题。

 

比如,SMART原则这个知识点,应该如何设计测试题呢?

a. 填空题。请受众填写S.M.A.R.T的具体表述

b. 连线题。列出一些目标和S.M.A.R.T,请受众将目标体现出来的特征和五个原则对应起来

c. 判断题。请受众判断是否目标是否符合S.M.A.R.T原则,并分析为什么

d. 案例分析。分析一个具体的目标设定情境中,角色失败或成功的原因

 

以上四个选项都可以,但最关键的是c和d,如果缺失,这个知识点是无法确认理解的,因为原理类知识就是需要原因判断和结果预测的。

 

 

总结一下:

 

1、演绎式知识萃取是解决知识框架和知识结构完整性的解决方案,萃取过程中包含现有的归纳式内容提取方法;

2、方法论中主要包含三部分,一是绘制知识框架(A部分),二是提取知识点内容(B部分),三是表达知识理解性内容(C部分)