
引言:获取知识方式的方式,看来不仅仅是人工了,AI给知识萃取和落地应用带来了新的解决方案。
1
两种萃取思维:人工知识和机器学习知识
作为一名知识工程的顾问,越是深入了解AI,就越有新的发现。
人类获取知识的方式甚至定义知识的方式,和机器学习差异非常大,可以说,是两种差异非常大的思维方式。
要理解这一点很不容易,为了避免学术化,我以一个下棋的知识获取过程作为例子来进行说明。
“琴棋书画”是中国的四艺,其中,棋特别是围棋变幻极大,每一步棋都有海量的可能性,以至于下围棋到了日本,有了禅道的境界。这么复杂的东西,人类是如何总结知识和学习的呢?
我不下围棋,所以特意去了解了一下,按知识解法分类的方式分析,围棋知识主要是三方面:
- 规则。比如落子规则、胜负判定规则、活棋和死棋等。
- 关键行为技巧。比如如何做眼、打劫、收官等。
- 布局。包括布局类型和结构(比如,二连星布局)和布局的原则(高低配合、抢占大场)。
下围棋的历史有几千年了,人类对于下棋的知识做了很多的总结和记录,知识载体形式,主要是书和棋谱,比如《李昌镐精讲围棋定式》、《玄玄棋经》等,书就是知识经验,棋谱其实就是下围棋的优秀案例。
我们人类的知识,细看就是这么朴实无华。
下棋这个领域,AI已经完全攻克,并且实现了对人类的完全碾压,这个例子,值得分析一下。
接下来,我们看看人工智能下棋是怎么做的。看看
进入智能化阶段之后,上面的下棋知识和下棋过程有什么变化?
总结下来,主要有三个主要的进化过程:
1、人工编程的下棋程序 - 人类经验的数字化。
以世界上最好的象棋程序Stockfish为例,它将下棋的规则以及应对策略变成算法,有些算法策略还相当复杂。这种程序使用的就是人类的显性知识,在和人对弈的过程中,下棋程序基本是专家高手的段位。
2、下棋专用AI - 经数据训练的神经网络。
这个例子就是AlphaGo,Deepmind公司使用一个非常庞大的围棋棋谱数据库来训练下围棋的神经网络,这个神经网络可以预测落子的获胜概率以及下一步落子的最佳策略。
注意,这一次,AI是完全不同的策略,它并没有使用人类的知识(参见上面三方面的知识),而是使用了人类围棋对弈的棋谱数据(当然,也包含自我对弈的棋谱数据),通过机器学习训练,直接获得下棋的能力。
结果大家都知道了,AlphaGo成为了人类有史以来最高明的棋手,有很多创新的招数。
比如,下图的这个招数,据说非常高明,李世石说自己很震惊。
3、自反馈强化学习的AI - 不需要人类知识和数据的神经网络
这就是2017年的AlphaZero,这个AI完全不用几千年以来人类积累的围棋知识和智慧,也忽视几百万盘棋局棋谱,从零开始学习。
它不仅打败了人类棋手,也打败了AlphaGo。也就是说,在它的算法中,人类的经验、知识、智慧都不需要,在它面前,这些其实变得过时了。
在以上三个层次中,层次1使用人类自己总结提炼的知识,层次2使用人类的数据,通过训练获得更好的知识,层次3通过海量的自反馈,AI自己获得知识。
2
新思维:知识萃取的三重门
尽管我们知道层次3的框架和算法,但是,这其中的涌现过程,对于我们人类来说,仍然不可解释。
接下来,我们只关注前两个我们可以理解和解释的层次。
有了AI这个对手的启发,我们对于知识萃取有了新的视角,这个视角,就是审视比较的视角。
我们可以将知识萃取划分为明确的三个层次和梯级,分别是:
1、经验萃取级
就是将实践的经验归纳总结出来,体现的形式通常是一些原则(比如围棋布局的原则:高低配合、抢占大场)、流程(比如X步法)、工具(比如各种操作表单)等。
这种层级的萃取,主要是运用归纳法,提炼出一些知识要点。范围有限,碎片化和个体化特征明显。比如,我国古代算术发现了一个勾三股四弦五的特例,但真正带有普遍性的知识是哥达毕拉斯定理,也就是a²+b²=c²。
2、知识萃取级
简单来说,就是萃取出普遍性、一般性的知识。演绎式知识萃取中,我将主要的知识解法框架分为8种,深度由浅逐渐深入,分别是:
- 流程模型
- 行为策略
- 特征模型
- 组成结构模型
- 行为原则(规则)
- 情境分类策略
- 条件要素模型
- 公式规律数学模型
比如,前面下围棋的知识体系中,经过演绎式知识萃取的识别,它是具有一个多样化的知识解法框架的。
在这个层级的萃取中,主要是运用演绎的方法,根据知识的一般规律,分析甚至设计一个场景任务完成过程、一个问题解决过程可能包含的知识。在高端的科学理论研究中,这种演绎甚至必须要用数学方法才能得到发展。
3、机器学习级
前面两种方法,本质上都是靠人的认知来完成的。尽管人作为一个社会化的群体,实践丰富,加之科学方法论的加持,获得的知识体量和有效性惊人,但是,仍然有两个方面的问题:
(1)在特定的领域中,实践的宽度不够。
比如,在人类和AI在围棋的智力对决中,很明显,AI找到的一些布局方法是人类几千年来没有尝试和发现的。
在围棋这个领域中有这种现象,在一些其他领域也是如此,特别到了现代,人类实践的细分领域太多了,在每一个领域,人类实践、尝试和研究,其实并不充分,相关的知识也比较缺乏。
(2)在特定的领域中,实践的深度也不够。
对照知识萃取8个等级的知识框架,就可以知道,我们每一个业务领域的知识,大多都是一个模糊的、不精准的知识。在实际完成工作或解决问题时,需要靠人的智力或模式识别能力进行直觉判断。
可以这样说,任何一个领域,如果还没有做到用数学的方式来表达其中的知识,都可以说深度不够。
单凭这个简单的定义,就可想象各个领域的知识深度。
然
而,机器学习能解决这个问题。
方
法简单粗暴,就是利用领域的大量实践数据,通过深度学习算法,分析和拟合出各个要素对结果的影响权重,以及各个要素之间的相关性程度,最后形成一个神经网络大的知识模型。这个模型,就包含着我们人类最有效的经验和可复用的知识。
3
知识萃取的主线:演绎萃取和AI专业小模型训练
从上面的分析,可以看出:
1、演绎式知识萃取的价值高于普通的经验萃取。因为,前者更系统和全面,萃取的知识更有深度。
2、有优质数据加持训练的AI专业小模型明显优于人工的知识萃取。因为,前者挖掘的知识宽度和深度是目前已知最高的,并且直接软件工具化,真正做到了service as software。
考虑到应用场景的差异,接下来的知识挖掘、知识萃取,最优的选择路径应该是:演绎式知识萃取和高价值场景AI小模型训练。经验丰富的业务专家,如果能够绘制、设计任务场景、岗位的知识图谱(知识地图),在此基础上,借助大语言模型,他完全可以高质量地完成一次深度的知识萃取。如果在这个业务领域,还积累了大量的业务数据,完全可以通过知识工程的方式,训练出业务领域的专业AI小模型,它的业务价值和知识的准确性更值得称道。