学科领域知识本体建设方法研究



  

  1 引言

      图书情报界组织文献资源的历史已有两千多年,对信息资源的组织也有20多载,面对知识资源的数字化,我们所面临的前所未有的挑战是对知识的组织。什么是知识组织?对知识组织的诠释需与信息组织加以比较才能准确界定。简单地说,信息组织是对无序的信息进行系统化和有序化的过程,对信息的描述、揭示以及序化是信息组织的中心内容。知识组织则是对知识的本质以及知识间的关联进行揭示和控制的过程及方法,对信息的优化和重组,对知识的结构、关系和语义的描述与揭示,对知识的提取、挖掘和智能化表示是知识组织的中心内容。
    当前,数字图书馆的资源组织正由信息组织向知识组织迈进,在对数字资源的知识组织中,知识本体无疑是最本质、最重要的技术和方法。知识本体可以看作是对知识规范的抽象和描述,是共享、重用知识的方法,目前已经成为一种提取、理解和处理领域知识的工具。如果把某一学科领域知识抽象成一套概念体系并使其“明确”、“形式化”和“共享”,就构成了这一学科的领域本体。领域本体的特征是针对特定的学科领域,描述了某一学科中的概念、概念的属性、概念间的关系以及属性和关系的约束。通过某领域的知识本体可将该领域的知识组织起来,使数字图书馆对知识的表示从信息的集合到知识网络和知识地图。
    构建领域本体的方法已经成为一个新的研究热点,在实践中也产生了一些面向不同应用需求的本体方法,如IDEF-5法、骨架法、企业建模法、METHONTOLOGY法、循环获取法、七步法等。虽然领域本体的开发与建设面向不同的、特定的学科领域,但其过程则具有一定的规律性,需要以一定的科学方法为指导,需要遵循一些通用的技术路线。作者曾在另文中提出本体构建的原型进化方法,本文以此为基础,聚焦于一个本体进化的周期过程,对其中的基本流程和方法作一概要的梳理和分析。
    一个学科领域知识本体原型的建设,一般包括本体需求分析、本体构建规划、获取本体信息、确定本体概念及关系、本体形式化编码、本体的评价、本体的进化、本体的表示等过程。

        2 本体需求分析

      领域知识本体建设一定要根据具体的应用需求进行建设。如同软件工程注重需求分析一样,知识本体的开发与建设必须将本体需求分析置于首要位置。
    需求分析阶段是本体开发的开端,也是本体建设的基石。它是从实际应用的规划、目标及特点出发,对本体系统进行的一种规范化描述。一般来讲,本体需求可分为功能需求和非功能需求。功能需求主要描述本体的目标实现;非功能需求主要描述本体要达到的性能指标。
    作为数字图书馆领域的本体建设的需求分析,其要旨是确定领域本体建设的目的、范围、用途和使用者。基本内容应包括:
    ●所构建的知识本体覆盖的学科领域,该学科领域资源的基本状况。
    ●知识本体的建设目的、任务要求,实现的社会效益与经济效益。
    ●利用知识本体的基本用户与核心用户,用户需求的基本特点。
    ●较之其他资源系统,知识本体将提供什么样的服务。
    ●知识本体和其他资源系统的关系,包括资源的进一步映射和整合。
    ●知识本体在建设时间、进度上的要求。
    对本体需求分析时要注意以下问题:
    ●需求分析的过程性。本体需求分析应包括需求调研、分析需求、需求描述、需求认可、需求演进等逐次递进的过程。需求分析不仅应是本体实施的前提,而且应贯穿于本体开发的整个生命周期。故此,要进行科学的安排。
    ●需求分析的动态性。因为本体需求贯穿于整个本体建设过程,用户需求在很多情况下是隐性的。不明确的,所以本体需求分析只能建立在不完全的需求基础上。为此,本体需求分析既要维持需求的稳定性和精确性,也要在实施过程中不断地进行动态调整。
    ●需求分析的文档化。为了指导领域本体建设的后续工作,应该编写一份基本需求描述完整、具有可操作性的“需求分析报告”,以文档的形式明确需求分析的结果,作为该阶段的成果。

        3 本体构建规划

      “凡事预则立,不预则废”。本体建设应有明确的计划,其目的是用一套程序和标准来规范开发过程,让研究者和建设者了解其目标和所要做的工作,将偏离目标的损失减至最小;同时合理有效地开发计划便于对建设过程进行检查和控制,预防可能出现的问题,及时采取有效的应对措施,使本体建设置于一种规范化、可视化、可控制的管理之中,提高本体研究与建设的效率。
    本体建设计划应以“需求分析报告”为依据,主要解决三个基本问题:确定目标,确定完成目标的程序,确定工作所需要的资源配置。内容大致包括:
    ●明确计划中要达到的工作目标,论证工作的重要性和必要性。
    ●明确工作的具体任务和要求以及每一阶段的中心任务和工作重点;对任务进行层层分解,列出工作责任矩阵,确定完成工作的优先次序。
    ●明确计划中各项工作开始和完成的时间,在任务分解的基础上进行统筹 规划,以便有效地控制和协调。
    ●说明完成计划的方式方法、具体措施,对资源进行合理分配和集中使用,并进行综合平衡。
    ●规定控制标准和工作指标,也就是说必须做到什么程度,达到什么标准才算完成了计划。
    制定计划是本体建设过程中必不可少的重要步骤,但在研究项目中往往被忽略,致使其开发过程难以受控,从而导致实施过程中的重新计划。本体建设计划的关键是计划的合理编制和有效执行。

        4 本体信息获取

      获取领域信息是领域知识本体建设的关键。这一阶段的主要目标是确定领域知识本体的信息源,获取领域本体信息,通过收集领域信息,充分了解领域知识的现状,为本体建设奠定基础。获取领域信息大体有两条路径:
    ●复用现有本体。获得领域信息的最根本的方法应该是考虑复用已有本体的可能性,通常的方法也是最行之有效的方法是复用已经广泛使用于各个学科领域的主题词表(也称叙词表)和分类表。
    主题词表中的主题是表达文献主题的词和词组,是经过规范化处理的,具有专指性、准确性、明确性和唯一性。其具有完备的参照系统,通过主题词下设置用、代、属、分、参等多种参照项,以表示概念之间的等同关系、等级关系和相关关系,在主题语言系统之间建立起语义联系。
    与主题法不同,分类法中的类目(概念)是表达文献内容学科知识领域的概念,是遵循逻辑分类规则建立的科学语言,具有知识的系统性和整体性。分类法具有完备的类目组织系统,通过等级结构、逻辑关系显示文献主题概念(类目)之间的从属、并列、交替、相关等各种关系,在分类语言系统之间建立起语义联系。
  本体是概念和概念关系的集合,而主题词表/分类法也是主题词(概念)和关系的集合,其基本功能和本体具有一致性。目前,作为主要检索语言,各种主题词表和分类法已经覆盖各学科领域。复用现有领域本体可以使本体的建立事半功倍。但是,由于传统的主题词表与分类法中的术语是规范的(不能用自然语言来表达)、知识点是线性的(不能反映概念网络)、内容结构滞后(难以经常修订)、语义简单、缺乏对所应用资源的针对性等等,因此将其应用于数字图书馆的领域本体建设,需要对其进一步修改、完善。
    ●利用相关方法与途径获取。如果所建本体领域没有可用的主题词表和分类表,可以采用以下两种方式获取本体信息:一种是组织领域专家承建,领域专家通晓本领域学科体系和知识,能够较为准确地描述与提供领域本体的基本信息;一种是利用知识获取工具从数据库中提取,学科领域现有的不同类型的数据库可以看作是领域的知识源,通过一些知识获取技术(如关系数据库中数据字典、E-R图手段以及人机交互技术、机器学习技术等),从现有的数据库中提取专业术语,挖掘、发现学科的基本知识。
    如果将上述两种方式结合起来使用,可以获得更为完整和精确的领域本体信息。

        5 确定本体概念及关系

      这一阶段的主要目标是确定领域知识本体的主要概念,揭示概念间的各种关系,构筑起领域本体的概念模型。
    ●确定领域知识本体的核心概念集。如果是复用现有的本体,即可直接应用领域主题词表和分类表中的主题词与分类名称作为领域本体的核心概念。它们都是经过受控处理的,语义及等级关系清晰、严格,可以根据应用的需要直接复用。
    如果是通过其他渠道获得领域知识,那么确定重点概念及关系的过程,可以参考骨架法中提出的middle-out方法。这种方法不要求概念的选择是自底向上或自顶向下。因为在领域知识中要确定哪些是顶部概念、哪些是底部概念是非常困难的。可尽量选取最基本、最常见的概念及关系,并用精确无二义性的术语加以表达。同时对应编制一份“术语集”,把选择术语的过程加以描述,罗列出最终选定的术语,并对每个术语赋予相应的自然语言描述。
    ●构建领域知识本体概念关系。即将所获得的领域概念组织成概念网络。
    如果是复用现有的本体,首先应考虑主题词表和分类表的对应关系,即主题词表概念间的等级关系与分类法概念间的学科相属关系。分类表可以看作是领域本体概念网络的主体结构,主题词表可以看作是概念网络的各级概念节点。
    目前各学科领域现有的主题词表和分类法都有其相应的电子版,也出版了一些类表和词表完全结合在一起的分类主题一体化词表,这种一体化词表中每一类目都对应着一个概念,类目间的学科等级就是概念间的等级关系。如果领域的主题词表和分类法是分别的或是分类主题对照词表,分类表与主题词之间没有完全的等值对应关系,则需要另外创建类目概念节点。可先利用主题词表中的各参照项关系形成概念网络(具有等同关系的所有主题词可形成一个概念),然后将分类法的学科体系结构嵌入其中,作为概念网络的主干结构,再建立具有等级关系的类目节点和概念间的对应关系。
    如果是自己创建的本体,其概念关系的建立也应该遵循上述方法。所建立的本体概念间的基本关系应该包括等同关系、等级关系和相关关系。
    ●将本体概念及关系模型化。明确了本体的概念以及概念间的关系,接下来就可以采用一定的方法(如图示法)来揭示概念间的各种关系。     6 本体形式化编码

      本体的形式化编码阶段就是用选定的本体语言来描述知识本体。
    对于知识本体的描述,可以采用自然语言或逻辑语言描述,若要实现较强的推理能力,一般要用形式化描述语言进行表述。描述本体的语言应该具备4个基本条件:①基于某种形式的逻辑;②机器可读的;③具备编码语言的表达性\编码的精确性和语言的语义性;④支持语法和语义的互操作。
    本体的描述一般都是基于某种逻辑语言的,>目前RDF(S)已成为一个能对本体进行初步描述的标准语言。而描述逻辑(DL)是一个相当重要的知识表示语言,目前正被积极应用于本体描述,或者作为其他本体描述语言的基础。描述逻辑吸取了KL-ONE的主要思想,是一阶谓词逻辑的一个可判定子集。与一阶谓词逻辑不同的是,描述逻辑具有强大的推理能力,能够提供完备高效的知识推理机制,满足本体知识表达的需要。而且,描述逻辑的语法容易转换成XML/RDF形式,因此基于描述逻辑的本体模型更适合Web环境下概念建模与知识共享。
    目前几个主要的知识本体语言——CKML、OIL、DAML+OIL和OWL就是建立在描述逻辑的基础之上的。其中DAML+OIL是结合了OIL和DAML优点的一种本体描述语言,采用面向对象的方法用类和属性来描述领域概念的结构,具有清晰的语义,但不能表示规则。以DAML+OIL为基础的OWL是一种网络本体描述语言,通过类和属性来描述对象,并通过公理来描述类和属性的特征和关系,可以构造很丰富的关系类并支持自动推理。
    上述本体语言的表述能力不断增强,其技术也日臻成熟,已成为W3C国际标准的OWL是一种发展势头很强的本体语言,应作为本体编码的首选语言。为了提高本体编码效率,可以使用一些辅助工具来完成。编码过程结束之后,应该把编码过程和编码结果以文档的形式保存下来,为本体共享提供规范的文档。

        7 本体的评价

      经过上述阶段,已经形成了一个初步的领域知识本体。本体能否实际应用,需要对其进行评估与测试。由于领域本体建设得不成熟,目前尚无通用的本体确认和评价的标准方法,更谈不上标准测试集。格汝伯(Gruber)[9]于1995年提出了本体构建的5条标准,即清楚(Clarity)、一致 (Coherence)、可扩展性(Extensibility)、最小本体的承诺(Minimal ontological commitment)、最小的编码偏差(Minimal encoding bias)。不过在其设计标准中并没有给出具体的评价内容。笔者类比于软件工程的软件测试,提出本体评价的标准。
    对应于软件开发过程的测试阶段,一般需要对领域本体的正确性和有效性进行评价,评价指标应包括:
    ●本体的完整性。即本体是否包括了该领域重要概念,概念及关系是否完整,概念的等级、层次是否多样化。
    ●本体的清晰性。即本体中的术语是否被清晰无歧义地定义。除了规范的主题、分类术语外,对本体进化产生的概念是否给出明确、严格的语义定义。
    ●本体的一致性。即概念间的关系在逻辑上是否严密、一致,能否支持本体在语义逻辑上的推理。
    ●本体的可扩展性。即本体可否顺利实施进化,本体能否在层次结构上可扩充,在语义上可丰富与完善,能否加入新的术语概念。
    ●本体的兼容性。即本体的开放性和互操作性,本体能否和其他领域本体及相关资源系统进行映射,包括系统层、逻辑层、语义层、表现层等的兼容和互操作。
    此外,对本体的评价还应包括本体建设过程中其文档的完备性、准确性、可操作性等的评价。

        8 本体的进化

  任何系统都会经过从简单到复杂,由低级到高级的进化发展过程,领域知识本体建设也不例外。随着领域知识的增加和应用需求的发展,本体需要不断进化。特别是对于一个应用性很强的领域本体来说,本体的进化可以看作是本体生命的延续。所谓本体进化,即是在现有领域本体的基础上,根据应用的需要,在本体结构、概念和关系上不断进行丰富、完善、改进的过程和方法。
    领域知识本体进化主要包括两方面内容:一是本体的自身进化,即是对已建本体进行更新,增加新的本体概念,扩展本体语义结构,完善本体概念间的语义关系。如何建立本体的自丰富机制,是本体自身进化需要重点研究的。二是本体的对外进化,即不同领域本体之间的互操作。因为不仅本体自身存在关联,不同的领域本体之间也存在多种关联,人类知识本是一个大的宏观的知识网络。目前每个领域都在建设本体,如果各个本体独立发展便将成为一个个本体“孤岛”。本体的对外进化主要通过映射机制,与相关领域本体的概念、关系及资源实体建立对应和关联,实现不同领域本体资源的共知和共享。
    领域知识本体进化的方式:
    ●本体的自动进化。即由研究专家采取一定的方法与技术,实现本体的自丰富。如通过机器学习、抽词算法、知识发现等方法发现新的概念和关系,然后定位到本体中去。
    ●本体的手工进化。即由通过了解领域本体建设情况的专业人员,以手工或半自动的方式获取新的概念和关系,将其补充到本体中去。这种进化过程比专家定义容易操作,比机器学习准确规范。但是它需要有合适的工具支持。
    ●上述两种方法的结合。本体的自动进化难以达到较高的准确度,而本体的手工进化存在成本高、速度慢等不足,同时对专业人员的知识性要求也高。怎样将两者在本体建设过程中有机结合起来,是领域本体建设所面临的挑战,也是一个具有理论和实践意义的重要课题。
    从理论上说,本体进化是必须的,也是可行性的。但在本体的实际建设过程中,本体的进化是一个比较复杂、难度较大的问题,是包含了众多方面相互作用和相互影响的复杂过程。需要对领域本体进化的模式、机理、过程、路径和技术进行深入的研究。 )