论文详情

知识元的内涵、结构与描述模型研究

关注“壹学者”微信 >>
7    
第一作者认领本论文 邀请作者认领本论文

第一作者:索传军

作者简介:索传军,ORCID:0000-0002-7416-1531,中国人民大学信息资源管理学院教授,博士生导师,E-mail:suocj@ruc.edu.cn;盖双双,中国人民大学信息资源管理学院博士研究生。北京 100872

人大复印:《图书馆学情报学》2018 年 10 期

原发期刊:《中国图书馆学报》2018 年第 20184 期 第 54-72 页

关键词: 知识元/ 知识元内涵/ 知识元分类/ 知识元结构/ 知识元描述模型/ Knowledge unit/ Connotation of knowledge unit/ Classification of knowledge unit/ Structure of knowledge unit/ Description model of knowledge unit/

摘要:新的信息环境下,以文献为单元的知识组织方式已无法满足用户的知识需求,文献中所包含的细粒度知识元成为多学科研究的热点之一。知识元的内涵、结构和描述模型成为亟待研究的重要基础理论问题。本文在对已有知识元概念、分类和描述方法进行总结的基础上,进一步明确了知识元的内涵,并从知识生产的视角,将文献中的知识元划分为常识知识元、引证知识元和创新知识元三种类型,进而从理论和实证分析两方面证明了“一个知识元是N(N≥1,N为正整数)个语义三元组的逻辑组合”这一假设。此外,为促进知识元的管理和利用,本文借鉴纳米出版物思想,构建了知识元的语义描述模型,该知识元描述模型由知识元内容、内容的来源信息和支持信息以及知识元的出版信息四个要素构成。

分类号G250.2

0

引言

新的信息环境下,用户虽然可以更方便地获取所需文献,但却越来越难以找到所需要的知识。目前以文献为单位的知识组织方式,由于对其包含的知识内容揭示太少,难以为用户提供文献中所包含的知识,因而无法满足用户日益增长的知识需求。针对这一问题,图书情报学、出版学和计算机科学等多个学科领域都在积极探索应对策略。一方面,通过有效的学术评价机制为用户推荐适合他们的高质量文献,减少用户的文献选择与判断时间;另一方面,直接为用户提供文献中的结论或创新性观点。减少用户的文献阅读时间。事实上,早在20世纪70年代,就有专家指出,知识的控制单元将从文献深化到文献中的数据、公式、事实、结论等细粒度的“知识元”。知识元是知识控制与处理的基本单位,是知识结构的基元。近年来,随着自然语言处理和文本挖掘等相关技术的发展,知识元逐渐成为多学科研究的热点之一。虽然目前关于知识元研究的文献较多,但对知识元的概念、类型和描述方式等还没有形成统一认识,一定程度上影响了以知识元为基础的知识组织和知识服务实践的开展。因而,揭示知识元的内涵、结构与描述模型是亟待研究的重要基础理论问题。

1

知识元相关研究

1.1

知识的基本单元的研究视角

知识是人类认识客观世界过程中形成的智力劳动成果。近年来,随着知识生产速度和规模的增加,用户精细化知识服务的需求日渐增强,在此驱动下,若干学科领域的学者尝试从知识的基本构成单元视角探索人类客观知识的管理和利用。图书情报学和计算机科学是知识构成单元的主要研究领域,教育学和突发事件应急管理领域是主要的应用领域。虽然目前关于知识基本构成单元的形式和概念还没有形成统一认识,但知识元、知识单元、知识因子和知识基因等是主要的代表性观点。

1.1.1

图书情报学的知识组织与知识管理视角

图书馆历来是人类客观知识的传承和服务机构,作为知识服务的基础,现有的以文献为单位的知识组织和管理方式已无法满足用户的知识需求,部分学者转而从知识的基本构成单元视角探索新的知识组织与管理方式。

早在1964年,我国著名文献情报学家袁翰青教授就提出对文献中新发现的知识单元进行组织的思想[1]。然而,直到21世纪,我国学者才开始重视以知识的基本构成单元为单位开展知识组织研究。刘植惠[2-3]在情报基因和思想基因的启发下,提出了知识基因理论,并指出,知识基因是知识继承与发展的最小功能单元,在知识序化过程中具有重要应用。王知津[4]指出,对知识进行的任何组织都必须建立在知识单元的基础上,而知识单元无非就是概念。王子舟[5]认为,知识单元是知识的基本组分,是客观知识系统中有实际意义的基本单位,知识组织应该以知识的基本组分为基础。蒋永福[6]认为,对文献中的知识因子(基本概念)以及知识因子之间的关联关系进行重组,是知识组织的重要方法之一。温有奎[7]指出,知识元是知识结构的基本组成部分,并提出了基于知识元的知识组织和检索方法。Chang[8]认为,知识元是相对独立的完整的知识模块,知识元抽取是目前知识组织发展的主要瓶颈,并采用机器学习方法对知识元抽取进行了研究。Zou[9]和Lu[10]等认为,传统知识组织模式是基于资源、主题和元数据目录的,难以表达知识资源中知识元包含的信息内容及其内在关系,因而提出了一种主题—知识元—定位的分布式知识组织管理的新模式。

20世纪末,诞生于知识经济时代的“知识管理”扩展至图书情报领域,成为图书馆学的一个重要研究方向。与“知识组织”相比,“知识管理”的内涵和外延更为宽泛,知识组织可视为知识管理的一个重要环节或目标。虽然不同学者对知识的基本构成单位的理解有所差异,但多数学者强调,知识管理的最小基点应该是知识的基本构成单元。例如,温有奎[11]指出,研究知识元、知识单元、知识结构之间的信息与知识的变换是知识管理与创新的关键;于秀慧等[12]构建了基于知识元的知识管理框架;文庭孝[13]指出,知识单元是进行知识管理的基础,决定了知识管理的广度、深度和精度;黄新红[14]对知识管理视角下图书馆提供知识单元服务的策略和方法进行了探讨。

1.1.2

计算机科学的知识工程视角

知识工程是研究知识信息处理过程及有关技术的一门新兴学科,通常被认为是人工智能的一个应用分支。知识工程通过模拟人脑知识存贮模式来研究知识的获取、表示和利用过程,从而设计、构造和维护知识型系统,实现人类问题的自动求解。作为一门以知识为处理对象的分支领域,知识工程主要从粒度化视角研究知识的基本构成单元,并将粒度划分到单个的字、词层面。赵红洲[15]认为,知识单元是粒子化了的科学概念。陆汝钤等[16]指出,知识元是采用本体形式表示知识的基本单位。冯琴荣等[17]基于划分粒度具有定量化表示知识的分类能力,提出了一种知识表示法——划分粒度表示法。徐绪堪[18]探讨了知识组织中的知识粒度表示和知识粒度化规范。

1.1.3

教育学和突发事件应急管理领域的视角

教育学和突发事件应急管理领域是知识元的重要应用领域。教育学领域的学者认为知识元是组成教学知识点的最小的独立的知识单位,主要研究教材知识元的解析和多媒体知识元库的构建,划分的知识元粒度较大。突发事件应急管理领域主要借助知识元自身的本原性和细粒度性,构建相应的知识元模型和基于知识元的情景库,应对应急管理学科的跨学科性和数据异构性,为应急管理与决策提供支持。

1.2

知识元类型研究

知识元分类是对以文献为基本单元的传统分类体系的细化,是认识、区分知识元的一种逻辑方法,也是提高知识组织和知识管理效率的一种实用方法。从现有研究来看,尽管人们已经认识到基于知识结构的基本单元进行知识管理和知识服务的价值,但目前对知识结构的基本单元还没有形成统一认识,尤其是对知识元的粒度大小以及知识元与知识单元的区别。知识元内涵不统一,导致其类型划分的多样性。

通过文献梳理发现,关于知识元类型的划分,不同学者提出了不同的观点,这些观点主要集中在图书情报学和教育学领域。目前学者们主要从三个视角对知识元进行分类。①借鉴认知心理学的知识分类思想,根据知识元的表现形式对其进行分类。温有奎[19]将知识元分成描述型和过程型两大类,其中描述型知识元包含信息报道型、名词解释型、数值型、问题描述型和引文型,过程型知识元包含步骤型、方法型、定义型、原理型和经验型。赵蓉英[20]在此基础上将智库成果知识元分为陈述型和程序型,前者包括事实知识元、定义知识元、结论知识元等陈述型文字内容,后者包含方法知识元和关系知识元等具有内在结构的文字内容。②根据知识元所表达的内容对其进行分类。毕崇武[21]将知识元划分为方法型、概念型、事实型和数值型四种类型,张静[22]根据中小学学科内容将知识元分为概念类、原理类、方法类、事实类和陈述类。③根据知识元在科技文本中的功能,对科技论文所包含的知识元进行分类。秦春秀[23]将科技文本的内容划分成主题/类别知识元、研究领域知识元、背景知识元、问题知识元、理论/原理知识元等13个大类。

通过分析发现,现有的知识元分类方法主要存在以下问题。①知识元的分类标准不统一,类别语言描述不一致,而且不同类别之间存在交叉,不易区分。如文献[19]中的过程型知识元和文献[20]中的程序型知识元,文献[19]中的名词解释型知识元和定义型知识元。②基于知识表达内容和知识元在文本中的功能视角划分的知识元类型多而且细,不利于计算机识别和抽取。如文献[23]和[24]都将知识元划分为13种类型。③对知识元内涵的理解存在偏差,混淆了知识元和信息元的区别。如文献[19]中的数值型知识元和文献[20]中的事实知识元其实是文献中所包含的一种信息元,而非知识元。知识元是学术论文中包含的具有一定创新性的。或者具有一定学术和应用价值的知识内容单元,通常传递的是{how/why}问题。信息元是学术论文中所包含的对他人有借鉴作用的信息内容单元,主要指数值型或事实型的具有完整语义的信息单元,传递的通常是{when/where/who/what}问题。④当前划分的各类型知识元之间缺少一定的逻辑关系或论证关系,如无法体现学术成果的主题性或论证完备性,也无法体现科学知识的继承性和发展性。

1.3

知识元的描述模型研究

知识元描述模型是对知识元的语义内容和结构进行揭示的一种抽象表示,是知识元识别、抽取、标引、组织、存储、关联、重组和再利用的理论基础,其目的是促进知识元的管理和利用。由于对知识元的内涵和分类没有形成统一认识,知识元的描述模型和框架也一直处在发展和完善中。表1呈现了现有文献中的知识元描述模型。

研究发现,知识元描述方法的研究主要集中在图书情报学领域,且具有以下特征:①虽然不同学者给出了不同的描述方法,但平面的线性N(通常N≥2,N为正整数)元组是知识元的主要表示方式。②从历时角度来看,知识元的描述元素逐渐增加,描述模型日趋完备和全面。如知识元的表示模型从最初的四元组逐渐发展为五元组、六元组和七元组等。③尽管不同知识元模型包含的描述元素不同,但研究发现,这些元素主要都可以归类为内容、属性(内容特征和外部特征)和关系等类别。如名称、类型和主题等元素描述了知识元的内容特征和外部属性特征,导航、来源、消息接口、链接、相关等描述了知识元的关系。

现有的知识元描述模型还存在以下几点不足:①多数知识元模型表现为平面的线性形式,缺乏层次性。内容是知识元的核心,其他描述项都是对知识元内容的揭示和描述,而N元组形式的知识元表示方式无法体现这一层次结构。如文献[26]中的描述元素“上属”和“相关”,从其定义看,二者其实均属于知识元的关系对象,文献[28]中的“来源”和“类型”均属于知识元的外部特征属性。②线性的知识元表示方式随着描述元素的增加,容易显得过于冗长,不利于计算机理解和处理。③知识元本身是一个独立的相对完整的内容单元,有其自身的属性信息,如知识元的创建者、创建日期等,现有的知识元模型缺少描述知识元整体的元数据,不利于知识元的管理和利用。

2

知识元的内涵和分类

2.1

知识元的内涵

尽管知识元的概念还没有形成统一认识,但多数学者认为,知识元是构成知识结构的基本单元。我们认为,知识元是指语义上相对完整地表达特定知识的最小的内容单元[38]。这其中包含四方面的含义:①知识元具有语义相对完整性,即有实际意义和相对独立性;②知识元用于表达特定的知识,如一个科学概念或一条基本原理;③知识元相对于它所表达的特定知识而言,应该是最小的、不可再拆分的;④知识元表现为具体的知识内容。

例如,文献[38]中“绝对创新度是指学术论文所包含的创新知识元与整个科学知识体系或技术体系或科学研究方法体系进行比较,具有多少新发现、新观点、新方法或新技术等”,就是一个关于“绝对创新度”的概念知识元,这一概念知识元揭示了绝对创新度的内涵,具备独立性和语义完整性,而且是不可拆分的,一旦被拆分,则无法完整表达此概念的内涵。

2.2

知识元的分类

任何新的研究成果都是作者在人类已有知识和他人研究成果的基础上产生的新思想、新方法和新观点。在对现有知识元分类及存在问题进行详细分析的基础上,本文从知识生产和创造的视角,将文献中的知识元划分为常识知识元、引证知识元和创新知识元三种类型。

常识知识元是公共领域和专业学科领域公知公认的基础性知识内容,其引用往往无须说明或标注具体来源,用于佐证作者所要表达的创新知识元。例如,文献[38]中“老化速度是指学术论文老化的快慢,过去通常用文献半衰期和P指数表示”,是图书馆学领域有关文献老化的一个基本概念,已为图书馆学领域学者所熟知,因而是该文献中的一个常识知识元。

引证知识元是指能够表征施引文献引用参考文献的文本内容,这些文本内容传递的是具体的知识内容,用于论证或支持论文中的创新知识元。例如,文献[38]中“温有奎认为,知识元是指不可再分割的具有完备知识表达的知识单位,是构成知识结构的基元”[15],是文献[38]中的一个引证知识元,是对温有奎提出的“知识元”概念内涵的引用。

创新知识元是相对常识知识元和引证知识元而言的创新性专业知识,是作者针对特定问题的新发现或新认识。它是一篇文献中最有价值的内容单元。例如,文献[38]中“学术论文老化速度就是指学术论文中所包含的知识元转移的速度,是单位时间内学术论文所包含知识元转移的数量”,是作者对学术论文老化速度的新认识,因而是该文献中的一个创新知识元。

创新知识元是对常识知识元和引证知识元的继承与发展。事实上,无论是常识知识元、引证知识元还是创新知识元,其在文献中都具体表现为概念、原理、方法、定理、定律、结论等形式。也就是说,常识知识元、引证知识元和创新知识元在本质上是相同的。从“历时”角度看,它们都是不同时期的创新性知识。例如,引证知识元就是被引文献发表之时的创新知识元。当下的创新知识元也会随着发展变为引证知识元和常识知识元。

3

研究假设

由以上论述可以看出,不同学科、不同学者分别从不同角度对知识元进行了一定的分类和描述研究。尽管从名称上看,存在一定的差异,但也达成一些共识,如知识元是构成知识的基本组分,是描述特定领域知识的最小内容单元,是可以被计算机理解的最小语义单元。要使知识元能够被计算机可理解,就需要对知识元进行规范化描述和形式化表达。因而,我们提出假设:一个知识元是N(N≥1,N为正整数)个语义三元组的逻辑组合。

该假设包含两个基本问题:①一个知识元可以分解为N(N≥1,N为正整数)个语义三元组;②同一个知识元的N(N≥1,N为正整数)个语义三元组之间存在一定的逻辑关系。

4

知识元结构分析

科学研究方法包含理论分析和实证分析两种类型,理论分析是通过逻辑推理的方式对研究问题或研究假设进行描述性分析。实证分析往往采用案例研究、随机抽样调查、实验等具体方法收集资料和数据,从而得出关于研究问题或研究假设的准确结论。本文分别从理论和实证两个方面对前文提出的研究假设进行推理和验证。

4.1

理论分析

知识元是指语义上相对完整地表达特定知识的最小的内容单元。内容单元在文献中通常表现为内容相对完整的文本块。因而,从形式上看,一个知识元表现为一个文本块。一个文本块由S(S≥1,S为正整数)个具有逻辑关系的句子构成。每个句子可以至少用1个语义三元组来描述,即一个句子由T(T≥1,T为正整数)个具有逻辑关系的语义三元组构成。语义三元组由主语、宾语以及表达主语和宾语之间语义关系的谓语组成。上述推导可以用以下数学形式来表达:

1个知识元S个具有逻辑关系的句子;

1个句子T个具有逻

上一篇

下一篇

*非会员只能阅读30%的内容,您可以单篇购买,也可以订购全年电子版,或成为壹学者高级会员,畅用壹学者站内优质学术资源和服务。

近期0位学者阅读过本论文

回应区(0条)

确定

回应