论文详情

图档博领域的智慧数据及其在数字人文研究中的角色

关注“壹学者”微信 >>
166 1  
第一作者认领本论文 邀请作者认领本论文

第一作者:曾蕾

作者简介:曾蕾,通信作者,ORCID:0000-0003-0151-5156,美国肯特州立大学信息学院教授,E-mail:mzeng@kent.edu;王晓光,武汉大学信息资源研究中心教授。武汉 430072;范炜,四川大学公共管理学院信息管理技术系副教授。成都 610065

人大复印:《图书馆学情报学》2018 年 04 期

原发期刊:《中国图书馆学报》2018 年第 20181 期 第 17-34 页

关键词: 智慧数据/ 大数据/ 数字人文/ 图档博数据/ 结构化数据/

摘要:近年来,随着“大数据”的飞速发展,一个重要却鲜为人知的概念“智慧数据”应运而生,智慧数据已经并将持续在数字人文领域发挥巨大作用。图书馆、档案馆和博物馆(简称“图档博”)所拥有的数据资源是数据时代各个领域,尤其是数字人文领域的无价之宝。如果采纳大数据的模式和思维方式、智慧数据的实现方式,以非结构化数据到结构化数据的组织和整合过程为手段,产生机器可理解并可采取行动的、一源多用、高效率运作的数据,图档博以及相关行业将携带这些丰富的资源进入数字时代的主流。本文在阐释智慧数据的概念、方法论的转变、数字人文及其与图书馆关系的基础上,通过一些范例来展示信息服务的新思路,特别是针对文本型和非文本型原始数据的结构化和语义化处理新方法,由此证明:在语义网和大数据时代,图档博机构不仅是智慧数据的提供者也是直接受益者,智慧数据建设不仅能有效促进数字人文的发展,也将成为图档博机构最重要的新兴工作。

分类号

G253

0

引言

走向2020的年代是数据的时代,数据已成为基础性社会资源。作为社会生产力的核心要素之一,数据在数量、质量、形态、作用等多个方面正在发生翻天覆地的变化。首先,大数据浪潮带来的不仅是数据量的激增,还有显著的国家战略层面的投资和保障,以及跨国跨领域的巨大数据应用。各行各业的专家和政府官员都在努力运用大数据解决重大现实问题。第二,语义网(Semantic Web)的快速发展和W3C发布的一系列技术标准持续推进数据质量在结构化和语义化方面的深入和优化。从字符串(Strings)级别的超链接到事物(Things)之间的关联,数据所能表达与揭示的内涵越来越丰富。第三,关联数据(Linked Data)技术的成熟使得机器可理解和可处理的高质量数据集发布变得日益便利,由此大大促进了结构化与语义化数据资源的建设和再利用。与之相应,数据管理技术新格局也逐渐形成,以图数据库、键值数据库、列式数据库、文档数据库为代表的NoSQL类数据库,与传统的关系型数据库互为补充,满足了不同场景下数据管理与利用的多元化需求。资源描述框架RDF(Resource Description Framework)三元组存储(Triplestore)与SPARQL查询语言已经成为语义数据管理的技术基础。第四,在数据应用与知识服务方面,知识图谱技术正在快速普及。从基于文本的关键词匹配和传统信息检索发展到智能化的知识检索,离不开合理的领域概念建模,由此导致知识本体和元数据描述模型数量飞速增长。搜索引擎巨头借助大型本体和元数据标准schema.org,鼓励全球的站主(Web Master)在网页内直接建构带有语义的结构化数据。第五,人与数据的共生机制已经成形,从资源创建角度来看,大众直接创建、分享、整合与再利用数据已经十分普遍。从文化建构角度来看,参与文化(Participatory Culture)已经被社会接受。大众参与活动已经进入很多领域的工作流程,用户行为数据正在被分析利用,社会化网络则是这些数据的最直接来源。

随着“大数据”的飞速发展,一个重要却鲜为人知的概念“智慧数据”应运而生。那么,什么是“智慧数据”?图书馆、档案馆和博物馆(以下简称“图档博”)如何借助大数据和智慧数据并以前所未有的方式融入数字时代的主流呢?本文将在阐释智慧数据、数字人文及其与图书馆的关系之后,利用一些范例来展示信息服务的新思路,特别针对文本型、非文本型原始数据的结构化和语义化处理的新思路和新方法,证明图档博等机构在语义网和大数据时代不仅是智慧数据的提供者也是直接受益者,智慧数据建设不仅能有效促进数字人文的发展,也将成为图档博机构最重要的新兴工作。

同时,本文特别强调,当把大数据和智慧数据放在数字人文的背景下时,首先要明确“数据”这个术语的含义。在数字时代,人们可能通常认为数据只是数字格式。虽然把数字数据和数据分析联系起来是正确的,但需要充分理解“数据”和“数字数据”的含义不是等价的。数据的类型也不限于定量数据。开放档案信息系统OAIS的参考模型(ISO 14721:2012(CCSDSS 650.0-P-1.1)Space data and information transfer systems—Open archival information system(OAIS)—Reference model)将数据定义为“以适合于交流、阐释、处理的形式化方式对信息的可重新解释的表示”,同时提供了数据的示例:比特序列、数字表格、页面上的字符、讲述者的声音记录、抑或月球岩石样本。“数据”这个定义是在“信息”的语境下给出的,信息是“任何可以交换的知识类型。在交换过程中,以数据为表现形式”[1]。Borgman(2015)在其《大数据,小数据,无数据:网络世界中的学术研究》一书中曾对“数据”的定义和相关术语进行了全面回顾,进而提出一个总体概括:“数据是对用于学术研究的有关某现象的观察结果、事物对象,或其他作为现象的证实的实体的表现形式”[2]。基于这样的定义来讨论图档博数据资源的巨大价值,可有效引导我们思考如何运用数字人文手段来挖掘这些无价之宝。

1

从大数据到智慧数据

1.1

智慧数据的定义

在刻画大数据的特征时,往往可以见到多个“V”,而这些“V”还在不断增加。除了数据的规模(Volume)、数据的流转速度(Velocity)和数据的类型多样性(Variety)外,还有其他维度,如数据的易变性(Variability)和数据的真实性(Veracity)等。在合理使用的情况下,大数据可以带来另一个最重要的“V”:巨大的价值(Value)。通过对带有这些特征的大型数据集的有效处理,可以从中发现隐藏的模式、意外的相关性和令人惊讶的联系[3]。而“智慧数据”就是实现大数据特征中最后一个“V”——价值(Value)的方法,即通过对任何规模的可信的、情境化的、相关切题的、可认知的、可预测的和可消费的数据的使用来获得重大的见解和洞察力,揭示规律,给出结论和对策[4]。简单来说,智慧数据就是从大数据中得出有意义的信息[5]。智慧数据的价值是在大数据的容量、速度、多样性和真实性基础上,通过提供可操作的信息和完善决策来实现的。智慧数据代表着通过多源数据(包括大数据)的融合、关联和分析等活动实现决策辅助和行动的方法[6]。图1展示了大数据与智慧数据之间的递进关系[7]。

图1

大数据与智慧数据

注:图片来源:Zeng,2017.[7]Compiled based on Kobielus,James.(2016,June).The Evolution of Big Data to Smart Data.Keynote at Smart Data Online 2016。

从情境化、可认知、可预测的特点来看,智慧数据通常带有自描述机制,背后有领域本体作支撑,使得这些数据符合特定的逻辑结构和形式规范,而且支持推理,由此形成智慧的基础,产生可预测和可消费的数据。智慧数据是一种人和机器都能读懂的编码化知识,同时是便于机器理解的数据,而非只有机器可用的、难于表达的概率性隐性知识。智慧数据具有较强的可解释性,支持逻辑推理,这使得它能够用于多种用途和支持多种互操作,并且具有很强的可追溯能力,能够满足人文研究范式的需要。

1.2

智慧数据内涵剖析

21世纪的数据,如同18世纪的石油,对试图提取和利用它的人来说是未开发的资产,拥有不可估量的价值。近些年来,“数据是新的石油”[8]这一措辞,越来越令人信服。“然而,数据是未开发的原油,它需要经过精炼和加工才能产生真正的价值,需要经过清洗、转换和分析才能释放出其潜能。”[9]也就是说,数据的原始形态好比原油,需要进行提炼与处理,才能变成有用的能源。2012年的一份“数字宇宙”报告显示,有标记的数据仅占数字宇宙的3%,其中得以分析的仅占0.5%[10]。由此可见,从带有其他“V”特征的大数据中挖掘价值,面临着巨大挑战和机遇。

数据必须被清洗、转换和分析,以释放其潜力,一旦经过组织和整合,大量的非结构化、半结构化以及结构化数据将变成能反映特定学科或领域研究重点的“智慧数据”。这些智慧数据,可以用作综合分析并产生新的产品与服务[3,9,11-12]。智慧数据本意并不是说数据具有智慧,智慧是人类的能力。人们从数据中发现新知的应用智慧,是一种能力或者说是生产力。通俗来讲,从大数据中提炼智慧数据,关键不在于你拥有多少数据,而是在于你如何使用这些数据,如何更好地让数据发挥作用。

1.3

智慧数据的现实解读

智慧数据会议(Smart Data Conference)是一个多学科交叉融合的数据技术盛会。通过对2015—2017年的智慧数据会议的主题进行整理,可以识别出与实现智慧数据相关的技术。这些技术主要包括:认知计算、深度学习、机器学习、人工智能、预测分析、图数据库、机器智能、语音处理、语义技术、自主载体、大数据、数据科学、物联网、文本分析、资源描述框架(RDF)、知识图谱、情境计算、关联数据、深层因果推理、本体、JSON-LD(一种轻量级的关联数据格式)、常识(Common Sense)、自然语言处理、语义搜索等[13]。上述主题是紧密关联且相互重叠的。比如,深度学习在自然语言处理中显示出巨大潜力;认知计算利用机器学习在复杂的、非结构化的、流式的数据中发现深层模式(包括那些不明显为统计数据的)。一些主题已经跨越其原领域范畴,例如“人工智能”就是一个在21世纪发生了巨大变化的领域。同时,2017年智慧数据会议的主题还反映出W3C语义网标准的各种应用,包括(但不限于)RDF、关联数据、本体、图数据库、语义搜索和其他语义技术,如图2所示(根据2017年“智慧数据”大会日程(包括同场议题)整理)[13]。

图2

2017年“智慧数据”会议议题分析

2

智慧数据应用于数字人文领域以及与图档博数据服务的关系

2.1

从数字人文领域研究项目观察发展趋势

在人文研究领域,尽管“智慧数据”这一词还未被广泛使用,但在过去的六年里,智慧数据的方法却已经被许多研究项目所认可。表1整理了自2009年以来“数据挖掘挑战”研究计划(https://diggingintodata.org/awards)的立项信息,来自十多个国家的研究资助者已资助几十个项目,旨在研究人文和社会科学领域的问题。美国方面的赞助者主要包括美国人文基金会(NEH)、美国国家科学基金会(NSF)、美国博物馆和图书馆服务协会(IMLS)。通过分析过去四轮计划的摘要可以发现,数据资源既包括以往的非结构化数据资产,也包括数字时代的结构化数据。这些资源在人文社会科学的相关领域里广泛传播。技术上,大规模数据分析已经借助智慧数据方法在相关研究领域得到应用;研究方法上,该计划是跨学科性的,并致力于通过分析大规模和不同格式的数据来挖掘研究重点,但同时也要确保人文和社会科学研究者可以利用新技术工具使用这些数据,如表1所示。

最近,美国人文基金会(NEH)举办了一项全国性比赛,鼓励参赛者使用来自《记录美国》(Chronicling America)数字仓储中具有历史意义的美国报纸数字资源和由美国人文基金会资助的新的人文科学研究计划[14],这意味着人文学科和数字技术的交集不仅走向深入而且更加普及。

虽然我们尚未充分理解数字人文的多面性,但是我们还是可以从如火如荼的数字人文国际会议(Digital Humanities会议,简称DH会议)中发现更多线索。通过分析DH2013至DH2016年会议的主题标签,可以看到数字人文具有多学科属性:文本分析排在首位,其次是历史研究、数据挖掘、文本挖掘、档案库、文学研究和数据可视化。DH2017年会议将主题和学科进一步分离,跨学科合作和资料库操作十分明显。其中超过100篇论文的学科有:计算机科学、文学、图书情报学、文化研究和历史学。一个值得注意的发现是,电影和传媒领域与其他非文本型专业的研究论文大大增加,而且新进作者数量和作者合作论文数量也呈稳步增加趋势[15-16]。

2.2

数字人文中体现的智慧数据与大数据方法

根据过去六年里政府资助的研究项目、数字人文会议展示的成果以及世界各地的新举措和学术出版物等信息来观察,人文学科领域内实现“更大的智慧数据”或“更智慧的大数据”的方法已广泛存在[12],图3所表现的正是这种方法论的阐述,即任何原始数据(图中#1)均可以向智慧数据方向发展,使之结构化(图中#2),同时也可向大数据方向延伸,形成更大的数据(图中#3),结果是:大数据变得越来越智慧,智慧数据趋于越来越大(图中#4以及水平与垂直两个坐标方向)。

图3

“更大的智慧数据”或“更智慧的大数据”

注:根据(2013)文章(CC-by)[12]加工。

当我们在数据密集型研究项目中考虑数字人文时,人们可能会寻找其与技术相关的独特标志。然而,(2013)指出大数据在人文领域的独特标志在于方法论的转变,而非技术[12]。人文研究方法论的转变进一步强调了知识领域的大数据和智慧数据的作用[17]。大数据转化为智慧数据的视图要追溯到著名的数据(Data)—信息(Information)—知识(Knowledge)—智慧(Wisdom)的DIKW金字塔[18-19],它代表了理解一个远远超过我们大脑能力的世界的最基本策略,即过滤、筛选,或者将其精简为更有意义的东西,从数据上升到智慧。然而,智慧数据的实现方法不是简单的复制DIKW路径,因为智慧数据是基于大数据的方法,即为了揭示“未知—未知”(the Unknown-Unkown)而采取的方法[20],而非为了证明或否定“已知—未知”(the Know-Unknown),这是智慧数据区别于其他遵循传统蓝图(即假设、建模和测试的方法)的根本所在[21]。

在《科学》杂志和《自然》杂志的录像“Nature Video”上发表的研究项目

上一篇

下一篇

*非会员只能阅读30%的内容,您可以单篇购买,也可以订购全年电子版,或成为壹学者高级会员,畅用壹学者站内优质学术资源和服务。

近期0位学者阅读过本论文

回应区(0条)

确定

回应