论文详情

“焦点+上下文”可视化分析:数字历史集合的关联与探索

关注“壹学者”微信 >>
128 1  
第一作者认领本论文 邀请作者认领本论文

第一作者:曹进军

作者简介:曹进军(1973- ),男,天津师范大学图书馆研究馆员。天津 300387

人大复印:《图书馆学情报学》2018 年 10 期

原发期刊:《情报资料工作》2018 年第 20184 期 第 39-48 页

关键词: 数字人文/ 边界领域/ 跨学科/ 泛读/ 开源/ 可视化/ 历史/ Digital humanities/ Boundary land/ Inter-discipline/ Distant reading/ Open source/ Visualization/ History/

摘要:文章针对数字人文研究现状,进一步论述其演进历程、特征与实质,以实证的方式践行数字人文的研究。综述数字人文的演进过程:从第一波的定量研究到第二波的定性、解释、经验、情感和特征生成;以及第三波的探索试验路径,集中在计算媒介中形态的优先计算;在解读“数字人文宣言2.0”的基础上,探究数字人文边界领域的多样性;最后以“数字历史集合的关联与探索——二战中的荷兰”实证数字人文的历史研究实践:使用开源框架,以“时间引用—隐式事件”关联不同的历史集合,通过“焦点+上下文”可视化分析的方法来进行历史观点的泛读与精读。案例展示了数字历史研究的一般性方法与活动:发现、评注、比较、引用、抽样统计、表征,图示与可视化系统构建,为数字人文的实践提供了可实现的思路;同时提出了数字人文发展中亟待解决的问题。

1946年,意大利耶稣会神父Roberto Busa构想按词序来索引圣托马斯·阿奎那(St.Thomas Aquinas)的作品。神父想知道,计算机是否可以对大约1亿的词汇量提供帮助。直至三年后,他前往美国寻找答案,最终与IBM创始人Thomas J.Watson会面。事前神父从Watson的工程师那里得知这项任务是“不可能的”,在他进入Watson办公室的路上,顺手从墙上揭下来一张小海报:我们很难做到,只是付出的时间不够。神父向Watson展示了IBM自己的口号,并且鼓励他说,在尝试之前说“不”是不对的。Watson最终承诺IBM和神父合作。

“不可能的”任务花了大约三十年(1974~1980)时间,The Index Thomisticus 56卷出版;1989年,CD-ROM版面世;2005年WEB版上线;2006年,“the Index Thomisticus Treebank”项目开始进行针对完整语料库的语义标注,从托玛斯索引树库中抽取拉丁动词,构建配价词典[1]。Busa最初的任务标志着现在称为数字人文的开始(Roberto Busa提出的计算要求时间恰好是人类第一台计算机诞生的时间1946);同时,The Index Thomisticus也开创了计算语言学。随着计算机、网络、数字存储技术的同步发展,Busa任务的目标、采用的方法也在不断变化,见证、引领着数字人文的发展历程。

今天,数字人文学者正在将先进的计算工具应用于广泛的学科,包括文学、历史和城市研究。他们正在学习编程语言;对历史城市空间进行动态三维重建;开发新的学术出版平台以及开展相关的学术研究。数字人文涉及的广度也导致了统一认知方面的危机,每年的数字人文日期间,学者们在网上公布他们正在进行的工作细节,目标是回答“数字人文学者真正应该做什么”。

1

数字人文的演进

1.1

人文计算到数字人文

数字人文最初称为“人文科学中的计算”或“人文计算”。早期的“人文计算”在相对传统的人文科学领域,对传统对象与问题使用计算这种较老的形式。从这一时期的学术期刊所刊载的范例看,文学学者和历史学家更倾向于对文学与历史工作使用计算:从著作或作家全集的重要用字索引(用语索引)、卡片索引、开发统计学演进至文本获取;档案馆、图书馆、博物馆专业人员中的一部分人设计可计算的元数据、建立目录;语言学家建立语料库等。这些概念经常被视为只是对人文学者工作的一种技术支持。这涉及计算机在人文学科的应用,有人描述为将机器(技术能力)视为仆人,而不是“可以表达观点的参与者”[2]。

随着数字人文项目变得复杂而庞大,因项目需要而开发的计算技术已成为研究过程的内在部分,技术精通的研究人员越来越多地将计算作为人文学科本身研究意义的一部分。也就是说,今天人文学科中凸现的许多问题的解决,计算技术已成为首要的考虑条件。

2005年,Blackwell营销团队提出“数字人文”作为“人文计算”的可选方案[3],正如Hayles[4]解释的那样,改变为“数字人文”这一术语是为了表明该领域已从“支持服务”(学术地位不高)发展成为具有自己的专业实践、严格标准和令人激动的理论探索。Schnapp和Presner[5]在“数字人文宣言2.0”中做了这样的解释:第一波数字人文工作是定量研究;提升数据库的搜寻和检索能力;基于自动化语料库的语言学分析等。

第二波数字人文工作是关于定性、解释、经验、情感和特征生成。数字人文的核心方法是利用数字工具产生巨大的研究动力:注重复杂性、媒介特性、历史背景、分析深度,批判和解释。Presner[6]进一步指出:20世纪90年代末和21世纪初,第一波数字人文的倾向是专注大规模数字化项目和技术基础设施的建立;第二波数字人文(可称为“数字人文2.0”)具有更强的生产力,创造了学术生态环境和生产工具、策展和原生数字化产品、不同数字化语境中广泛存在的知识交互。虽然第一波数字人文的概念或许有点狭窄,只集中在既定学科中的文本分析(例如分类系统、标记、文本编码和学术编辑),但数字人文2.0引入了全新的学科范式,聚合性领域、混合方法论,甚至全新的、通常不是来源于或限于印刷文化出版模式。

1.2

第三波数字人文

数字人文第三波的探索试验路径集中在计算媒介中形态的优先计算[7],称之为计算转向

驱动(computational turn),也就是说,根据其媒介特征来研究数字人文的数字组成部分,作为思考内侧变化(medial changes)是如何产生认知变化的一种方式。这种方法来自软件研究、关键代码研究以及人工智能等相关工作,但它也考虑平台研究提出的问题,即特定平台提供的一般可计算性的特性[8-9]。目前,数字人文和软件研究或关键代码研究往往是相对独立的,但是,他们之间还是有可能根据各自的理论和经验方法有效地交流思想和概念。无论第一波还是第二波数字人文都不能真正解释Lakatos[10]称为人文“硬核”(hard-core)这个亟待解决的问题。

第三波设想和支持“常态”研究的本体论基础是人文学者日常的基本原则。过去数字技术在学科中应用的范围也需要重新界定,特别是考虑到数字化与传统社会公共社群结构融合的趋势。在人文科学技术方面,确立研究方案的主要任务是利用信息技术补偿和重组人文工作,其最终目标不是建立人文学科协会(研究院、公司),而是提供人文学科自由和资源,重新设想人文学科在学术和商业之间的关系模式。例如,有限的研究社群与广泛的研究受众之间的关系并不需要与企业生产者和消费者之间的关系相同,除非新的模式对人文工作的现有组织范式进行补充(例如,实验室或工作室般的环境,其中教师与研究生、本科生在研究工作中互相合作,或来自人文科学、艺术、科学、工程和社会科学的研究单位的加入)。但是,人文科学的特定知识嵌入到一般知识经济产品中也将变得越来越困难。

在第三波数字人文指出的方法中,数字技术人凸现了人文科学研究项目中产生的争论现象,导致对这种研究中诸多关于界定、方法的质疑,例如精读,经典构成(canon formation),时代划分,自由人文主义等。

1.3

数字人文年会与中国的数字人文研究

在国内,数字人文的讨论与研究大多集中在图书情报领域,尤其是古籍数字化的研究方面。范佳[11]总结了现阶段的文本挖掘、GIS、语料库、可视化方法在古籍整理保护方面的应用;崔春和毕强[12]在介绍美国关联爵士项目的基础上,对关联数据技术在数字人文中的应用做了探索;高瑾[13]对数字人文的学科结构做了进一步的阐释;高胜寒等[14]对数字人文的相关文献、组织机构、学术会议、学科分布、数字人文项目做了梳理,指出了高频关键词主要包括“数字人文”“图书馆”“关联数据”等,但是该领域的实践却不在其列。冯晴等[15-17]论述了在数字人文这个大背景下,图书馆的服务与责任,认为图书馆应该因时而变。郭金龙和许鑫[18]总结了数字人文的文本挖掘热点集中在作者的归属、人物关系、可视化与本体构建等方面,而欧阳剑[19]在古籍文本的大规模分析中做了实证研究。

除了王晓光引领的武汉大学数字人文中心对数字人文进行系统研究与实践,国内相关文献主要是综述性论文,集中在相关概念的梳理。相比国外,除了对数字人文的伦理思考、信息哲学层面的研究外,更多地集中在项目的实践和实用工具方面的开发与探索。

2016年,第27届文学与语言计算协会以及计算机与人文协会国际联合会议,暨第8届数字人文组织联盟国际联合会议在波兰的克拉科夫召开,参与者超过850人,收到450多份意见书(大会重要的议题参见表1),参与的学科也持续增长。人文学科的学术研究与计算机算法和庞大的资源(文本集、语言学集、数据库、虚拟图书馆)之间的独特的关系,将可能引领一场新的科学革命。

2

数字人文的特征

2.1

边界领域的多样性

在通常情况下,科学探索的对象存在于多重社会领域,科学需要交叉协同工作。这种多样性的管理并不能通过一个简单的多元主义或者不干涉主义就能解决。事实上,对象的源起与存在不同的领域反映出科学根本上的“紧张”关系:如何才能彻底合并不同的含义,把它们变得一致明了。

在科学社会学中,跨学科与社群的科学探究对象称为“边界对象”[20]。Borgman[21]提出,这些对象虽然能促进交流,但也会放大科研群组之间的差异,在不同的社会领域,他们具有不同的含义,但他们的结构常常足以被不同领域充分认知,方法是转化与翻译,而重要的接口使跨社群交流变得容易[22]。

随着学科领域的发展,数字人文研习会、专题讨论组与学术期刊得到广泛的发展。引领这些工作的是经过明显具有传统学科特征、学科训练的先驱们:文本学者、文献评论家、历史学家、新媒体专家、神学家、计算机科学家、考古学家、文化遗产专家、地理学者、物理学家、生物学家与医学专业人员。

数字人文另一个重要元素是专题讨论组之间的争论,例如性别、种族、语言,与经济地区之间的差异。数字人文不仅仅是不同学科协同工作的地方,而且是不同人在一起工作和发展各自领域的地方。换句话说,数字人文差异与多样性非常重要,不仅仅是因为它让更多的人参与到相同的领域,而且随着实践的展开,它也改变着各自研究领域的类型与性质。

2.2

学科,生态环境与工具

数字人文作为一个学科的典型特征是不断成长[23],是研究传统学科的新进路[24-25],可以提高回答旧问题的能力[23],通过诸如XML and Unicode[26]之类的标准反馈回计算机科学与其他非人文领域的方法。这种成长越来越多地反映了数字人文领域与研究方法的准学科(para-disciplinary)性质。另一方面,尤其是近10年,数字人文或许应该定义为交叉学科[27]:地理学者研究英国带有湖区的浪漫主义诗歌的魅力[28];博物馆长解释数学文本[29];文学学者编辑地图,编译事件的档案,或分析文化遗产设施[30-31]。

计算机科学随着计算能力的发展,渗透到许多领域。人文计算到底指什么?无论是纸质文献的数字化产品还是原生的Web文档,在不同的系统中以不同的格式存在,提取单纯的文本进行分析,就需要不同的算法、构造相应的处理模式,而这就是计算。即便是后来的图像、音视频等多媒体对象的分析应用,本质上也归结为二进制数值的计算。因此,Nesbit[32]不认为数字人文本身是一门学科,而是作为人文学者,使用某些方法和某些工具来试图了解人类的学科,并以以前没有的方式提出问题。数字人文是给学者们提供方法、一种学术生态环境,在大规模数据下以不同的视角来探索他们熟悉的研究问题,不是简单的“检索一获取”,更不是替他们做出分析[33]。如同先驱Busa[34]所言,计算的主要作用不是加速人文研究的步伐,而是在人类文明遗产研究中对亘古不变的问题提供新的进路和范例。

综上,围绕数字人文,参与的学科、组织机构、方法论层面的关系可从图1看出数字人文的复杂性、交融性以及边界的模糊性。学者们不断地对数字人文的分类与定义提出自己的见解,对数字化学科定义与完善,如数字化历史、数字化语言学等。但是,它作为一个不断发展的、开放的、多层面的、新兴领域,每种定义都不可避免地制造学科分类的藩篱,把学科禁锢于定义自身的牢笼。数字人文学者应该信奉一个系统的、有机的、全面整体的思维模式与视野来认识人文科学,消除学术领域的桎梏,避免建立一个固定僵化的分类体系。

图1

数字人文、数字图书馆、图书馆的关系

3

历史数字人文实证:二战中的荷兰

国内数字人文的实践相对较少,而数字化历史研究主要集中在GIS方面。近10年,学者们开始聚焦于数字材料的开发、采用、评判,从数字来源中抽取有用片段。新生代的历史学者有必要掌握各种新的技能与工具:获取与处理Web档案对象;分析网络链接;使用文本挖掘技能重新探讨主要原始资料的可靠性。历史数字人文大约可包括:互联网地缘政治学、Web历史编纂学、Web数字搜索方法;人类如何通过在数字文化网络中穿梭来建立知识、形态记忆与制造历史知识产品;Web考古学;在新的媒体生态环境下,学术证据的真实性与阐释必须予以重新审视。

3

上一篇

下一篇

*非会员只能阅读30%的内容,您可以单篇购买,也可以订购全年电子版,或成为壹学者高级会员,畅用壹学者站内优质学术资源和服务。

近期0位学者阅读过本论文

回应区(0条)

确定

回应