中国历史地理论丛
    主页 > 期刊导读 >

借器之势出道之新数字人文浪潮下的古典文学研

王兆鹏永晓、京臣,二位好!“数字人文”(digital humanities)研究已成为一种强大的浪潮,成为人文社会科学研究的一大趋势。《文艺研究》杂志约咱们三人谈谈数字人文研究的最新进展以及古典文学研究应用数字人文的前景。这次两位来武汉开会,正好可以好好地交流一下。

一、数字人文的特点与发展历程

王兆鹏先请永晓介绍一下数字人文。

郑永晓关于“数字人文”,维基百科中文版的定义是,电脑运算或信息科技与人文学的交叉学科,是以合作、跨学科与电脑运算等新方法来进行人文学的研究、教学、出版等学术工作。这只是众多定义中的一种。事实上,学界还没有统一的定义。由于数字人文的持续发展及其开放特性,旧的定义往往很快会被新的定义所取代。

刘京臣确实,有学者在系统梳理西方数字人文的发展历程后指出,“什么是数字人文”这一题目本身,已经成为一种写作题材,以至于每年都会有专著面世,可见这一概念很难定义。

王兆鹏虽然难以定义,但合作、跨学科和电脑运算这三点,应是数字人文的基本特征。

郑永晓是的。数字人文是从“人文计算”(humanities computing)发展而来的。它使用数字化的资料或数字原生资料,结合传统人文学科如历史学、哲学、文学、艺术、考古学、文化研究与社会科学的方法论,以计算机运算所提供的工具,如超文本、超媒体、图像、文献检索、数据挖掘、统计等,进行综合性研究。

王兆鹏跟人文计算相比较,数字人文有哪些特点?

刘京臣可以从数据、平台、团队三个方面来审视数字人文的特点。数据,是数字人文的核心要素。人文计算阶段的数据大多是文本,数字人文阶段的数据更复杂多样。除文本外,图像、地图、建筑等都可成为数据来源,成为被数字化、数据化的对象。平台,是数字人文的基础设施。平台将复杂多样的、非结构性的“大数据”(big data)开发成关系型结构化数据库,供用户使用。团队,是数字人文的人力保障。数字人文的建设者、参与者,很少是单打独斗的,需要团队合作。就现阶段来看,比较成熟的数字人文项目,基本上都有比较成熟稳定的团队。例如斯坦福大学、哈佛大学及我国的台湾大学、武汉大学、中南民族大学、浙江大学等高校,都各有一批数字人文学者组成的不同形式的团队,并建有相关实验室或研究中心。当然,不同的数字人文项目,各有侧重,有的侧重数据挖掘,有的侧重平台架构,还有的侧重方法论与工具推广。凡是以信息技术为依托来推动人文社会科学发展的项目,都需要团队协作,需要信息技术人员和人文学者的合作攻关。

王兆鹏“数字化”与“数据化”有什么区别?很多人不明白,数字化文献库与结构化数据库究竟有什么不同?我们现在常用的全文检索数据库,如《国学宝典》《中国基本古籍库》《汉籍全文检索系统》《文渊阁〈四库全书〉电子版》和《中华经典古籍库》等,是不是结构化数据库?

刘京臣您说的这些数字化文献资源库,是通过信息技术对文献进行处理,使其转化为电子数据格式,能够通过光盘、硬盘、磁盘阵列等保存和传播。我们存储在电脑硬盘里的各种文献资料、网上流传的各类电子书、图片文献、文本文件以及超文本标记语言(HTML)文件、可扩展超文本标记语言(XHTML)文件等,都属于数字化文献。

王兆鹏通俗地说,非结构化数据库,是一种固化数据。《中国基本古籍库》之类的文献资源库,只是用数字化方式储存,并没有改变原书的文本形态,它只能进行字词检索,而不能提取数据,检索到的资料不能重组关联。而结构化数据,是一种活化数据,是将原始文本按一定规则转化成碎片化数据,数据之间可以任意重组关联,形成新知识,发现新问题;可以自动生成数据,进行统计分析;可以进行语义检索和时空定位;并能可视化呈现。哈佛大学的《中国历代人物传记资料库》和我主持的《唐宋文学编年地图平台》,都是这样的结构化数据库。

郑永晓从某种意义上说,结构化数据库是数字化文本型文献资源库的升级版。数字化文本型文献资源库,是结构化数据库的基础资源,通过技术创新,可以升级转化为关系型结构化数据库。

王兆鹏讨论了数字人文的特点,我们再追溯一下数字人文经历了怎样的发展历程。

郑永晓数字人文的前身人文计算,可以追溯至20世纪40年代末,当时耶稣会士罗伯托·布萨(Roberto Busa)和他的助手跟IBM公司合作,利用大型计算机制作了托马斯·阿奎那著作的索引,称为“Index Thornisticus”。60年代,《计算机与人文科学》杂志诞生,标志着人文计算的正式兴起。