马敏 | 数字史学:何以成学?

自20世纪初梁启超提倡“新史学”以来,经过120余年的发展,中国史学研究正面临全新的转型:在网络化、大数据时代,随着数字人文(digital humanities)、数字史学(digital history)的兴起,长期以来无数历史学家所企盼的历史学科学化、精确化,正在逐步得以实现,史学研究的范式和手段也面临革命性变革,前景甚为壮观。但与此同时,数字史学的兴起尚处于方兴未艾的初级阶段,其内涵和外延还需进一步厘清,无论在理论建构或实际运用方面,都还面临许多“未解之谜”,有大量的基础性工作要做。

一、从数字人文到数字史学

循名责实,任何一门学问的确立都是从术语和概念的澄清开始的。目前,计算机信息技术与历史学结合的相关术语和概念可谓林林总总,令人眼花缭乱,常见的就有“计量史学”(cliometrics)、“量化历史”(quantitative history)、“大数据历史”(big data history)、“数字历史”(digital history)、“数字史学”(digital history)等等。这些术语和概念尽管各有其侧重,但又相互交叉和重叠,很难明确加以区分。而在学科创建意义上,又必须抽丝剥茧,在概念区分的基础上,确立最能反映当下史学变革的核心概念,进行系统性阐释,实现由“术”到“学”的理论飞跃。

详细追溯上述术语和概念的起源不是本文的任务,但笔者认为,就计算机信息技术与历史学的结合度而言,关系最为紧密的应是大数据历史和数字历史、数字史学这三组概念。计量史学和量化历史都有着较长的历史,且应用范围极其广泛,并不完全限于计算机和互联网技术之应用于历史研究。大数据历史颇能反映信息化、大数据时代的实质,但要真正成为一门“学”,则有其狭隘和不足的一面,更多涉及手段和工具层面。反之,数字历史和数字史学(均为 digital history 之翻译),倒可能是最全面反映计算机技术、信息化浪潮与历史学相结合的两个概念,而其中又以“数字史学”的包容度和涵括性最高,成为概括当下史学变革本质特征的核心概念,并有助于将计量历史、量化历史、大数据历史和数字历史整合为一门独立的学问来加以界定和研究。

在学术渊源上,数字史学来源于“数字人文”(digital humanities)。虽然到目前为止,学术界对数字人文概念本身仍存在广泛争议,但是对数字人文与传统人文的差异性认知总体上是清晰的。传统人文研究主要通过经验式的文本分析,对价值、理念及其深层意义进行个人主观判断。数字人文则是将文字或文字材料,乃至影像、图形、声音等人文知识内容数据化,运用数字技术手段得出相对客观的分析结果,帮助研究者对研究对象进行相对准确的、不受偏见影响的理解和阐释,发现传统研究中受人脑思维局限无法观察和知晓的新知识和新认知。

数字人文的发展是人文学科在各自领域具体研究实践的共同结果,其发展也必须尊重各学科传统研究基础和固有学科特性。数字史学是伴随数字人文在史学领域的运用而诞生的,属于数字人文的分支学科之一。学界一般认为数字史学就是指在历史叙述、展示与研究中对数字媒体和技术的应用,通常被认为是计量史学或量化历史的延伸,但其内涵和外延又远远超越了后者。即便是在较早提出数字史学的西方学术界,目前对数字史学的定义和概念的描述也并不一致,其中,美国内布拉斯加大学历史学教授威廉·托马斯的观点值得重视。他认为,“数字历史是采用计算机信息技术、网络技术和软件系统来研究和表述过去历史的一种方式”,数字历史通过新技术创造了一种结构或本体论,让人们体验、阅读和评论历史问题。个人以为,这一定义在比较广泛的意义上揭示了数字史学的真正内涵。此外,芬兰历史学家汉努·萨尔米对数字史学所下的定义也是相对准确的,他提出,“如今,数字史学的定义可以重新表述为:数字史学是一种考察和呈现过去的方法,它利用新的传播技术和媒体应用,并尝试用以计算机为基础的研究方法来分析、生产和传播历史知识。”

正是数字史学与数字人文的渊源关系,赋予数字史学在学科意涵上的深厚基础与广泛前景。

二、大数据库与数字史学

尽管我们不赞成用“大数据历史”来替代“数字史学”,但数字史学本身却是奠基于大数据历史,正是信息时代的海量数据构成了数字史学的坚实基础。如果没有层出不穷、汗牛充栋的各类历史大数据库的涌现,数字史学便失去了存在的意义。倘若将数字史学想象为一幢大厦,各类历史大数据库即是支撑这幢大厦的不可或缺的地基。

在史学研究意义上,尤其在数字史学方兴未艾的初期阶段,各类历史数据库应当是各有其功用,各有其存在的理由,并没有高下之分,关键在于如何做到各美其美、各取所需、各尽其能。目前各种历史数据库大致可分为两大类。

(1)基础性历史文献数据库

这类数据库以整合各类丰富的历史材料为其主要特征,典型如:“国家清史工程数字资源总库”;北京爱如生公司开发的“中国基本古籍数据库”“申报数据库”“晚清期刊全文数据库”;青苹果数据中心开发的各类近现代报刊数据库;中国社会科学院近代史研究所构建的“抗战文献数据平台”;刘青峰、金观涛主持的“中国近现代思想史专业数据库(1830—1930)”;华东师范大学沈志华主持的“冷战时期档案数据库”;浙江大学陈红民主持的“蒋介石研究资料数据库”;上海大学陶飞亚主持的“汉语基督教文献书目数据库”;台湾方面开发的“汉籍电子文献资料库”“近代史数位资料库”“台湾历史数位图书馆”“中国国民党史料资料库”“台湾日治时期统计资料库”等多种数位典藏文献资源库。

无论是文献检索类专题数据库,还是图片库、音影库等,各类历史文献数据库的建设正在逐渐完善。基础历史文献数据库的功用在于文献史料的数字化及可检索化,大大提高了研究者的工作效率。更重要的是,使史学研究突破了传统研究模式下个体研究者的精力限制,实现史学家所期望的超大规模的史料搜集,一定程度上改变了目前史学研究中存在的“碎片化”问题,为实现长时段、整体性、宏观与微观相结合的史学分析创造了有利条件。

(2)研究性历史量化数据库

研究性历史量化数据库又称之为结构化历史数据库,典型如:哈佛大学包弼德(Peter K·Bol)团队合作开发的“中国历代人物传记资料库”(CBDB);波士顿大学的“在华基督教历史数据资料库”(CHCD);香港科技大学李中清、康文林研究团队正在建设中的“中国多世代人口数据库”(CMGPD)“中国历史官员量化数据库——清代”(CGED-Q)“中国大学生数据库”(CUSD)等数据库;复旦大学与哈佛大学联合开发的“中国历史地理信息系统”(CHGIS);清华大学倪玉平主持的“清代商税数据库”;中山大学吴滔主持的“明代价格数据库”等。

研究性历史量化数据库建基于大样本、长时段的历史大数据,重视对长时段、大规模记录中的人类和社会行为等内容进行统计描述,以及彼此间相互关联的量化分析。其特点在于将海量历史资料和数据按照一定数据格式进行电子化处理,构建成可适用于统计分析软件的数据库并进行量化分析和研究。因此,具有较高的技术含量,更能够直接促使历史研究的定量化、精确化和科学化。

比较而言,如果说基础性历史文献数据库的功能在提供更为便捷的资料使用,改进资料搜集的方法和手段,为进一步的量化分析奠定坚实基础,那么,研究性历史量化数据库则更加注重史学研究范式和方法创新,呈现长时段、规模性历史现象中所蕴含的共性特征及其规律性,突破了政治史、经济史、社会史等传统领域的藩篱,拓宽了史学研究的视野以及史学研究的范式、方法,对揭示历史发展规律和大规模社会群体研究尤为有效。目前,前者的应用范围更广,受益者更众,也更为普及;后者虽已有一些非常好的成果涌现(典型如李中清、康文林、梁晨、张浩等的大数据历史研究成果),但仍有待更多历史学者的投入,不断进行拓展,形成规模性学术产出,尤其学化。是产生一批标志性的学术成果。

正因如此,基础性与研究性两大类数据库都需要得到足够的重视,都需要投入巨大的人力、财力和物力进行持续不断的建设,方能为数字史学的发展打下坚实、可靠的基础。

三、作为方法论的数字史学

目前来看,数字史学在方法论意义上已初具雏形,展示出广泛的应用前景,有力促进了史学的创新发展。

首先,数字史学有力促进了现代意义的“史料革命”。历史资料的搜集和考据是史学研究最为基础的工作,没有大量翔实、可靠的史料作为依据,任何漂亮的史学成果都只能是建筑在沙滩上的大厦,随时可能坍塌。随着互联网和大数据库的普遍应用,计算机信息技术与历史研究相结合,不仅突破了文献搜集的困境,同时还革命性地改变了传统史学资料搜集及文献阅读的途径和方法,使史学家们可以利用各种搜索引擎,穿梭于互联网世界和各类大型数据库,如同傅斯年当年所讲的那样,“上穷碧落下黄泉,动手动脚找东西”,尽可能扩充史料的范围,最大程度地打捞和搜集研究所需资料,力求做到“竭泽而渔”。

在利用互联网进行史料考据方面,台湾学者黄一农倡导的“e-考据”方法是一个典范。早在2005年,黄一农便率先提出“e-考据”的概念,借助数据库、网站等电子资源对传统考据学进行了创造性的改造,宣布“一个有机会孕育‘e-考据学派’的时代或已出现!”并将此方法运用于史学实践,在天主教历史研究和《红楼梦》研究中得出了诸多超越前人的新结论。尽管有的学者对此仍持保留态度,认为“e-考据”本质上还仅仅是“引得式或谓索引式的网络新工具”,但其所体现的数字史学时代的史料革命意义,却不容低估。近年来一批年青学者利用这一新方法所取得的“电子考古”或“网络考古”的新成果,便是明证。

其次,数字史学也有力推动了当代史学的“方法革命”,为由来已久的计量史学和量化史学注入了新的活力,有利于推进长时段历史的量化分析。例如,法国经济学家托马斯·皮凯蒂(Thomas Piketty)《二十一世纪资本论》(Capital in the Twenty-First Century)一书依据多国20世纪国民账户、收入、财产与纳税等多种系统历史数据,研究资本主义社会不平等的长期演化。又例如,美国学者李中清、康文林等自1979年起便开始收集中国历史上个体层面的微观数据,与多位合作者共同构建了中国多世代人口数据库(China Multi-Generational Panel Datasets,简称“CMGPD”),这是海外较早运用量化数据库研究中国长期人口历史的实践。

数字史学中的大语言模型技术也有利于促进历史比较研究以及“社会网络分析”(social network analysis)、“语境关键词分析”(keyword-in-context analysis)等新的研究方法的应用。例如,哈佛大学主导的CBDB项目作为一个关系型数据库,已经对史料进行了结构化处理,可以通过一些关键信息(如人物、地址、社会关系结构、亲属关系结构、官僚机构、社会组织等),跨越不同历史时空追踪这些信息之间的相互关系。基于当前快速发展的文本挖掘(text mining)技术和分析软件的开发,学者可以利用该数据库进行统计分析、网络分析、空间地理分析等。再如,金观涛、刘青峰基于“中国近现代思想史专业数据库(1830—1930)”所收集的大量历史文献和相应数据,对近代观念史领域所涉及的近100个政治术语(关键词)进行重新分类研究,统计了各个概念在近现代历史文献中的出现频次,并探讨这些术语所对应的西方政治观念在中国的引进、演变以及定型过程,首次使观念史研究变得可以量化分析,取得了原创性突破。

再次,数字史学有利于推动跨学科合作和交叉研究,为史学研究带来一系列新视角、新领域,如人口史、灾害史、环境史、海关史、医疗史、科技史等领域的量化研究。例如,由复旦大学和哈佛大学共同创建的“中国历史地理信息系统”(CHGIS),试图建立一套中国历史时期连续变化的基础地理信息库,为研究者提供GIS数据平台、时间统计以及查寻工具和模型,可逐年展示基础历史地理信息,以有效促进历史地理、环境史、城市史、灾害史等多领域、跨学科的综合性、整体性研究。

由此可见,方法论意义上的数字史学系一个多层次、多面相的复合型结构,既有基础性的史料“e-考据”,也有一系列数字史学新方法的运用,开辟了诸多新领域,提出了诸多新问题,使面临挑战的、以问题为导向的量化历史和分析史学获得了前所未有的新活力。

四、数字史学之前瞻

作为人文社会科学的历史学具有两重属性:科学性与人文性。根据何兆武先生的论述,历史学包含有两个层次,第一个层次是对史实的认知,第二个层次是对史实的理解和诠释。第一个层次属于自然世界,它是科学的;第二个层次属于人文世界,它是人文的。因此,“历史学既是科学,又不是(或不仅仅是)科学;它既需要有科学性,又需要有科学之外的东西。”

近代以来,西方历史哲学围绕史学理论的争论,实质上便是围绕历史二重性的争论,由此而形成不同的史学流派。其中,以兰克等为代表的科学史学和继起的分析历史哲学及“新史学”(包括法国年鉴学派),倾向主张历史是科学的,关键在如何寻求历史的科学性;批判的或思辨的历史哲学则倾向于史学学科的独立性及与自然科学的相异之处,更为强调史学的人文特性。

数字史学的面世,首先是强化了史学的科学属性,为一度处于颓势的科学史学及量化历史注入了强大动力。过去,人们曾质疑作为已经逝去的历史,是否一切皆可量化?到何处去寻觅如此之多的历史数据?而随着大数据时代的来临,这些问题似乎都迎刃而解。海量的历史信息大爆炸极大增强了史家们追求历史科学性的雄心。法国年鉴学派第三代领袖人物雅克·勒高夫曾说过,“历史学今天正经历着一场‘资料革命’,这一革命与新史学有着千丝万缕的关系”。而以今天的眼光看,彼时的“资料革命”似不足道矣,如今人类正处于真正的信息大爆炸时代,历史资料可谓呈几何级数量增长,以至有学者提出:“信息爆炸已经积累到了一个开始引发变革的程度”。典型如“中国基本古籍库”总计收录书籍1万余种,全文超过17亿字;“中国历代人物传记数据库”(CBDB)涵盖了从唐代到晚清民国时期约515,488人的传记资料;美国匹兹堡大学图书馆自2018年建立的“中国数字村庄数据库”(CCVG),目前已收集 1000部方志(村志),包含1800个村庄的数据;刘青峰、金观涛领衔的“中国近现代思想史专业数据库(1830—1930) ”,共收集各类文献资料约1.2亿字;李中清、康文林团队的“民国大学生量化数据库”,目前已包含162,451名民国大学生的194,583条数据记录。这些海量的资料无疑为突破传统的“选精”和“集粹”方法,更加科学地探讨所涉及的问题提供了最大的可能性。

无可否认,就目前而论,数字史学的最大功用还是在方法论上。它自身最大优势,一是能够利用超大规模的资料和数据,对问题形成更为合理的因果判断及相关关系发掘,将历史研究导入科学的轨道;二是通过各种特有的“组合”和“算法”,为历史研究提供更加丰富的手段与方法,形成新的研究范式。简言之,使史学更趋科学化。但在如何彰显历史的人文性方面,至少在目前数字史学还乏善可陈,仍是其短板。就此而言,数字史学的出现,并非是对传统史学的否定,更多则是对传统史学的补充,它也不可能脱离传统史学而孤军奋进。众所周知,历史是由人的活动而构成,史学的根本特性还在于其人文精神,必须回归到人,回归到以人为中心的“叙事”和“故事”。也就是说,在当今史学的“数字化转向”(digital transformation)之后,是否还会有一个数字化生存时代新的“叙事主义转向”(narrative turn)呢?这还真的难以逆料。

好在数字史学并非简单的“数字+史学”,而是以数字化方式体现的“全息化”“全景化”历史,存在人文的基因。信息化语境中的数字实为“数据”,是众多信息的符号化呈现,包括各种字母、符号、数字、语音、文献、图像、视频等。数据只是工具,运用这些工具的还是人——这里是史学家,因此,数字史学的本质属性仍然是人文的,而非自然的或物性的。诚如有的研究者所说,“归根结底,数字史学依旧是以‘人学’为特征的史学,而非数字科学。”因此,数字史学的发展方向,是如何在海量资料和数据研究中“出思想”,尤其是形成具有思想穿透力的前瞻性理论,实现定量研究与定性研究、数字与人文之间的互补和互动。

作为信息化、人工智能化时代的新事物,数字史学的发展存在无限可能性,它已不仅仅是一种手段、工具抑或方法,而是正在成长为一门新兴的史学分支学科。通过与大数据的结合,它在很大程度上实现了史料学的革命,并优化了量化历史研究;通过大量使用声光化电的多媒体技术,它正向历史教育与公众史学(public history)领域渗透、迁移,影响与塑造普通民众的历史意识;通过数字与人文的互补、互动,它正在推动形成一种更为全面的新型历史形态。或许,随着以ChatGpt、DeepSeek等为代表的生成式人工智能时代来临,数字史学又将面临新一轮的变革,大规模史料搜集和分析已变得轻而易举,而如何在人机互动交流中实现史学的进一步创新,让数字学会“思考”和“发声”,或将成为史学工作者下一个优先选项。

总之,大幕正徐徐拉开,一切才刚刚开始。在可以预见的将来,数字史学所开启的史学变革浪潮必将产生持久而深远的影响,我们需为此做好充分的准备。

(本文系根据笔者2023 年10 月在广西师范大学召开的“第二届中国近代史前沿论坛:大数据与中国近代史研究”会议上的发言整理,感谢薛勤、张祥梅在撰写期间提供相关资料。)

作者:马敏,华中师范大学中国近代史研究所教授

来源:《广东社会科学》 2025年第1期,注释从略

Copyright© 肇庆学院西江流域中外文化交流研究中心 版权所有