内部邮箱 用户名 密码
首页 > 理论研究 > 执政党研究
大数据时代的中共党史研究:挑战与变革
作者:      来源:《中国社会科学评价》2016年第3期
网络编辑:柳冰 发布时间:2016-12-29 打印本页 关闭窗口
摘要:重视利用数据来记载历史和论证观点,并逐步做到对数据的科学化处理,是中共党史研究的一个优良传统。大数据时代,中共党史研究在迎来巨大机遇的同时,也会在资料利用和存储、思维习惯、叙事方式、历史表达话语权等方面,遭受大数据洪流的冲击。面对挑战,中共党史研究应坚持以唯物史观为指导,加快信息化步伐,完善既有研究范式和革新研究方法,使党史研究在迈向科学化和现代化的征程中能够做到胸中有“数”。
关键词:大数据;中共党史研究;量化数据库;信息化

  不管批评者对大数据如何不屑一顾,如将其称之为“大忽悠”,认为“大数据概念存在被过度炒作之嫌”、大数据的功能被夸大、大数据给国家安全和个人隐私带来了挑战等,[1]不可否认的事实是,随着以互联网为核心的信息技术飞速发展,人类拥有的数据规模正在像滚雪球一样呈几何级数递增。相关统计显示,1998年全球网民平均每月使用的流量是1MB(兆字节),2000年是10MB,2003年是100MB,2008年是1GB(1024MB),2014年是10GB。全网流量累计达到1EB(即10亿GB或1000PB)的时间在2001年是一年,在2004年是一个月,在2007年是一周,而在2013年仅需一天。[2]正是基于这一现状,舍恩伯格等人宣称:“大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式。”[3]人类就是在对大数据概念尚未形成共识的情况下,迎来了大数据时代。

  大数据概念一出现,立刻引起了各国政府、科学界和社会大众的广泛关注。2012年以来,美国奥巴马政府先后发布了《大数据研究发展计划》、[4]《大数据:抓住机遇、保留价值》、[5]《大数据与隐私:技术视野》[6]等报告;2014年,欧盟发布了《跨向欣欣向荣的数据驱动型经济》的报告;[7]2015年9月,中国政府也发布了《促进大数据发展行动纲要》,将数据认定为国家“基础性战略资源”,强调要“建立和完善大数据产业公共服务支撑体系”。[8]与此同时,各学科研究者争相探讨大数据与本学科发展的关系,[9]中共党史学自然不能置身事外。根据党史界较为一致的观点:“中共党史学是带有鲜明政治学特点的历史学科”,“是一个大的专门史”,[10]所以史学界对大数据与历史研究关系的讨论,势必会影响到党史研究。

  围绕着大数据对历史研究的影响,相关观点大致可以分为两派:支持者认为,大数据不仅扩大了历史资料的范围,而且有助于提升历史活动中大众主体的角色定位,推动历史学从“庙堂之学”走向“公众之学”。[11]其中量化史学派尤为主张在历史研究中利用大数据技术,认为在一定条件下历史是可以被量化的,大数据技术为这种量化提供了可能和便捷。[12]反对者则认为,大数据是信息时代的骗局,历史是不可以被量化的,大数据无法替代研究者通过亲身体验去了解当时当地的历史情景,获取优质数据必须参与实践和走向社会,而不是宅在家中面对电脑。[13]我们无意去评价这些观点的是与非,但这场争论也给党史学科提出了一个无法回避的问题:党史研究该如何科学运用和处理数据?

  一、党史研究中运用和处理数据的学术史回顾

  根据当前学界较为一致的看法,所谓数据,是指进行各种统计、计算、科学研究或技术设计等所依据的数值,[14]它是人类在测量、记录和计算中用于记载事物、描述世界的工具和手段,是信息的载体。被电子化之前,数据的体量通常都比较小,在人类表情达意和记叙历史的过程中,其功能发挥也相对有限。在党史学科发展史上,重视利用数据来记载历史和论证观点,并逐步做到对数据的科学化处理,是党史研究的一个优良传统。

  目前已知最早从党史角度研究中共发展进程的文章,是陈公博于1924年1月在哥伦比亚大学撰写完成的硕士论文《共产主义运动在中国》,就非常重视对数据的运用。在阐述中国革命爆发和中国共产党成立的必然性时,该文对当时中国走向赤贫的农民和无产者的数量、外债复利数、政府借款数、童工日工作时间等,都进行了数据统计。尤其难能可贵的是,文中还专门列出了《赔款和战争借款》、《铁路借款》、《一般借款》、《各省借款》等表格,把本金数目、借款时间和利息率等内容,用具体数据予以说明,使作者的观点一目了然。[15]此外,早期一些其他党史著作(报告),如蔡和森的《中国共产党史的发展》、瞿秋白的《中国共产党历史概论》、华岗的《中国大革命史》等,在阐述相关问题和论证作者观点时,也非常重视利用数据。1926年,蔡和森任中共驻共产国际代表团团长时,应莫斯科中山大学旅俄支部邀请,在支部大会上作《中国共产党史的发展(提纲)》。报告一开篇,蔡和森专门就“报告中很少正确的统计的实际材料”向大会道歉,[16]说明他有很强的数据意识。瞿秋白《中国共产党历史概论》第三、四讲在介绍当时中国经济发展、社会阶级、党员结构等问题时,也均运用数据予以说明。[17]

  从红军长征到达陕北至新中国成立前,是党史研究取得重要进展的时期。这一时期党史研究的代表性成果,如由张闻天编著并于1936年开始印行的《中国现代革命运动史》,在列举帝国主义入侵罪行和阐述革命爆发的必然性等问题时,将列强输入商品、在华经营铁路、修建船厂、投资银行、发展工业,以及中国金银外流、原材料输出、清政府举债、入超等方面情况,都配以详细数据逐一说明。对于当时中国无产阶级的规模和数量,张闻天既利用了当时的官方数据,如1930年《第二次中国劳动年鉴》和同年铁道部、交通部的统计,也援引苏兆征、苏联卡赞宁、李达等人的民间数据。这些数据因为统计口径和方法不一,可能存在纰漏,但却起到了说明问题的作用。[18]此外,叶蠖生于1939年编著的《中国苏维埃运动史稿》,也非常注重发挥数据在历史叙事中的作用。书中许多数据和材料,是作者利用当时各解放区负责人集中在延安学习的机会,广泛搜罗采访而来。据叶蠖生回忆,为了提高数据和材料的质量,他将口述资料与《红色中华报》和《向导》等报刊上的材料相互佐证,以减少错讹。[19]

  党史研究中重视运用数据的传统,必然会对党的领导实践和决策过程产生影响。将重视数量关系的自发行为进行理论升华,并上升到适用于指导一切工作的方法论层面,是由毛泽东来完成的。1949年中共七届二中全会报告在总结党委会工作方法时,毛泽东强调指出:“对情况和问题一定要注意到它们的数量方面,要有基本的数量的分析。任何质量都表现为一定的数量,没有数量也就没有质量。我们有许多同志至今不懂得注意事物的数量方面,不懂得注意基本的统计、主要的百分比,不懂得注意决定事物质量的数量界限,一切都是胸中无‘数’,结果就不能不犯错误”。[20]这段话针对的是党委会和党员领导干部所面临的各项工作,表明在理论层面和党的决策思维中,做到胸中有“数”已引起高度重视。党史研究自然也不例外。

  从新中国成立到20世纪80年代计量史学传入这一时期,党史研究继续沿袭了此前重视运用和处理数据的传统。在具体操作上,除了对数据进行图表化处理、注重考证数据的来源和出处外,并没有出现其他质变性的内容和创新。20世纪70年代末80年代初,随着对苏联和美国计量史研究成果的译介,中国史学界开始对计量史研究展开讨论,不少学者还将计量分析和定量方法运用到具体研究中,从而在80年代中后期形成了一股计量史学热潮。[21]计量史学的观点和方法很快被引入党史界,一些党史研究者开始呼吁将计量方法应用于党史研究,[22]并在1990-2010年间产生了批量成果。这20年间倡导和运用计量方法研究中共党史的代表性论文成果,可参见下表。

 

  以上成果中,以日本学者村田忠禧的系列文章最具代表性。在《通过对字词使用的计量分析研究中共党史》一文中,村田以党代会政治报告为素材,通过分析报告中热门词汇的词频变化,来研究中国共产党路线方针政策的变化规律,让人眼前为之一亮。在另一篇文章中,村田以《人民日报》元旦社论为素材,仍然沿袭对字词频率统计的计量分析方法,来研究中华人民共和国的历史发展过程和特征。从上表所列村田的研究成果可以看出,计量方法对数据的运用和处理与传统党史研究对待数据存在重大差别:首先,在对数据的理解上,传统党史研究中数据仅仅被看成是一种表达多与少的量化符号,而计量方法则将这种量化符号置于一定背景下,由此揭示出多与少背后隐藏的规律性内容;其次,在数据使用范围上,传统党史研究往往是在分析经济、人口、阶级构成等量化问题时,会广泛使用数据,计量方法则将数据的使用拓展到对党代会报告、《人民日报》元旦社论、政府工作报告等文献的字词使用和词频变化等方面,大大拓展了数据在党史研究中的应用范围;第三,在数据使用的方式方法上,传统党史研究运用数据基本上都是靠人工处理、人脑分析,而计量方法则将计算机引入数据分析和处理中,大大提高了数据的处理速度和精准率。

  综上,党史研究中无论是运用传统数据处理方式还是计量方法,由于互联网技术的缺位而使数据彼此间难以互联共生,数据的“自我繁殖”和自组织能力不能呈现,党史学科所拥有的数据规模也都在既有数据库软件能力管控范围之内。因此,这一阶段党史研究中运用和处理的数据,是一种名副其实的“小数据”。

  二、大数据对党史研究的挑战

  历史进入21世纪第二个十年,随着移动互联网、物联网、“互联网+”、云计算和云存储等网络信息技术渗透到百姓日常生活之中,人类生产和拥有的数据呈现出新一轮大爆炸趋势。2011年5月,国际知名管理咨询公司麦肯锡发布了题为《大数据:创新、竞争和生产力的下一个前沿》的报告,将因这一轮数据大爆炸产生的大小超出了典型数据库软件采集、储存、管理和分析能力的数据集(Large pools of data),定义为“大数据”。[23]大数据概念强调的不仅仅是数据数量,更重要的是由海量数据产生的规模效应,使数据发生了价值溢价,并在互联网的作用下,数据经历了由“死”变“活”的质变过程。以党史研究为例,国内学者可能会利用到中国学术期刊全文数据库(CNKI)、国家哲学社会科学学术期刊数据库、学位论文(博、硕)全文数据库、维普中文期刊数据库、万方数字化期刊库、中国统计年鉴数据库、晚清期刊全文数据库、民国期刊全文数据库、《人民日报》图文数据库、超星数字图书馆、读秀知识库等数据资料。由于“数据是信息的载体,信息是有背景的数据,而知识是经过人类的归纳和整理,最终呈现规律的信息”,[24]所以这些数据库如果“各自为政”,其价值将非常有限;而如果通过互联网实现了各数据库之间的关联,则为学科知识的自我更新“繁殖”提供了机遇,同时还可以为研究者提供多种互补、互证资料,从而使数据产生1+1>2的价值溢价。所以大数据之“大”,既是指数据的数量、规模和灵活性之大,更是指数据价值增大以及由此产生的新知识和新思维。

  这种能够带来价值溢价和实现思维革新的数据,一方面为党史研究带来了巨大机遇:如在资料收集和运用方面,大数据可以使研究者获取信息更加全面和快捷,避免了因信息不足而导致以偏概全以及因传递缓慢而出现拖沓低效等问题;在研究思维创新方面,大数据跨学科、跨地域、跨时段等“跨界效应”,为研究者自身知识结构更新和在思维上做到与时俱进提供了可能性;在具体研究过程方面,大数据的互联互通和高效检索功能,为党史研究避免重复劳动和开展团队合作创造了条件;在研究成果转化方面,大数据的可视化技术和快速高效低成本的传输特征,使党史知识的大众化进一步加速。但另一方面,大数据也会对党史研究形成巨大挑战,具体表现如下。

  (一)大数据“4V”特征给党史研究的资料运用和存储带来挑战

  搜集、筛选、分析和运用资料,是党史研究的基本功。小数据时代,研究者的思维程式通常是从问题出发,然后在既有理论的指导下提出问题,再运用史料确证问题和分析问题,最后达到解决问题的目的。[25]在这一研究程式下,党史资料运用具有一些基本特点:一是资料涉足的时间跨度较短,超过半个世纪的选题通常被认为是“天马行空”而遭舍弃;二是资料涵盖的内容通常以代表性人物、典型事件为主,对普通大众和偶然事件则关注较少;三是资料的介质以纸质材料为主,大多为期刊、报纸、图书、档案等,对其他介质的资料使用率低。

  进入大数据时代后,由于大数据具有体量巨大(Volume)、类型多样(Variety)、流动速度快(Velocity)和价值密度低(Value)的“4V”特征,[26]必然给党史研究的资料运用带来难度。首先,对于研究者而言,在体量呈几何级数增长、且类型多样化的资料集中去搜罗、筛选想要的资料,比在体量小、类型简单的资料集中去搜寻资料,投入的时间、精力要多得多;其次,大数据的快速流动特征,使一切资料的精准性和时效性随时面临考验,很可能花费九牛二虎之力找到的资料,很快就被新出现的资料所证伪了;第三,大数据时代的党史研究,要求研究者搜寻、筛选、处理和存储资料,必须熟练掌握和运用相关的电脑和信息技术,这对此前只会翻阅纸张材料的研究者而言,知识结构的更新换代不可或缺。大数据时代,科研工作的无纸化和办公的无纸化趋势一样,只会不断加速。据估算,2000年,数据存储信息只占全球数据量的1/4,另外3/4的信息都存储在报纸、胶片、黑胶唱片和盒式磁带上;2007年,只有7%是存储在报纸、书籍、图片上的模拟数据,其余全部是数字数据;而到2013年,世界上存储的数据预计达1.2 ZB(1ZB=1024EB),其中非数字数据只占不到2%。[27]按照这一发展速度,未来人类历史和中国共产党历史研究的资料,必将主要以数字数据的形式存在。数据不仅正在成为商业资本,也将成为衡量党史研究者科研水平的标尺。谁先占有数据、善于存储和利用优质数据,谁就能抢占大数据时代科研工作的先机。

  (二)大数据带来的思维革命挑战现有的党史研究思维方式

  大数据引发科学界和社会高度关注的另一个理由,就是它所带来的思维革命。如何在看重抽样典型的同时更加关注整体,在重视因果关系时更加关注相关关系,在接受混杂中追求精准,[28]是大数据给党史研究思维方式带来的挑战。

  海量数据要求我们在认识世界和研究历史时,必须从“大”处着眼,更加关注和研究“大历史”,树立整体性思维,全面认识事物。这势必会对小数据时代党史研究中惯于抽样和强调“小题大做”等思维方式形成挑战。如前所述,传统党史研究在问题意识作用下,不仅要求选题不要跨越太长历史时段,而且对论据的选择也强调抽样取材。这种思维方式的理论依据,便是哲学上的归纳推理。但在整体性思维指引下,这种抽样思维和归纳推理总难免会出现挂一漏万的问题。如大家都熟悉的毛泽东同志的一句名言“十月革命一声炮响,给我们送来了马克思列宁主义”,阐明了十月革命对马克思列宁主义在中国传播的意义。而金观涛等人通过对1830年至1930年间最具代表性的报刊(如《新青年》等)进行词频统计,最后归纳得出结论认为:“中国知识分子在接受马克思主义后,十月革命的重要性才日益显现”,即不是十月革命促使中国先进知识分子接受马克思主义,而是正好相反,是中国先进知识分子在接受了马克思主义之后,才凸显出十月革命的重要性。[29]金的观点当然会遭到批评,因为其抽样思维和归纳逻辑存在纰漏:重要报刊并不能完全代表当时报刊整体,而报刊本身也不能全面反映当时的整个社会。要解决这一矛盾,就需要大数据的整体性思维,对当时包括报刊、档案等在内的所有材料搜罗全面,才能得出更具说服力的结论。当然,在大数据时代,强调抽样和“小题大做”的思维仍有其必要性,只是其主导地位已然被撼动。

  大数据展现魅力的另一个重要途径,就是对事物相关关系的挖掘。如谷歌通过分析人们在网上搜索记录的相关关系,成功地预测到2009年甲型H1N1流感的爆发;美国著名的大数据公司Palantir,通过寻找对比上千个数据库内审讯记录、财务信息、DNA样本等资料的相关关系,为美国政府追踪本·拉登提供了重要情报。正是基于对事物相关关系重要性的认知,大数据的拥护者宣称:“更好不是因果关系,而是相关关系”,“知道‘是什么’就够了,没必要知道‘为什么’。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己‘发声’”。[30]大数据对相关关系的执着追求,无疑会挑战现有党史研究惯于探寻因果关系的思维定势。众所周知,党史研究的基本对象通常是在历史上已然发生的事件、人物等。多少年来,党史学者的一个基本使命,就是通过对党史重大事件、重要人物及其活动进行研究,进而探寻历史事件发生的原因和历史发展的规律,对“为什么”的追问和探求,已成为根植于党史学者大脑的“先天基因”。大数据时代,如何在重视因果关系的同时更加关注相关关系,显然也是党史研究者面临的重大思维挑战。

  大数据给既有党史研究思维方式带来的第三个挑战,便是如何在接受混杂中追求精准的问题。倡导秉笔直书、“给后人留一部信史”,一直是中国史家修史的优良传统,也是党史工作者史德的体现。著名史学家章学诚强调“辨心术以议史德”的目的,就是要“著信史”、“做信人”;[31]中国马克思主义先驱李大钊在《史学要论》中,专门指出“凡学都所以求真,而历史为尤然”,并强调养成这种求真的态度和思维方式,对树立正确人生观(人的心性)的重要意义。[32]党史界也有学者提出“党史工作也要打假”、“党史研究要求真务实”,并具体指出要“求历史本原之真”、“求历史情节之真”、“求历史发展规律之真”。[33]无论是“求信”还是“求真”,其基本前提都要求对史料、史实的精准把握,这些观点至今仍然是不证自明的。但20世纪80年代以来,执着精准的研究思维开始遭受挑战。先是后现代主义的进攻,认为历史研究“探求真相的能力完全被否定了”,“撰写历史不是一件寻找真相的工作,而是在表现历史学家的政治理念”。[34]如今是有人借大数据之名,认为它会像后现代理论那样,使历史研究“放弃对‘真相’的执迷,退守叙事”。[35]这种观点显然是照搬西方大数据理论的结果。他们没有认识到,与小数据板着“精准确凿”的面孔不同,大数据更强调用概率说话。在数据的处理上,大数据使用的是简单算法,对数据因体量增大、类型多样和来源复杂带来的错讹采取宽容态度,其背后的理论依据是模糊理论和模糊逻辑。运用这种理论和算法是“以退为进”,接受混杂不是要放弃精准,也不是要把史实搞模糊,更不是要放弃对历史真相的追求,正好相反,这是在大数据时代从事物量的规定性方面去“求信”和“求真”所应具有的科学思维,与用考据等其他方法“求信”、“求真”殊途同归。

  (三)大数据对既有党史叙事方式和“专家治史”格局形成挑战

  小数据时代,承载党史叙事的主要工具是文字,研究者若要运用少量数据和图表,都会配以大量文字说明,为数据的出场创设语境,让读者能够弄清数据的用意和目标指向。与此相对应,党史叙述方式比较单一。如对历史事件的表述,通常停留在以时空为经纬的二维结构中;对历史现象的分析,大多逃不出循因人果或由果溯因的线性程式。在大数据时代,随着信息技术革新,党史叙事工具呈现出多样化趋势。除文字、图表外,视频、影像、动画等工具的广泛使用,使史实再现和观点呈现手段更加多元,效果更为生动逼真。相应地,这种叙事方式也会由二维转向多维、由线性转向非线性。

  此外,从研究主体看,以往的党史研究主要由经过一定专业训练的人员来承担,党史表达崇尚权威,研究成果的受众通常是与党史学习和工作有关的“小众”,成果传播速度和知识更新换代都比较慢,形成了名副其实的“专家治史”格局。大数据时代来临之后,微信、微博、论坛等社交媒体的广泛运用,势必会诱发党史表达话语权向下位移。移动互联网使得对党史的意见表达呈现出多元化趋势,大众开始对被动接受者的地位说不,这势必会对现有“专家治史”格局形成挑战。从好的方面看,这会加速党史研究成果的大众化进程,但其消极方面也不容小觑。党史研究主体的大众化和“草根史学家”话语权的增大,不仅会导致史实错讹、以偏概全和讨好粉丝媚俗现象的出现,而且“必将逐渐颠覆我们的正统史学观念,重构一个新的历史解释体系”。[36]当然,这里所说的“专家治史”格局遭受挑战,侧重于研究主体的大众化和研究成果的传播方面,并不是要否定专家的作用。大数据时代的党史研究,从数据库的建立到信息分类和编码,从方法选用到史实甄别,专家的作用仍不可替代。

  三、利用大数据推进党史研究变革

  大数据给党史研究带来的上述挑战,既有技术层面的,也有价值层面的。技术层面如党史资料的运用、存储和数据的处理、信息化技术的掌握、研究成果的可视化等;价值层面包括对史观的影响、史德的养成和指导理论的完善等。面对大数据的冲击,党史界可以考虑从加快党史研究信息化步伐、完善党史研究范式和革新党史研究方法等方面入手,来理性应对和推进研究变革。

  (一)加快党史研究信息化步伐

  党史研究信息化,是指将通信、网络和数据库等现代信息技术广泛应用于党史研究,以扩大党史资料和研究成果的共享率,增强党史研究者的思维创新能力,并提高党史研究资政育人服务水平的持续动态过程,它是党史研究科学化和现代化的重要内容。当前党史研究,在取得诸多成就的同时,也存在一些不足。从科研管理主体看,高校系统的主管部门是教育部,党校系统以中央党校为龙头,各级党史研究机构则由中央党史研究室主管,基本上是一个“三足鼎立”的格局。这三大系统缺乏一个权威的协调和指导机构,条块分割,各自为政,致使在课题选择、科研任务规划、人力物力资源配置诸方面,不可避免地出现了效率低下、重复劳动和资料难以共享等问题。在这种情况下,党史研究的信息化也踟蹰不前,这与大数据对党史研究的要求格格不入。

  要改变此种状况,党史研究各大系统应从大局出发,利用大数据技术,加大对现有科研资源的整合力度,加速党史研究资料共享进度,大力推进党史研究的科学化和信息化。第一步便是要加强对党史现有纸质资料和信息的电子化处理工作,通过数据采集、分类、编码、存储和挖掘分析等环节,建立大规模与党史研究相关的量化数据库。在这方面,中央党史研究室早在2001年便与广西区委党史研究室合作,推出了“中共党史计算机信息管理系统”,但遗憾的是后续工作没有及时跟进,数据的互联互通没能实现,故而数据的利用率也受限。此外,一些党史报刊也加大了建立数据库的力度,如《中共党史研究》、《党的文献》、《党史研究与教学》等,都推出了党史文献资料光盘数据库;而且党史界的绝大部分刊物都已加入中国期刊方阵,在中国知网全文数据库中能够检索利用,这表明党史文献资料电子化的工作已经起步。在此基础上,第二步便是在确保安全、保密的前提下,以开放共享、互利互惠的心态,通过互联网实现这些数据库间的关联和对接,并将这些党史信息数据库与中国近代以来的档案数据库、报刊数据库、人口数据库、国土资源数据库、户籍登记数据库、卫生资料数据库等进行关联,大大提高数据的时效性和可获得性,防止因“单打独斗”和闭塞保守而限制数据价值增值。据致力于量化史研究的学者李中清介绍,由他和研究团队创建的民国和新中国大学生数据库,收录了民国和新中国成立以来千百万大学生的个人信息和材料,若能将这些数据库与党史信息数据库关联,实现数据的共享和互补,必将为中国共产党创建史、中共高校党的建设史、中国共产党思想史等方面的研究带来新数据、产生新观点。加快党史研究的信息化步伐,功在当代,利在千秋。

  (二)完善党史研究范式

  如果说信息化是在为大数据时代的党史研究提供设施、平台等硬件准备,那完善研究范式则是为党史研究进行“软件升级”。近年来,党史界对研究范式的讨论表现出浓厚兴趣,[37]这从相关成果的频繁涌现可见一斑。虽然也有少数学者对这一概念不以为然,但借用这一概念来表述党史研究指导理论、研究思维和研究方法更新的成果却越来越多。[38]根据这些研究成果,党史研究现有基本范式包括革命史范式、现代化范式、自然史范式、社会史范式等。但遗憾的是,这些范式都没能系统完整地回答党史研究中该如何科学运用和处理数据的问题。在大数据时代,尤其是在党史研究面临上述挑战的情况下,如果我们局限于这些既有范式,便难以有效回应大数据的冲击。要寻求从理论、思维到研究方法的整体性变革,引入适应大数据发展趋势、符合党史研究实际的量化数据库研究范式便刻不容缓了。

  所谓量化数据库研究范式,“是统指各种搜寻能够涵盖一定地域范围、具有一定时间跨度的整体性大规模个人或其他微观层面信息的系统(一手)资料,并将这些资料按照一定数据格式进行电子化,构建成适用于统计分析软件的量化数据库并进行定量研究”的一种研究框架。[39]这种研究框架与传统研究的区别:一是以网络和大数据技术为基础,更加关注选材的长时段、大规模和微观细节;二是强调研究的宏观性和整体性,要求资料和信息齐全而非仅拘泥于抽样;三是技术门槛低,对相关的数学、统计等方面的知识要求不高,对复杂定量分析方法知之甚少的普通史学工作者也能把握。需要强调的是,这种新范式仍然应该坚持以唯物史观为指导,因为“让数据说话”的定量分析,使对引起社会上层建筑变动的经济基础的变化,对生产力发展的具体表征,有更为清晰的量化指标和逼真的呈现方式;在不放弃追求因果关系的同时,更加注重分析相关关系,有助于实现物质世界普遍联系规律的数量化呈现。同时,在史观、史德等价值层面,这种新范式通过运用新技术,扩大党史资料收集范围,变革党史研究思维方式,有助于党史研究更加接近历史本真,是帮助人类在“求信”、“求真”的道路上更加前进了一步,而不是要搞所谓的“放弃真相”和“退守叙事”。党史研究引入这种新范式,既可以弥补现有党史研究范式在运用和处理数据时的不足,为大数据时代的党史研究增添活力,也能够在大数据时代的党史研究中更好地坚持和发展唯物史观。

  (三)革新党史研究方法

  正如《连线》杂志主编安德森所说:“数据爆炸使得科学的研究方法都落伍了。”[40]在大数据时代,党史研究在继续发挥传统研究方法作用的同时,也无疑需要采取新举措、引入新技术,实现研究方法革新。以互联网为核心的信息技术广泛运用,使记录党史的数据每天都在不断地做着增量运动。作为在超大政治体系中长期执政的中国共产党,拥有世界上最大的体量和最多的党员数,记录其活动方式、决策过程和党员行为等方面的数据,早已超出了个人的阅读和处理能力。引入大数据的关联分析法、预测分析法、非线性分析法和量化比较法等研究方法,已是大势所趋。限于篇幅,下面以关联分析法为例进行具体说明。

  关联分析法就是挖掘存在于大量数据(集)之间的事物相关性,以此找出事物发展的主要矛盾和发展规律,是注重事物相关关系在方法论上的体现,主要包括灰色关联分析、模糊关联分析、矩阵关联分析、系统关联分析、动态关联分析等类型。在大数据时代的党史研究中,这种方法大有可为。一方面,在党史数据库建库和实行库关联时,有许多关联度强的选项适合开展量化研究。如将社会结构、阶级构成与户籍、人口资料数据关联;将党史上的重大决策与地理、气象、水文资料关联;将执政党政策输出、执政方式完善与民众幸福感指标系数关联等。另一方面,通过计算机软件和网络平台,关联分析法还可以提高党史研究者搜寻、筛选和处理资料的智能化程度。当前应用关联分析最典型的例子,就是电子商务中的“购物车”推送。党史研究可以利用这一方法和技术,在党史信息大数据平台(以大规模关联数据库为基础的网络平台)建立的基础上,引导研究者注册获得“购物车”。“购物车”根据自动记录和存储研究者的上网痕迹和检索数据进行关联分析并汇总,从而为研究者提供准确、及时的数据和资料。“购物车”还可以通过关联分析实时跟踪和“顺藤摸瓜”,为研究者推送意想不到的资料和信息,找出正在对相同选题感兴趣的其他同行,为研究团队的组建和实现科研协同创新提供技术支持。

  综上所述,在大数据的洪流中,党史研究要真正做到科学化和现代化,必须学会科学运用和处理数据。早在一个多世纪之前,马克思便体悟到:“一种科学只有在成功地运用数学时,才算达到了真正完善的地步。”[41]党史学科的自我发展和完善,不能胸中无“数”。

注释:  

  [1]参见王星:《大数据,大机遇还是大忽悠》,《电脑报》2012年7月23日,第A08版;储棕荷:《大数据可能沦为大忽悠?》,《工人日报》2014年8月29日,第05版;于英香:《大数据质疑述评》,《档案管理》2015年第1期。

  [2]参见邬贺铨:《大数据时代的机遇与挑战》,《求是》2013年第4期。

  [3]维克托·迈尔-舍恩伯格等:《大数据时代:生活、工作与思维的大变革》,盛杨燕等译,杭州:浙江人民出版社,2013年,第1页。

  [4]"Obama Administration Unveils ‘Big Data’ Initiative:Announces $ 200 Million in New R & D Investments," Executive Office of the President,2012,https://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf,2016年6月15日。

  [5]"Big Data:Seizing Opportunities,Preserving Values," Executive Office of the President,2014,https://www.whitehouse.gov/sites/default/files/docs/big_data_privacy_report_may_1_2014.pdf,2016年6月15日。

  [6]"Big Data and Privacy:A Technological Perspective," Executive Office of the President,2014,https://www.whitehouse.gov/sites/default/files/microsites/ostp/PCAST/pcast_big_data_and_privacy_-_may_2014.pdf,2016年6月15日。

  [7]"Towards a Thriving Data-Driven Economy," European Commission,2016,https://ec.europa.eu/digital-single-market/news/communication-data-driven-economy,2016年6月15日。

  [8]国务院:《促进大数据发展行动纲要》,http://www.gov.cn/zhengce/content/2015-09/05/contentl10137.htm,2016年6月15日。

  [9]国内学界相关探讨的成果参见方跃、郭喜才:《大数据时代背景下的数据科学》,《中国社会科学报》2014年4月23日,第B07版;黄欣荣:《大数据时代的哲学变革》,《光明日报》2014年12月3日,第15版;管健:《大数据能为社会心理学带来什么》,《光明日报》2014年12月3日,第15版;白建军:《大数据对法学研究的些许影响》,《中外法学》2015年第1期;刘京臣:《大数据时代的古典文献学研究》,《文学遗产》2015年第3期;陈云松:《大数据中的百年社会学》,《社会学研究》2015年第1期;朱廷劭等:《论大数据时代的心理学研究变革》,《新疆师范大学学报》2015年第4期。

  [10]欧阳淞:《关于党史研究的理论指导问题》,《光明日报》2013年7月17日,第11版。

  [11]姜义华:《大数据催生史学大变革》,《中国社会科学报》2015年4月29日,第B05版。

  [12]在学缘上,量化史学派承袭计量史学而来,是强调利用数据分析方法来研究历史的史学工作者群体的统称,代表人物主要包括耶鲁大学的陈志武、William N.Goetzmann,香港科技大学的李中清、龚启圣、李伯重,北京大学的管汉晖、周黎安,清华大学的龙登高,纽约大学的David Stasavage等。2013-2015年,他们分别在清华大学和北京大学举办了三届量化历史讲习班,为国内史学界培养以量化方法研究历史的专门人才。

  [13]艾米丽·德莱弗斯:《信息时代的骗局:背离现实世界大数据毫无价值》,http://culture.ifeng.com/a/20140704/41018923_0.shtml,2015年8月10日。

  [14]参见《现代汉语词典》第6版,北京:商务印书馆,2012年,第1212页;《辞海》第6版,上海:上海辞书出版社,2009年,第2100页。

  [15]该文运用和处理数据的具体情况,参见中共一大会址纪念馆编:《中共一大代表早期文稿选编(1917.11-1923.7)》下册,上海:上海人民出版社,2011年,第1349、1355—1357页。

  [16]参见中国革命博物馆编:《蔡和森的十二篇文章》,北京:人民出版社,1980年,第1页。

  [17]参见中央档案馆编:《中国共产党第一次代表大会档案资料》(增订版),北京:人民出版社,1982年,第82—87页。

  [18]参见张闻天编著:《中国现代革命运动史》,北京:中国人民大学出版社,1987年,第10、58—59、78—82、118—119、120、135—136页。

  [19]叶蠖生:《我所了解的中国历史研究室》,转引自温济泽等编:《延安中央研究院回忆录》,北京:中国社会科学出版社,1984年,第75页。

  [20]《毛泽东选集》第4卷,北京:人民出版社,1991年,第1442页。

  [21]代表性成果参见彭泽益:《中国经济史研究中的计量问题》,《历史研究》1985年第3期;伍丹戈:《定量分析法在中国经济史中的应用》(上、下),《复旦学报》1985年第5、6期;钱学森等:《用系统科学方法使历史科学定量化》,《历史研究》1986年第4期;王小宽:《国外计量史学的兴起与发展》,《史学理论》1987年第4期;马雪萍:《计量史学评估》,《红旗》1987年第23期。

  [22]参见侯且岸:《略论马克思主义史学方法在中共党史研究中的运用》,《党校教学》1988年第1期;兰桂英:《把计量方法应用于党史研究》,《福建党史月刊》1988年第9期。

  [23]1998年,著名的《科学》杂志在所刊载的一篇文章中首次使用大数据概念时,并没有引起关注和较大反响;10年后,《自然》杂志组稿发表了有关大数据的系列专题文章,才使得大数据概念逐渐流传开来,参见Tony Cass,"A Handler for Big Data," Science,vol.282,no.5398,1998,p.636; Tin-Lap Lee,"Big Data:Open-Source Format Needed to Aid Wiki Collaboration," Nature,vol.455,no.7212,2008,p.461; Clifford Lynch,"Big Data:How do Your Data Grow?" Nature,vol.455,no.7209,2008,p.28; Felice Frankel and Rosalind Reid,"Big Data:Distilling Meaning from Data," Nature,vol.455,no.7209,2008,p.30.

  [24]涂子沛:《数据之巅:大数据革命,历史、现实与未来》,北京:中信出版社,2014年,第256页。

  [25]党史专家张静如教授曾专门发出“党史研究工作者要树立问题意识”的倡议,参见张静如等:《以科学发展观指导中共历史研究》,《中共党史研究》2010年第1期。

  [26]P.C.Zikopoulos et al.,Understanding Big Data,New York:McGraw Hill,2013,pp.5-9.此外,2014年IBM公司发布《实现大数据的承诺:实施大数据工程》白皮书,进一步将大数据的特征由“4V”扩展为“Vs”,增加了数据粘度(Viscosity)、数据易变性(Variability)和有效性(Volatility)等。

  [27]维克托·迈尔-舍恩伯格等:《大数据时代:生活、工作与思维的大变革》,第12—13页。

  [28]大数据带来的思维革命,可参考舍恩伯格等人的相关论述,但我们并不完全赞同作者的观点,如完全放弃对因果关系的追求、放弃对精准性的追求等等,所以引入党史研究时,我们结合实际进行了重新概括。参见维克托·迈尔-舍恩伯格等:《大数据时代:生活、工作与思维的大变革》,第27—65页。

  [29]金观涛、刘青峰:《观念史研究:中国现代重要政治术语的形成》,北京:法律出版社,2009年,第411页。

  [30]维克托·迈尔-舍恩伯格等:《大数据时代:生活、工作与思维的大变革》,第67页。

  [31]章学诚:《文史通义》,上海:世界书局,1935年,第45页。

  [32]《李大钊全集》第4卷,北京:人民出版社,2006年,第443页。

  [33]张静如等:《求真务实与中共历史研究》,《中共党史研究》2005年第2期。

  [34]乔伊斯·阿普尔比等:《历史的真相》,刘北成等译,北京:中央编译出版社,1999年,第227—228页。

  [35]陶程凯:《也谈历史学和大数据》,《东方早报》2014年7月13日,第B15版。

  [36]参见马勇:《“自媒体时代”的历史研究和史学表达》,《史学理论研究》2011年第4期。

  [37]美国学者库恩借用“范式”(Paradigm)这一概念,来表述某些学术共同体所共有的由理想信念、指导理论、科学思维和研究方法等内容组成的一套科学完整的研究框架或模式。能够称得上范式的研究框架,必须具备“空前吸引一批坚定拥护者”和足以为后续研究留下新问题这两个基本特征。(参见托马斯·库恩:《科学革命的结构》,金吾伦等译,北京:北京大学出版社,2003年,第9页)

  [38]这些成果主要包括张静如等:《中共历史研究必须不断创新研究范式》,《湖湘论坛》2014年第6期;沈传亮:《中共历史研究中的多重范式共生趋向分析》,《党史研究与教学》2005年第2期;何云峰:《也谈中共历史研究的范式》,《党史研究与教学》2006年第4期;朱文通等:《“新革命史”范式提升党史研究》,《中国社会科学报》2014年1月27日,第A05版。

  [39]梁晨等:《量化数据库与历史研究》,《历史研究》2015年第2期。

  [40]转引自维克托·迈尔-舍恩伯格等:《大数据时代:生活、工作与思维的大变革》,第92页。

  [41]保尔·拉法格等:《回忆马克思恩格斯》,马集译,北京:人民出版社,1973年,第7页。

  (作者单位:首都师范大学政法学院)

相关文章:
文章检索
请输入要检索的文章标题
马克思主义理论研究和建设工程
中国现实问题研究
国外理论动态
理论视野
专家访谈