学术评价存在的问题、成因及其治理

 

摘要:学术评价已成为当下学术研究的热门话题,但透过表面繁荣的背后,却是学术评价的乱象纷纭。造成学术评价乱象的根源很多,比如官本位意识导致学术资源分配不公,“一刀切”的量化评价导致学术生产的数量增加而质量下降,“评价标准异化”导致学术评价机构公信力的缺失,不合理的科研体制是学术评价乱象的根源。要治理学术评价乱象,必须立破并举、多管齐下、统筹协调、优化整合。一是建立学术评价机构准入制度和退出机制,二是加强学术评价的回避制度和监督机制,三是规范并完善同行评价制度,四是终结“以刊评文”的量化评价机制,五是建立独立的、客观的、民主的学术评价机构。

关键词:学术评价;存在问题;治理

    自1990年代起,学术评价就成为学术研究的热门话题。进入21世纪,学术评价研究步入快速发展时期,论文呈现逐年增多的趋势。在中国知网收录的报刊中,经关键词检索,从2004—2014年十年间有“学术评价”关键词的文章多达3440篇。随着“核心期刊”“来源期刊”排行榜和排名表的一次次强势推出,评价机构摇身一变成为凌驾于学者、编者之上的支配力量。然而,透过表面热闹、繁荣的背后,我们看到的却是学术评价乱象纷纭、学术评价的一次次蜕变。伴随着不绝于耳的批评和讨伐声,学术评价机构的数量不降反升,“期刊榜单”的花样不断翻新,“搭台唱戏”的声势越来越大,可学术评价“流弊”的改进却微乎其微,学术评价的整体改革更是举步维艰,这不能不令人担忧,也不能不令人深思!

 

    一、学术评价滥觞于欧美

 

    随着近代科学的建立,新思想、新观念、新成果成为17世纪推进西方科学技术发展的无形动力。学者之间主要靠通信方式交流思想心得与科学发现,已远远不能适应形势发展的需要。于是,一种新颖、快捷、综合的出版载体——学术期刊应运而生。

 

    1665年1月法国议院参事丹尼斯·戴萨罗(Denis de Sallo)在巴黎创办了世界上最早的期刊《学者杂志》(Joural des Scavans),创刊号共计20页,包括十篇文章和几位学者之间有关科学和学术发现的信件。“编者的话”阐述了办刊目的:1.提供欧洲出版图书的目录及有用的信息;2.刊载著名人物的讣告,并评述他们的工作和成就;3.发表物理、化学、解剖学方面的实验研究成果,以及有关天文及气象的观察和记录,报道有关艺术与科学的发现;4.刊登有关民事和宗教法庭的重要文告、判决及大学的决议通告;5.报道读者感兴趣的有关时事。有研究者认为,这本刊物还不是有意识地用于学术交流、传递情报的科技期刊。因为该刊办刊的目的是“满足人们的好奇心和不用花多大力气就能学到东西的一种手段”。

 

    1665年3月,英国皇家学会在伦敦创办《哲学汇刊》(Philosophical Transactions of the Royal Society),由英国皇家学会秘书亨利·奥森伯格(Henry Oldenburg)负责编辑出版,仅有16页。在导言中,奥森伯格清楚地表明这份学术期刊将致力于科学发现、知识经验的交流,改善和增进自然科学的研究。奥森伯格负责编辑出版了136期,共12卷,涉及物理、天文、地理、航海和医学等各个方面的内容,规定每月的第一个星期一出版,周期是罕见的准确稳定。“该刊承载了近代西方引领科学革命的最重要成果,包括伊萨克·牛顿的《关于光与色的新理论》和其他16篇文章,查理斯·达尔文的地理学研究成果及本杰明·佛兰克林在电学实验方面的发现,让这个交流平台成为学者了解新发现和新思想不可或缺的信息库,成为科学革命的一面旗帜,当然也成为启蒙时代学术的引领者”。1752年皇家学会将刊物改名为《皇家学会哲学汇刊》,“纯粹服务于学会的用途和利益”。尽管过强的皇家学会背景限制了普通知识阶层的参与,但“这份期刊创造了世界上第一个由科学家组成的编委会,以协助编辑评审稿件,并形成了期刊同人评审体制的雏形”。“同行评议”(peer review)的办法,后经多年的不断发展和完善,遂成为欧美国家知识界学术评价的主要依赖方式。

 

    《学者杂志》《哲学汇刊》被公认为世界学术期刊的鼻祖。它们的创刊,开启了学术期刊的时代,打破了封闭的知识传播体系,使个体研究成果迅速地变成社会化、国际化的成果。具体体现在三个方面:一是展示学术成果,二是提供学术交流平台,三是期刊定期出版。正如英国著名编辑威廉·E.迪克所说:“从17世纪开始,定期期刊是报道新发明和传播新理论的主要工具。我甚至说,假若没有定期期刊,现代科学将会以另一种途径和缓慢得多的速度向前发展。”

 

    1710年4月10日生效的《安妮女王法令》,是英国第一部关于版权的法令,也是世界上第一部现代意义的版权法,它废除了王室给书商颁发印刷许可证的封建垄断制度,承认作者有权支配和处理自己的作品,使其成为版权主体。“随着版权概念的产生,学术研究论文的出版承担起记录科学发现‘所有权’的功能,成为科学发现、发明的证明”。

 

    18世纪后,英国、荷兰、法国、德国、美国等国家相继成立各种学术团体。由于学术研究的繁荣,学科的细化,各种专业期刊陆续出现,如英国的《化学会志》(1778)和《自然》 (1869 ),美国的《科学》(1880)和《全国地理杂志》(1888) ,法国的《纯粹与应用数学杂志》(1836)和《物理学杂志》(1872), 德国《矿物学杂志》(1807)和《德国工程师学会杂志》(1857),荷兰的《荷兰皇家科学院院报》(1898)和奥地利《维也纳人类学通报》(1870)等。在知识界,这些专业期刊“首先评价知识,其次传播知识”的社会功能开始得到认可。进入19世纪,不仅科学家本人需要发明的专利和荣誉,科学家所在的学术机构也将学术发表视为其存在价值的证明。一篇经过严格评审的期刊论文,“它的首要功能是作为一种知识声明,宣布它已经得到了科学家同行的评议和承认”。

 

    随着科技文献数量加大,增长加快,导致文献分布既集中又分散,内容既专深又交叉,读者迫切需要以最少的时间了解各专业文献的最新情况。于是,1830年德国创办了世界上第一种文摘期刊——《化学文摘》),这意味着人类社会进入有序传递情报阶段。1884年美国工程信息公司创办《工程索引》,摘录世界工程技术期刊发表的会议文献、图书信息、技术报告和学位论文等,是供查阅工程技术领域文献的综合性情报检索期刊。1907年美国化学会创办《化学文摘》,并于1969年兼并了具有140年历史的德国《化学文摘》,在其封面上醒目地写着:打开世纪化学文献的钥匙。这本期刊,摘录了136个国家用56种文字出版的15000多种期刊,内容涉及科技报告、会议记录、学位论文、图书等各种类型的文献,同时还报道了30多个国家以及两个世界性专利组织(欧洲专利组织和世界知识产权组织)的专利文献,每年发表摘要约70万条。此后,文摘、索引和附有文摘的检索期刊如雨后春笋般涌现,到1984年约有4000种。根据国际标准ISO214-1979(E)的规定,文摘是“一份文献内容的缩短的精确表达而无须补充解释或评论”。中国国家标准GB3793-83规定,文摘是“对文献内容作实质性描述的文献条目”。具体地说,文摘类期刊在发挥整序功能、检索功能、传播功能的同时,还扮演着评价功能,要对大量学术论文进行筛选分析、提炼浓缩和归纳概括,把高质量论文推荐给同行读者,使之更便于利用。

 

    20世纪30年代初期,英国文献学家布拉德福(S.C.Bradford)发现世界上300种文摘期刊和索引存在着漏摘、漏标和重复摘标等问题,导致三分之二的文献资源无法被学者和读者利用,造成了文献资源的极大浪费。1934年布拉德福提出了“文献离散定律”:“对某一特定主题而言,将科学期刊按其登载相关论文减少的顺序排列时,都可以划分出对该主题最有贡献的核心区,以及含有论文数量与之相等的几个区。这时核心区与相继各区的期刊数量成1:a:a2……的关系。”这一定律是核心期刊遴选最为原始的理论基础。不过,布氏定律还存在诸如核心区曲线上翘、游离区曲线下垂等缺陷,后经英国著名文献学家维克利(B.C.Wickery)等人的补充、修正和发展,遂成为文献计量学史上最负盛名的“经典定律”。

 

    20世纪60年代初,美国文献学家尤金·加菲尔德(Eugene.Garfield)创立了引文索引系统。1963年他编制、出版了《科学引文索引》单卷本,1964年ISI(科技信息研究所)开始正式出版发行《科学引文索引》(简称SCI)。1971年加菲尔德对SCI收录的2200种期刊上的论文进行统计分析时发现,有25种期刊在所有学术论文的引用文献中占了24%,152种期刊在所有学术论文的引用文献中占了50%,767种期刊在所有学术论文的引用文献中占了75%。1969年SCI论文的70%的引用文献来源于500种期刊。加菲尔德由此认为:大量的引文都集中在多个学科的一小部分核心期刊中,而少量的引文则散布在大量的期刊中。因此,一个基本的、集中的期刊集合,就可以代表所有学科的核心。这就是著名的“加菲尔德引文集中定律”,他从引文角度出发证实了布氏定律及核心期刊的存在。1973年《社会科学引文索引》(简称SSCI)、1978年《艺术与人文社会科学引文索引》(简称A&HCI )出版,加菲尔德就建立了一个多学科和综合性的科学引文索引体系,成为国际公认的权威文献索引工具。以引文分析为基础的SCI、SSCI、A&HCI 是对评价者(期刊)的再评价,作为评价期刊的工具,自然也具有了学术评价的合法性。基于这种逻辑,20世纪70年代,美国的科研管理部门将SCI等作为科研绩效评价的主要工具,并与终身教职的任职、晋升和科研奖励等挂钩。科研管理部门的这种做法,引起了学术界的强烈不满和批评。“长期以来,知识界的评价方式主要依赖于同行评议,以引文工具为基础的评价方式在一定程度上意味着褫夺了学术共同体长期拥有的自我评价权。学术评价权的旁落,可能会进一步导致其他社会机构和集团对学术共同体的操作和控制,威胁到学术自由这一长期以来备受推崇的精神本质。因此,Gustafson认为基于引文分析的期刊评价是对同行评议的反动”。行文至此,不得不令人感叹:历史常常有着惊人的相似之处,几十年之后我们也不得不步了美国人的后尘,这是一种巧合,焉或一种讽刺?

 

    1971年,美国科学学家普赖斯(Derek Price)提出了衡量文献老化程度的量化指标——普赖斯指数(某一学科领域内,发表时间不超过5年的被引文献与总被引文献总量之比),用以量度文献的老化速度。普赖斯指数越大,相关文献的老化速度越快,该学科发展也就越迅速。他还发现:文章发表后两年内被引用的次数最多,然后会逐渐减少,进入老化期,这被称为“引文峰值理论”。

 

    总之,上述“文献离散定律”“引文集中定律”“文献老化指数和引文峰值理论”,既是文献计量学的重要原理,又是学术期刊定量评价的理论基础。在这三大理论指导下,欧美形成了一套严格的并长期行之有效的学术评价制度和方式。

 

二、学术评价引进之历程

 

    我国的期刊评价理论与实践均引进于欧美。1964年,张琪玉、王恩光分别在《综合科技动态情报工作》第5期上发表文章,第一次向中国读者介绍了美国《科学引文索引》。1973年,中国图书进出口公司创办的《国外快译》摘译了联合国教科文组织1968年的一篇报道:二次文献在期刊上的分布是75%的文献来自10%的期刊中。钱荣贵考证,这可能是国内传媒首次提及“核心期刊”的开篇之作。此后,吴尔中在《世界图书》1973年第11期—12期专文介绍了“世界化学类核心期刊”。

 

    我国的期刊评价研究人员由最初的图书情报界,逐渐扩张到自然科学界、人文社会科学界、期刊编辑出版界和科学管理界,越来越引起社会的关注和学者的重视。有研究者认为,我国期刊评价研究队伍主要分为三个学派:一是公共价值学派。从公共管理的角度出发,以公共价值为目标,研究如何通过期刊评价指标体系引导期刊提高学术质量,如何通过期刊评价指标体系引导期刊融入到我国科学研究的大体系中来。二是理论方法学派。从科学计量学、文献计量学、图书情报学理论方法入手,研究期刊的学科属性,综合国际国内前沿的期刊评价方法与理论,更多地考虑理论上的可行性。三是实用主义学派。从个别学科或某个期刊的角度,研究如何利用期刊指标,提高自身的影响力,或强调单个指标在评价体系中的重要性,研究适用于本学科期刊的评价指标体系,也有跟着期刊评价指标体系的指挥棒,通过人为操作提高某些指标,追求短期社会效应。实用主义学派的研究,在一定程度上推动了公共价值学派的研究工作,也激发了理论方法学派的研究热情。反之,公共价值学派的研究进展,对理论方法学派和实用主义学派也起到了相同的作用。

 

    从1992年起,我国的期刊评价基本形成两大体系,一是由政府部门主导基于质量评估的优秀期刊评价体系,二是由专业学术评价和发布机构主导的基于文献计量理论的期刊定量评价体系。政府部门主导的期刊评价大体可分为三个阶段。

 

    第一阶段1992—2000年,为引导期刊治散治乱、调整结构的时期。重要的期刊评价活动有:1992年国家科委、中宣部和新闻出版署共同举办“全国优秀科技期刊评选”。1995年新闻出版署举办首届社科期刊评奖。1999年首届“国家期刊奖”评选。2000年第二届“全国百种重点社科期刊”评选。

 

    第二阶段2001—2005年,为强调期刊市场导向、办刊实力的时期。重要的期刊评价活动有:1.“中国期刊方阵”评选。2001年4月新闻出版总署向全国下发了建设“中国期刊方阵”的工作方案,通过各省(区、市)推荐和中央部委评比产生,2001年岁末正式公布1518种期刊进入“中国期刊方阵”。分为四个层面,形成宝塔结构:第一层次是“高知名度、高学术水平”的“双高”期刊65种,第二层次是获国家期刊奖、国家期刊提名奖的“双奖”期刊107种,第三层次是获百种重点社科期刊、百种重点科技期刊的“双百”期刊192种,第四层次是社会效益、经济效益好的“双效”期刊1154种。这是首次以阵容形式,展示我国不同类型、不同层次期刊的发展现状和标高。2.2002年第二届“国家期刊奖”评选。3.2003年教育部“高校哲学社会科学名刊工程”评选。4.2004年第三届“国家期刊奖”评选。

 

    第三阶段2006年—现在,为鼓励期刊体制改革、融合发展的时期。重要的期刊评价活动有:1.2011年第一届“中国出版政府奖期刊奖”评选。2.2013年第一届“百强报刊”评选。3.2014年第二届“中国出版政府奖期刊奖”评选。4.2015年第二届“百强报刊”评选。政府部门主导的一系列评奖活动,突出政治导向,重视内容质量、期刊影响力、融合发展、发行量(利润)、办刊条件、编辑规范,起到了树立榜样、表彰先进的作用,但对消费类期刊(市场化)的重视大于学术期刊,对科技类学术期刊的重视大于社科类学术期刊。“针对学术期刊评价而言,尤其需要引起重视的是:政府的多种期刊评价在评价指标和导向上都不是针对学术期刊设计的,因此不利于对学术期刊的正确引导”。管理部门的不少领导者并没有真正认识到,学术期刊是学术创新的重要推手,是学术成果转化的重要载体,是人才培养的重要平台,是学风建设的重要引擎,更是文化软实力的重要体现。因此,这些令人炫目、看起来风光的奖项,并不能解决学术期刊固有的困境和新生的难题。特别需要指出的是,权力部门过度介入这类期刊评奖,举凡专家的遴选、评议程序的安排、评议对象的选择、评选标准的设定、评选结果的公示,全由管理部门主导。评选过程,或采用“一票否决”,或考虑地区平衡,或强调政策倾斜,或厚此薄彼,或搞“中国式人情”,其结果必然把学术质量标准置于次要,甚至把学术期刊放在无关重要的位置。

 

    期刊定量评价是我国目前最为盛行的期刊评价方法,其引进、发展大体经历了三个阶段。

 

    第一阶段1973—1982年,为翻译、引进和吸收阶段。如1980年,王津生撰文对布拉德福定律及核心期刊的测定做了详细介绍。1981年,陈光祚撰文指出了布拉德福定律偏袒载文量大的期刊,忽视载文量小的期刊,并建议将布拉德福定律和百分比分布的计算方法结合起来,以改进对核心期刊的测定方法。不过,这一阶段发表的论文不多,缺乏自主性的系统研究,主要特点有:“(1)翻译、介绍、引进和验证国外相关文献计量研究成果;(2)探索文献计量相关定律的应用;(3)期刊定量评价主体集中于图书情报界,评价客体以国外期刊为主;(4)评价以探索期刊‘量’的特征即‘信息密度’为主。”

 

    第二阶段1983—1989年,为自主研究并探索应用实践阶段。这个阶段著译渐多,研究内容开始转向对期刊评价理论和方法的自主研究,期刊定量评价的客体开始由国外期刊转向国内期刊。主要标志有:1.1983年,武汉大学为本科生开设了文献计量学课程,并编写出《文献计量学》教材。2.研究论文数量增长很快,内容既有国外研究成果的介绍和评述,也有针对国内期刊开展的应用性研究。据“中国知网”资料统计,1980—1990年间,共发表期刊评价研究相关论文305篇。3.1987年,“中国管理科学研究院”科学学研究所赵红州等利用《科学引文索引》(SCI)为数据源,对我国科技论文被国外引用的情况进行了统计分析,排出了86所重点大学发表论文的名次,引起社会强烈反响。4.1987年,中国科学技术信息研究所建立“中国科技论文与引文数据库(CSTPCD),收录我国各学科重要科技期刊,其收录期刊称为“中国科技论文统计源期刊”。5.1987年,兰州大学靖钦恕、线家秀受中国图协的委托,编辑1980—1986年的《中文自然科学引文索引》,他们采用“引文法”鉴定出自然科学的中文核心期刊104种,并在《世界图书》1988年第1期首次提出“中国自然科学核心期刊”。6.1987年,北京书目文献出版社出版罗式胜《文献计量学引论》,1988年科学技术文献出版社出版邱均平《文献计量学》,为当时的代表性成果。

 

    第三阶段从1990年至今,为期刊评价研究开始走向理论研究和实践应用并重的快速发展阶段。其主要特点:1.将核心期刊理论与方法全面推广到人文社会科学领域,引起学界激烈争论。2.人文社科学术期刊的主编、编辑成为期刊评价研究的另一支生力军,相继撰写了一批高水平的学术论文,发出了强有力的不同的声音。3.图书情报界的研究人员开始由个人研究转变为专业评价机构的中坚,集体攻关,推出期刊评价体系和“排行榜”。4.专业评价机构开始从纯“定量”评价转向“定量”与“定性”相结合的综合评价。5.专业评价机构不仅利用计算机编制中文引文索引和筛选核心期刊,甚至开始探索大数据的直接介入。

 

    总之,我国期刊评价研究与应用在取得丰硕成果的同时,还存在着多种的负面问题,尤其是“核心期刊现象”。套用狄更斯在《双城记》开篇写的话:这是一个最好的现象,这是一个最坏的现象;这是一个智慧的评价,这是一个愚蠢的评价;这是希望之春,这是失望之冬;我们正踏上天堂之路,我们正走向地狱之门。

 

    三、学术评价存在的问题

 

    美国当代著名教育家本杰明·布鲁姆(Benjamin Bloom) 1956年在《教育目标分类:认知领域》一书中指出:评价(Evaluation)就是通过评价者对评价对象依据评价标准进行定性或定量的测评,最终得出一个可靠的并合乎逻辑规律的结论的过程。“学术评价的对象是多元的,学术成果(作品)、作者、期刊、出版机构、科研机构等都可归入评价对象,但只有对学术成果(作品)的评价是基础性的,对其余各种对象的评价都是建立在对成果(作品)评价的基础上的。所以,核心的评价是对成果(作品)的评价。学术成果(作品)一旦公开发表或公布,对它的评价就是所有读者和应用者的基本权利,这就决定了评价主体也是多元的。一般说来,读者和应用者通过学术批评来行使他们的评价权力”。然而,现行学术评价体制的核心就是学术期刊评价,通过对学术期刊的评价来间接地评价学术成果(论文),因此,“以刊评文”就堂而皇之地成为学术评价的主要表现,并催生出众多的专业评价机构。

 

    20世纪90年代之后,个人学术研究与学术评价的同一性彻底终结,形成了一批期刊评价体系。“不断问世的专业评价机构都有着一些共同的特征:其一是几乎均由从事文献情报工作的人员组成,除了其本专业以外,不是任何学术共同体的成员;其二是在明里或暗里都以为政府服务或被政府认可为主要目的;其三是通过采集各种形式数据,以量化评价的‘客观’、‘公正’、‘公平’相标榜;其四是其主打产品即对学术期刊进行分等分级(所谓‘顶级期刊’、‘权威期刊’、‘核心期刊’等)的排行榜和排名表。尽管专业评价机构的第一特征就决定了它不可能是学术评价适格的主体,直接采信这样的机构的评价结论已完全违背了只有同行专家才是最合适的评价主体这一学术评价的基本原则,但后三个特征正是行政权力部门最需要的,在同行评议痛遭诟病之后,专业评价机构终于得到了行政权力部门的青睐而上位”。 “橘过淮则枳”,学术评价机制变异对科学研究事业和教育事业的发展,产生了诸多的负面效应。

 

   (一)群雄并起,竞争加剧

 

    自1992年北京大学图书馆《中文核心期刊要目总览》横空出世,从此全面拉开了国内大规模期刊定量统计与评价的序幕。截止现在,已产生了七大中国人文社会科学评价机构与体系。

 

    1.《中文核心期刊要目总览》,由北京大学图书馆和北京高校图书馆期刊工作研究会共同发起,由北京大学图书馆主持研究,定期出版评价成果。已出版1992年版、1996年版、2000年版、2004年版、2008年版、2011年版。2011年版确定:七大编73个类目,核心期刊1982个,9个评价指标(被索量、被摘量、被引量、他引量、被摘率、影响因子、被重要检索系统收录、基金论文比、Web下载量),采取分学科统计评价、多指标综合评价、定量评价与定性评价相结合。将“基金论文比”作为学术期刊质量的评价指标,是中国期刊评价领域的独创。《中国科技期刊引证报告》在2001年即开始统计“基金论文比”,《中文核心期刊要目总览》2008年版也新增设了这一指标。这项指标使评价主体与评价客体位置倒错,将课题立项评价与课题成果评价划上等号,“将对学术期刊的办刊造成不良影响乃至误导,期刊筛选稿件必然会趋附‘基金论文’——只要是‘基金论文’,即使质量差一些也会优先选用。实际上,不少科技期刊的前述做法已受到越来越多的质疑和担忧”。

 

    2.《中国社会科学引文索引》(CSSCI),由南京大学中国社会科学评价中心于1998年创建,每2年评选一次来源期刊。通过对全国所有正式公开发行且具有ISSN或CN号并有参考文献的人文社科学术性期刊,进行他引影响因子分析,指某刊在统计当年被CSSCI来源期刊文献引用该刊前2年所登载的文章的篇次(不含该刊自引)与前2年该刊载文量之比;总被引频次指某刊被统计当年被CSSCI来源期刊文献所引用该刊创刊以来登载的文章的总篇次(含该刊自引)。结果最靠前的刊物,就是南大核心来源期刊。2014—2015年来源期刊共设25个大类,收录来源刊533种,扩张版189种,共计722种。CSSCI的研制者始终强调来源期刊不同于核心期刊,因为它还有另一种产品——期刊评价数据库。然而,令人遗憾的是期刊评价数据库完全被其发布的“期刊排行榜”遮蔽了,让读者只见树木不见森林。

 

    3.《中国人文社会科学核心期刊要览》,由中国社会科学院文献信息中心2000年编制,初为内部参考资料,后正式出版。已出版2004年版、2008年版、2013年版。统计数据源主要来自“中国人文社会科学引文数据库”(CHSSCD)、“中国人文社会科学文摘数据库”等,先统计出各学科的引证期刊,再确定这些引证期刊的各项评价指标(包括总被引、影响因子、即年影响因子、学科自引量 、学科载文量、引文率 、摘转率),并赋予权重值。然后利用综合评判数学模型算出综合评价值,从而确定各学科的核心期刊预选范围,请专家定性评审。它将核心期刊定义为:“某学科(或某领域)的核心期刊,是指那些发表该学科(或该领域)论文较多、使用率(含被引率、摘转率和流通率)较高、学术影响较大的期刊。”2013年版,学科分为24个专业大类和综合类,最终评选出484 种核心期刊。2014年11月,随着《中国人文社会科学期刊综合评价指标体系》的强势出台,中国社会科学院一个单位就出现了两家评价机构。按常理,《中国人文社会科学核心期刊要览》应当寿终正寝,驾鹤西去,但令人吊诡的是,至今未见有关部门公而告知,给学术界、期刊界和读者一个交代。

 

    4.《中国学术期刊影响因子年报》(CNKI—JIF)(人文社会科学),由中国科学文献计量评价中心和清华大学图书馆研制,清华大学中国学术期刊(光盘版)电子杂志社2010年出版。该年报在连续7年出版的《中国学术期刊综合引证报告》基础上,将引文统计源文献从期刊拓展到博士、硕士学位论文、会议论文,应用了“期刊综合统计源”和“复合统计源”,包括总被引频次、影响因子、他引影响因子和即年指标,其他指标还有基础研究类影响因子、技术研究类影响因子、人文社科类影响因子、他引总引比、引用半衰期等13个指标。《中国学术期刊影响因子年报》2014年版包括三个部分:第一部分分列出统计年为2013年的各类期刊影响因子;第二部分为2013年度各期刊的其他各类计量指标值;第三部分给出各项计量指标对应的可被引文献量与被引频次。这个年报,实际上就是一个期刊排行榜。尽管统计指标搞的很复杂,但基本克隆SCI的做法,没有什么创新。简单量化,没有考虑学科之间差异;评价粗疏,结果令人大跌眼镜。

 

    5.《中国学术期刊评价研究报告:RCCSE权威期刊、核心期刊、排行榜与指南》,由武汉大学中国科学评价研究中心、武汉大学图书馆等单位2008年起研究,已出版《中国学术期刊评价研究报告》2009年版、2011年版、2013年版。该报告的评价指标有基金论文比、总被引频次、影响因子、Web即年下载率、二次文献转载率、专家定性。“报告明确提出了‘权威期刊’与‘核心期刊’的概念,而且首次同时遴选出‘权威期刊’与‘核心期刊’。所谓‘权威期刊’是指刊载基金论文数量多、被读者利用次数高、广受网络用户点击、二次文献转载篇数多或被国外重要数据库收录多的期刊。它们基本上代表了该学科领域内的学术前沿……权威期刊是核心期刊中的‘核心’,是最重要的核心期刊,在学术界与科研人员心目中享有权威地位和最高学术水平”。2013年版,共有62个一级学科,3个综合学科,有1939种期刊进入核心期刊区。该评价系统的主打产品就是“RCCSE权威期刊、核心期刊排行榜”,其评价目的:一是为科学评价与科研管理服务,二是为图书情报工作服务,而只字不提为学者的研究服务。“权威期刊”的推出,更加助长了期刊级别崇拜。

 

    6.《“复印报刊资料”重要转载来源期刊》,由中国人民大学人文社会科学学术成果评价研究中心和书报资料中心共同研制,于2012年首次发布。其实自2001年起的每年3月,书报资料中心就在《光明日报》《中国新闻出版报》等媒体发布“年度复印报刊资料转载排行榜”。十多年来,从单一的转载量排名发展为转载量、转载率、综合指数、来源期刊等多种排名。在四大文摘中,唯有“复印报刊资料”公开标榜自己是学术期刊评价机构,并和专业评价机构展开竞争,抢占地盘。2014年版,有747种期刊进入“‘复印报刊资料’重要转载来源期刊”。

 

    7.《中国人文社会科学期刊综合评价指标体系》(AMI),由中国社会科学院中国社会科学评价中心研制,2014年11月22日在北京人民大会堂发布。综合评价指标体系由五级指标构成,其中一级指标3个,二级指标12个,三级指标36个。综合评价指标体系的总分值为208分,其中一级指标“吸引力”的分值为83.5分,“管理力”的分值为39.5分,“影响力”的分值为85分。同时发布的《2014年中国人文社会科学期刊评价结果》显示,共评出17种顶级期刊(其中中国社会科学院期刊有11种,占64.7%),40种权威期刊(其中中国社会科学院期刊有14种,占35%),430种核心期刊和246种扩展期刊。这个评价体系推出最晚,但机构最大,口号最响,不仅注入了意识形态属性、评价打分引入扣分机制外,还特别强调要抢占人文社科学术评价制高点、引领学术研究方向、掌握学术评价话语权。但如何破解“近亲繁殖”“部门歧视”“数据控制”主观臆断等陷阱,真正做到有公信力和权威性,仍令人置疑。

 

    此外还产生了专门学科类、学会类的核心期刊评价,以及各学科根据自身需要直接从以上评价体系中筛选并派生出的核心期刊等。学术评价就像一块唐僧肉,谁都想咬一口。这些评价体系之间存在明显的共性和差异:共性在于这些专业评价机构受利益诱惑,准入无序,多头格局,越位评价,权力膨胀,缺少监督,而又瓜田李下,抢占地盘,自我标榜,狐假虎威,导致学术评价政出多门,评价结果乱象纷纭。差异在于评价的目的不同,评价的指标不同,评价的方法不同,评价的结果不同,标准混乱,互不买账,恶性竞争,导致重复建设、资源浪费和利益冲突。

 

   (二)过度量化,急功近利

 

    20世纪80年代末,南京大学率先将SCI引入中国的科研评价体系并给予奖励。这种创新,使得南京大学SCI论文数量连续多年居全国首位。此后,“中国学界竞相模仿,教育部门等也将SCI文章的多少作为评价学术水平的重要指标。这使得SCI成了此后一段时间中国学术评价体系中最重要甚至是唯一的标准,以致形成了目前以SCI收录论文数量为重要考核指标的论文评价体系”。以这种量化评价机制为导引,大学人文社会科学管理制度系统相继出台,大致包括六个方面的基本内容:一是核心期刊目录的确定和分类;二是科研项目及经费管理的相关条例;三是科研成果认定和评价的相关办法;四是学术规范管理条例;五是科研团队及平台建设的相关条例;六是学术研究活动开展的有关规定。依照这些条例,每个院系都制定了相应的考核细则:一个教师每年必须在“核心期刊”上发表多少篇论文,每2—3年必须出版多少万字的专著。许多高校更把期刊分成三六九等,论文发表期刊的级别高,考核的分值就高,科研奖金也相应地高,反之,既挣不到“工分”也拿不到钱。每到年底,高校仿佛成了“生产队”,“社员”忙着填表申报,“会计”忙着算账分钱。这种考核与每一个人的利益挂钩,单纯追求数量,类似于以GDP考核地方经济,鼓励急功近利,急于发文章,急于拿学位,急于出专著,急于评职称,急于拿奖项,结果导致斯文扫地、功利上天和学术不端行为屡屡发生。在这一切学术乱象的背后,我们是否都能看到学术评价推波助澜的影子。

 

   (三)以刊评文,越俎代庖

 

    单位制度是中国管理体制的一大特色,单位组织按照其级别高低和行业分布 ,被政党和行政的力量分割成若干个平行林立的管制领域。这些领域的不少单位办刊物,因此我国便有了部级、局级、处级、科级期刊。在行政部门的主导下,不少高等院校、科研单位将期刊主办单位的行政级别作为划分期刊级别的依据,将学术期刊人为地划分为国家级重点、国家级、省部级、地市级,或一级期刊(A类)、二级期刊(B类)、三级期刊(C类)等类别。这样赤裸裸的“官本位”思想,自然受到学术界和期刊界大多数人的批评和反对。面对种种质疑,2000年国家教委科技司曾明确答复:“过去在文件中有一级杂志的提法是不够严格的,今后将加以注意。”2002年底国家新闻出版总署报刊司又进一步作了答复和解释:第一,期刊无国家级、地方级的区别;第二,目前国家与地方关于期刊的评比与期刊的学术水平无关;第三,“核心期刊”的认定是民间行为,而非政府行为;第四,目前新闻出版管理部门还没有制定衡量学术期刊质量的权威标准;第五,新闻出版总署近几年举办过国家期刊奖、全国百种重点社科期刊奖、中国期刊方阵等期刊方面的评奖活动,不能认为获得这些奖项的期刊中的学术期刊质量就是高的,“不能作为评职称时入选论文的依据”。管理部门的解释暂时平息了争论。然而,随着专业学术评价机构的强势崛起,“核心期刊”“来源期刊”的日渐走红,级别崇拜又沉渣泛起。专业学术评价机构按文献计量学理论和“集中与分散”规律来对学术期刊进行分学科评价,即根据对期刊所载学科论文的分布情况及其在各学科的被利用情况的统计分析,找出各学科中利用率较高、影响力较大的学科核心期刊。这样的评价结果既具有了客观性和实用性,又迎合了行政权力部门分配和管理资源的需要,被青睐和看重自在情理之中。由此复杂的论文评价被偷梁换柱成为简单的期刊分等定级,再依论文所发表的期刊等级来确定论文的等级,经过几番腾挪翻转,“以刊评文”就越俎代庖成为行政部门处理绩效考核、职称评审、项目申报、课题结项等需要评审事务的通行方法。特别需要强调的是行政级别高的期刊,由于其血统尊贵,又占有资源优势,在“期刊评价”中往往占得先机。从“核心期刊”的理论基础、指标体系、操作程序来看,它仅是从文献收集、期刊馆藏、读者利用的角度对学术期刊进行的一种遴选,并不是纯粹对期刊学术质量的评价,更不是对学术论文水平评价的工具。正如SCI的创始人尤金·加菲尔德2009年9月12日在北京出席中国读者见面会时所说:“永远要记住SCI的主要功能是用于检索的,SCI是一个客观的评价工具,但它只能作为评价工作中的一个角度,不能代表被评价对象的全部;到今天SCI的主要作用仍然是一个文献检索工具,而评估科技研究成果只是SCI的衍生功能之一。”

 

   (四)“影响因子狂热”,危害学术

 

    “影响因子”是由美国文献学家尤金·加菲尔德1972年提出的,是指一定时间内某期刊论文的平均被引率,其计算公式为:影响因子=期刊前两年所登载论文在统计当年被某学科论文引用的总次数/该刊前两年所登载论文的总数。影响因子现已成为国际上通用的期刊评价指标,“人们不仅用‘影响因子’来评价期刊的学术水平与整体质量,也常用期刊的影响因子来评价某篇学术论文乃至作者的学术水平”。“影响因子”被引进国内之后,被狂热追捧,迅速“泛化”成几乎“无所不能”的学术评价工具:从学生毕业、晋升职称、项目资助,以致院士评审,都离不开影响因子。更有甚者,还衍生出了许多“寄生”于影响因子的产业。不过,这些充其量是小巫见大巫。汤姆逊-路透从2002年开始靠“影响因子”预测诺贝尔奖,并颁发“引文桂冠奖”。2014年10月27日,被视为诺贝尔奖风向标的“引文桂冠奖”首次在中国颁发,111名中国内地科学家获得“高被引科学家奖”,其中15名科学家被授予“最具国际引文影响力奖”。这项奖是否名副其实,颇受争议。中国科学界新锐媒体《赛先生》就“炮轰”其只为博人眼球。

 

    影响学术期刊“影响因子”的因数很多,既有学术的,也有非学术的。非学术因数主要有学科差异、论文性质、期刊类型、编排规范等。因此,管理部门不能眉毛胡子一把抓,或杂七杂八一勺儿烩,用同一尺度、同一标准去评判学术研究和学术期刊。众所周知,在自然科学研究领域,采用精确的量化方法评价某项科研成果的水平,可以说是世界通行的规则。但即使这样,不同学科和不同专业还是有很多的差异。“在《中国学术期刊综合引证报告》(2004年版),自然科学类期刊中天文学期刊的‘影响因子’均值为0.0931,而植物学期刊的‘影响因子’均值为0.5052,是天文学的5倍多;数学类期刊中影响因子最高为0.5119,而相应大小‘影响因子’的期刊在化学类期刊中只能排在第26位,可见与不同学科相关的期刊‘影响因子’差别非常大”。如果用影响因子作为主要评价指标对人文学科不仅不公平,而且十分荒谬。“不同学科论文之间影响因子差距极大,这就造成刊发不同学科论文的学术期刊影响因子的差别极大,人文学科与社会科学学科的影响因子差别更大。比如《经济研究》与《历史研究》同是中国社会科学院的著名期刊,但根据中国知网2014年发布的影响因子年报统计,两本最著名的专业期刊,影响因子差别极大,《经济研究》复合影响因子达9.831,而《历史研究》的复合影响因子仅0.954,相差整整10倍。所谓经济学‘帝国主义’,文史哲‘第三世界’在学术评价领域显露无疑。在综合性期刊中,除《中国社会科学》为5.596外,绝大多数综合性期刊如果能超过1,已经是很高的数字了。就学报而言,《浙江大学学报》和《中国人民大学学报》最高,《复旦学报》1.094,《文史哲》则只有0.646,可见我们并不能以此判断后两家学报比前两家学术水平低,为什么?道理很简单,是学术文章分布造成的。前两个学报侧重社会科学学科的文章,尤其是经济学、社会学等学科文章;而后两个学报侧重人文学科,尤其是文史学科的文章,这种学科分布造成了影响因子的巨大差异。因此,仅仅或主要依靠影响因子数据评价期刊,不仅是极不科学的,而且会对人文社科期刊造成严重的负面影响,这种评价标准没有考虑到学科之间的差异”。滥用影响因子,扭曲了学术期刊选稿用稿的倾向,加剧了文史哲等传统学科走向边缘的趋势,从长远看对人文学科的后果是毁灭性的!2013年,包括美国科学促进会(AAAS)在内的75家机构和150多位知名科学家,在美国细胞生物学学会上,签署了《关于研究评价的旧金山宣言》。“宣言呼吁停止使用影响因子评价科学家个人的工作,反对使用影响因子作为替代物用于评估科学家的贡献,以及招聘、晋升和项目资助等的评审”。

 

   (五)行政主导,权力异化

 

    我国的科研管理存在严重的行政化倾向,行政权力部门主导国家科研资源的配置、国家重大项目和工程的立项、国家科研成果的管理与评价等。我国高等学校的正常运行本应是学术管理和行政管理两大系统,然而在实际工作中,学术性机构和学术性委员会往往独立性不够、学术权力迷失,以致成为行政机构的“附庸”和“幌子”。行政权力的膨胀,不断地侵蚀学术权力的空间,甚至用行政权力包办、代替乃至完全剥夺了学术权力。为了追求大学排行榜、科研政绩,高校的主要工作和主要目标都是围绕着各种检查、评估、验收、评价、评比、排名转,而教师的大部分精力和时间都放在搞项目、写论文、跑核心、谋转载、应考核、统数量、算工分上。“在高校系统,有各种级别(即行政级别)的研究课题、研究项目、研究基金,有各种级别的研究基地、研究平台、研究团队,有各种级别的研究计划、研究指标,有各种级别的验收、评估、评比、评奖,有各种级别的‘建设工程’、‘人才工程’等等”,这些名目繁多、数不胜数的名堂,都离不开评价。虽然在操作中有请专家学者参与,但核心的主导工作还是由行政权力部门控制和具体执行。总而言之,行政主导下的学术评价虽然取得了一定的成绩,但也存在条块分割、政出多门、外行评价内行、评价不公、暗箱操作、监督缺位,导致权力异化、学术不端、学术腐败等现象时有发生。

    四、学术评价乱象之根源

 
学术评价与学术风气、学术期刊、学术管理、学术体制、学术利益等都有着密切的联系,我们也不应该把所有的“罪恶”都归咎于学术评价,这既无益于去除学术评价之弊,亦无助于重建学术评价机制。学术评价的种种乱象根源有四。
 
    (一)官本位意识导致学术资源、学术权力的不公平
 
    中国社会官本位意识严重,权力崇拜根深蒂固。早在十多年前,北京师范大学历史系黄安年教授曾将当时官学一体化的倾向概括为十个方面:学术机构的管理衙门化;职称评定、专案立项、评奖活动中的“赛跑”现象;学术评价中的官僚主义和形式主义;政府官员兼任学术专案主持人日益增多;政府官员兼任院校长的现象有增无减;学术刊物主编官员化倾向突出;职称评定、奖金、住房等待遇向行政官员倾斜的力度加大;“腐败文凭”中的权钱学交易;学界新闻出版活动突显政府官员和行政领导;一些学术团体的官方色彩明显。这些年来官本位不但没有淡化,反而正向社会各个领域蔓延。“官大学问大,权大经费多”已成为一种社会常态。官员们不仅垄断学术资源、项目资源、招生资源、会议资源,而且还把权力之手伸到职称评审、成果评定、课题立项、课题报奖等多个方面,“管理者通吃”已经成为高等院校、科研院所的一种特有现象。“领导者在学术与利益互动的竞争中,不能表示出应有的学术自信和道德品格,自己利用权力和权威占有和夺取下属和学生的成果,构成一种公然的‘学术剥削’;而下属和学生为了实现自己的利益需求和生存安全,而主动的请领导分享甚至完全出让自己的学术成果,对其进行一种‘学术贿赂’”。学术不公正的结果,不仅带来学术权力的异化与研究者的精神变异,更带来学术的社会性危机。
 
    (二)“一刀切”的量化评价导致学术生产的数量繁荣,质量下降
 
    我国所有的高等院校、科研院所,都执行着一个制度化的、量化的、“一刀切”的学术评价体制。“科学研究在今日之中国高校,被抬高到空前的、过度重要的位置。不说研究型大学,即便是教学型乃至职业型学校,学校是否优秀,教师是否能够升等、研究生是否可以毕业,科研的成绩单成为最重要的衡量指标,甚至没有之一。老师的教学可以马虎、学生的毕业论文可以勉强通过,但只要有相当量的论文发表,便一俊遮百丑。多数高校对教师的年度考核和升等要求,都有严格的论文发表量规定,而一个大学每年的论文发表篇数,都影响到从官方和民间的各种大学排行榜的位置,是大学领导政绩工程的核心部分。于是千军万马写论文、拼数量,就像大跃进时期的全民大炼钢铁,产量是最重要的,而质量如何,倒是其次的”。理工科普遍强调SCI的发文量和课题金额,人文社科则是SSCI、CSSCI和课题级别。不少高校或院系在年度工作考核中将学术评价与特定的量化指标绑定,实行“工分制”。同时,许多单位高度重视项目,甚至是“项目至上”“项目唯一”。这种“项目化生存”的怪异现象和“一刀切”的管理方法,甚至扩大到各种学术和教育的考核、评比、提级提职、业绩考核、课题和项目的审批中,几乎达到了无孔不入的程度。过度量化的评价模式,违背了大学学术研究的基本规律,抹杀了学科文化的差异,限制了合作、阻碍了深度研究,制造了很好看的数字,却失去了大学的精神。
 
    (三)“评价标准异化”导致学术评价机构公信力的缺失
 
    笔者曾对“公信力”和“权威性”做过专文论述,认为“公信力的本质意义在于:第一,公信力映射的是一种公共权力,非公共权力也就无所谓公信力;第二,公信力是在长期的发展中日积月累而形成的信任资源,既是一种社会系统信任,同时也是公共权威的真实表达;第三,公信力指的是权力客体对权力主体在公正、公平、守信等方面的评价,获得权力客体信任、信赖的权力则具有公信力;第四,公信力权力主体与权力客体的非均衡性特征,决定了权力客体的弱势地位,一旦权力主体出现诚信、公正问题,必将导致信任的破裂。权威性,是指权力部门发布的信息或作出的决定是否具有相对的不可质疑性,如果这些信息和决定经常遭遇质疑,则不具权威性。公信力是权威性资源之一,一旦受到损伤,便会造成较大面积的‘信任危机’”。学术评价的“公信力”,当然与其掌握的权力有关,而其所掌握的权力实际就是学术成果、学术期刊的评价权,能否公平、公正乃至公开地评价作者、作品及其期刊,是衡量其公信力的标准。为何目前学术评价机构公信力缺失?深层原因有二:一是学术评价标准的异化,二是学术评价过程的不透明、不公正。我们知道,引文数据库在建立的过程中,管理者和操作者发挥了非常重要的作用,指导思想、目标、要求不同,选择的统计方法与计算机软件不同,统计产生的期刊影响因子就很可能大相径庭。再加上评价指标的不完善、不科学及其先天性缺陷,使得核心期刊、来源期刊遴选的负面效应逐渐浮出水面。主要表现在以下十个方面:
 
    1.评价机构在获取数据时,违背统计学抽样调查原理,使原始数据和测评结果带有明显的生造臆断痕迹
 
    表现在四个方面:一是单纯以复合影响因子、可被引文献比和转引率进行测评排序;二是混淆主体、客体,将办刊主体与期刊论文水平混合进行测评;三是迷信量化分值,以定量评分取代定性研究;四是将存量与流量混同,将主观指标与客观指标、时期指标与时点指标混用,或者以时点数反映时期现象,或者以时期数反映时点现象,随心所欲。
 
    2.核心期刊评估体系存在着严重的时间滞后性与背离性
 
    滞后性在于:用过去的文评现在的刊,以现在的刊评未来的文。背离性在于:把期刊推举到核心期刊的论文,却不是核心期刊论文;而那些还没有指标贡献的论文,却坐享其成地成了核心期刊论文。
 
     3.引文索引来源文献存在致命的涵盖性缺陷
 
    引文索引建立的重要理论依据之一是文献计量学的2/8定律,即经过筛选而确定的占总量20%的期刊上的论文可以满足学术论文引用需要的80%左右。显然80%的满足率是无法满足100%的需求的。在中文社会科学引文索引中,1998—2005年收录的近54万篇论文中,在1998—2007年间被引用过的论文篇数也只有30%左右。因此,“来源期刊的论文并非篇篇都比非来源期刊的论文的影响大、质量高,非来源期刊的论文也并非篇篇都比来源期刊的论文差,完全按是否是来源期刊论文来评价论文和作者的作法有失公允”。
 
     4.不同学科之间引用率存在不可比性
 
    首先,“热门”学科在某一个时期应用广泛,发展迅速,研究的人多,论文的影响因子普遍都高。“冷门”学科关注的人少,发展慢,研究的人少,论文的影响因子就低。其次,传统学科研究的人多,文章多,引用率也高。新兴学科研究的人少,文章相对少,引用更少。不能因此得出结论,前者的学术水平高,后者的学术水平低。再次,由于马太效应的影响,名人的文章引用多,无名的人的文章引用少,不能因此证明名人的文章篇篇都是精品。总之,理科和工科不可同比,人文学科与社会科学学科不可同比,应用学科与基础学科不可同比。特别需要指出,即使是同一学科不同专业的论文被引用情况,也有很大差别。比如图书情报学界,图书馆学、情报学与档案学、文献学之间的影响因子就存在巨大差别,文献计量学与文献检索学与版本学、校勘学更是一丈差九尺。
 
    5.不同性质的论文对期刊影响因子的影响是各不相同的
 
     学术论文由于其研究对象、内容、方法、角度的不同,其性质就不一样。某些热点问题(比如国家治理、中国经济新常态、一带一路等),写文章的人多,相互引证也会多,对期刊影响因子的贡献也就大。在高校文科综合性学报中,由于人文学科论文和社会科学、应用学科论文比重的差别而带来的影响因子差异,导致以人文学科为主的学报在评价系统发布的“排行榜”中普遍不高。当然有些热点问题,不一定都是重要问题。仅仅依据引用率一项指标,也不能说明论文学术水平的高低。爱因斯坦发现了相对论,但他研究相对论的论文发表之后,并未得到应有的较高的引用率。“往往一篇论文被大量引用,并不是出于它内容的精辟,而是由于它里面所谈方法的新颖。相当普遍的看法认为,被大量引用的论文中,方法方面的论文占很大优势”。
 
    6.通过“策略性编辑”行为操纵期刊的影响因子期刊影响因子
 
    目前在学术评价与科研管理中发挥着极具魔力的作用,所以大家都跟着这根“指挥棒”转,希望影响因子越高越好。其实,通过正当途径与方法完全可以提高影响因子,比如约请高被引作者撰稿,发表高质量论文,提高参考文献的编排质量,加快审稿速度、缩短发表周期,与国际著名学术出版集团合作“借船出海”,将录用论文在网站上提前发表等。除此之外,一些国际学术期刊“通过策略性编辑行为操纵期刊的影响因子,代表性做法包括:一是将预计被引次数较高的文章发表在年初的期刊上,并在官方网站上作“热点文章”推荐,以增加被引机会。二是控制质量不错但不属于热点文章的数量。三是发表一些不属于研究论文但是有利于提高被引次数的文章,如评论、商榷、社评等,尤其是作为非综述类期刊却大量发表综述文章,短期内可获得很多引用。四是下半年撰写社评,大量引用本年度本刊发表文章”。而在国内,有的期刊为了挤进核心期刊不惜造假,拉帮结盟互相引用对方的论文;有的期刊要求作者提交的论文必须引用本刊发表过的论文,以提高影响因子;有的期刊公开悬赏学者在CSSCI来源期刊发表引用该刊的论文,给予有偿奖励。此外,过度自引、错引、漏引、伪引、甚至歧视性的不引都程度不同的存在。
 
    7.引用目的存在多样性
 
    负面引用包括批评性、批判性、反驳性的不同观点、意见的引用。负面引用在定量标准中难以被识别出来,单纯或主要以定量而非定性标准来评判论文乃至期刊的高下,其片面性是明显的。
 
     8.用非科学的态度编造、捏造、任意取舍的实验数据,被称之为“学术造假”
 
    这些造假的数据,指标体系却难以识别和剔除,导致评价结果十分荒唐。
 
    9.评价结果软化,共享程度不高
 
    “目前的许多评价共享程度不高,或者说因为公信度不够,无法为人所信服,因此很难达成共识,其评价结果很难为其他相类似的评价应用”。
 
    10.评价体系浮躁
 
   “目前的评价体系也浮躁,尚未成熟,不能将有限功能无限化,尤其是将期刊评价、定级视为主要功能的核心期刊评价体系建设,导致了话语权、支配权、利益和地位的争夺,发布排行榜,使学术研究变味,造成了争名夺利的浮躁现象”。
 
   (四)不合理的科研体制才是学术评价乱象的根源
 
    官本位意识、“一刀切” 的量化评价、“评价标准异化”,几种原因的叠加,使学术评价乱象纷纭。但最本质的根源,在于不合理的科研体制。朱剑教授曾撰文,为我们勾勒了一条清晰的权力和利益的关系链(当然也是工作链):权力(资源)——评价(分配)——评价(管理)——科研(机构与人员)。链条的顶端是握有巨额学术资源分配权的行政权力部门,链条的底端是科研单位和学术界,串联起顶端和底端的是评价,而规约这一链条的则是科研体制。“评价对行政权力部门的迎合固然是其异化的原因,但若没利益链的存在,就不会催生出这么多的评价机构;若没有规约利益链的科研体制的需要,评价也不至于如此走入歧途”。因此,与其说是学术评价导致了学术乱象,不如说是科研体制导致了学术乱象。
 
    五、学术评价乱象的治理
 
    学术评价乱象已成为一个社会问题,事关学术研究、学术传播、学术体制、学术利益、学术生态以及社会风气诸多方面。“当下中国学术期刊面对的评价机构之多、受影响之大,已经让学术精神、学术勇气乃至学术道德频临崩溃”。针对学术评价存在的种种弊端,专家学者们已经提出了很多改革的建议,但实际上改革困难重重。正如鲁迅先生所说:在中国,搬动一张桌子都要付出血的代价。因此,仅有底层呼吁是不够的,改革必须要有“顶层设计”。2013年以来,教育部先后下发了《关于深化高等学校科技评价改革的意见》《高等学校科技分类评价指标体系及评价要点》《关于开展高等学校科技评价改革试点的通知》等文件。2015年1月12日国务院又发布了由科技部、财政部共同起草的《关于深化中央财政科技计划(专项、基金等)管理改革的方案》,总体目标是“强化顶层设计,打破条块分割,改革管理体制,统筹科技资源,加强部门功能性分工,建立公开统一的国家科技管理平台,构建总体布局合理、功能定位清晰、具有中国特色的科技计划(专项、基金等)体系,建立目标明确和绩效导向的管理制度,形成职责规范、科学高效、公开透明的组织管理机制,更加聚焦国家目标,更加符合科技创新发展规律,更加高效配置科技资源”。这虽然都是针对科技改革、科技管理、科技评价,但无疑昭示了科研体制改革的方向,对哲学社会科学也是有参考价值的。因此,治理学术评价乱象,必须立破并举、多管齐下、统筹协调、优化整合,才能标本兼治、扶正祛邪、鼓励创新、融合发展。
 
    (一)建立学术评价机构准入制度和退出机制
 
    准入制度,应该是国家对评价机构主体资格的确立、审核和确认的法律制度。政府职能部门通过批准和注册,对机构的评价准入进行管理,既避免了大量人力、物力浪费的重复建设,又可以防止评价机构无序、无资质进入过度竞争,确保学术评价的公平、公正和工作效率。同时要探讨建立学术评价机构的退出机制,不能胡评价、乱评价,甚至老少通吃、权力寻租、金钱交易。准入制度、退出机制的建立,有利于优化学术评价资源配置,营造良性竞争环境;有利于评价机构的创新,壮大整体实力;有利于加大违规成本,确保评价的导向性。
 
    (二)加强学术评价的回避制度和监督机制
 
     学术评价关系期刊定级、职称评定、教师考核、课题验收、学校评估等方方面面,关涉许多人的切身利益。因此,谁主导或掌控了评价权,谁就能左右当今中国的学术导向甚至具备了向学术界发号施令的权威。目前开展学术评价的机构或为中国社会科学院或为教育部下属的高等院校,不仅具有官方色彩,更与学术研究、学术期刊有着千丝万缕的联系,不免有既当裁判员又当运动员之嫌。在没有产生相对独立的第三方评价机构之前,必须加强学术评价的回避制度,保障学术评价制度的程序正义。那些与被评价主体有利害关系或者其他特殊关系的相关人员不得参加学术评价活动,实现利益规避,以保障被评价主体的公平竞争。要积极开展学术批评,加大媒体曝光,对学术评价机构、学术评价程序、学术评价结果进行有效监督,形成有力制约,使之心存畏惧。
 
    (三)规范并完善同行评价制度
 
    早在2011年11月7日,教育部下发的《关于进一步改进高等学校哲学社会科学研究评价的意见》,就提出要正确认识SCI、SSCI、CSSCI等引文数据在科研评价中的作用,避免绝对化;并特别指出:“建立开放评价机制,基础研究以同行评价为主,大力加强国际同行评价”。同行评价是国内外公认的最为合理的学术评价制度,但在引进中国之后却发生了变异,“权力支配,人情主导,标准缺失,三者只要居其一,都会使学术评价的意义受到严重损害;可是,在我们当前的学术评价中,往往是三者一起发生作用,多路夹击,来自欧美的同行评议,怎么可能不水土不服以致彻底变异呢?”因此,要严格标准,规范程序,完善专家遴选机制,建立公平公正的学术评价的基石。应综合考虑知识结构、学术成就、学术道德、“小同行”等因素来确定专家人选并建立专家库,发挥各学科专家的群体优势,调动各学科专家共同参与、共同制定相关的评价标准,实行专家定期轮换制度。要建立和健全评价结果公示、反馈、申诉、复议等制度,对同行专家的评价行为进行有效的制约,加强评价专家信誉制度建设。
 
   (四)用“以文评刊”取代“以刊评文”
 
    核心期刊的概念被引入国内之后,主要目的是为图书情报部门选购期刊提供参考依据,为图书馆员指导读者阅读提供参考依据,“不具备全面评价期刊优劣的作用,不能作为衡量期刊质量的标准,更不能作为学术评价的标准”。但行政权力部门出于科研管理的需要,看准了核心期刊的“可行”“简便”等工具理性,使之直接为资源配置和科研管理服务,由此“以刊评文”开始走红。“以刊评文”的弊端前文已经涉及,这里再做简单概括:一是以期刊的等级代替论文的学术质量,存在着明显的逻辑错误。并非核心期刊发表的文章篇篇都优质,非核心期刊上发表的文章篇篇都劣质,即使同类核心期刊或同一种核心期刊发表的论文也并非同一水平。二是机械地依据期刊影响因子来决定期刊的排序,必然导致学术评价的过分形式化、过分简单化。三是过分注重论文数量、获奖数量,必然导致平庸之作泛滥、低水平重复。四是为了迎合核心期刊、来源期刊评选的偏好,不少学术期刊更在选稿、用稿和参考文献等方面投其所好,逐渐丧失了独立风格和创新活力。五是过度追求论文被国外检索机构收录,必然导致学术评价中的崇洋媚外。“以刊评文”早为学术界诟病,应该用“以文评刊”取代。
 
    论文是组成学术期刊的最小单元,论文水平的高低决定着期刊质量的优劣。所以,“要正确全面反映期刊的情况,较好的办法是‘以文评刊’,通过对期刊刊载论文的学科进行统计分析,计算出其各学科论文的篇均被引次数,并与统计源所有各学科论文的篇均被引次数进行比较,从而得到各期刊各学科论文的相对影响,即期刊刊载论文的学科影响。期刊刊载论文的学科影响可以根据不同的需要从不同侧面、不同角度来量化地衡量期刊的影响”。论文评价应该成为学术期刊评价的核心内涵,要根据一定的评价目的采用一定的评价指标,但更重要的是通过同行评议,作出专业的、权威的、有说服力的评价结果。当然评价学术论文,期刊编辑、目标读者不能缺位。因此,“研制出针对单篇论文的评价指标体系在论文评价、期刊评价中均占有决定性的基础地位。需要社科学术期刊界和文献计量学界通力合作,共同攻克这一难题”。
 
   (五)建立独立的、客观的、民主的学术评价机构
 
    学术评价的本来意义,“在于评判学术的进展,鉴别学者的贡献,规范学术行为,激发学者的创造力,以达到推动学术发展的目的”。为了使学术评价真正具有公信力和权威性,必须要实现从官本位到学术本位的转变,把对学术评价的权力从官方色彩的框架中剥离出来,建立独立的、客观的、民主的学术评价机构。“学术评价、学术的标准、学术上的分歧,所有学术上的问题只有依靠学术共同体才有可能得到解决。尽管学术共同体也有可能做出错误的判断和决定,但没有别的更好选择”。评价的根本在于独立和客观,应当以学术水平、学术道德为标准来选择评审专家,应当独立进行分析、评价并形成专业意见,应当通过学术交流、学术批评、学术评论等“民主”的方式表达意见和进行监督,以排除评价对象、利益群体、官方机构的干扰,防止出现与权力行政部门主导学术评价相类似的问题。我们呼吁文献计量学界和学术期刊界的专家学者,不要沉浸于排行榜所带来的权力与利益之中,要聚集大家的智慧,进一步研究和夯实学术评价理论,以求取得实质性突破,以此带动我国学术评价的健康发展。

 

    原载于:《清华大学学报》(哲学社会科学版)2015年第6期