世界大学排名浅析•ARWU篇

发布日期：2020/11/7 16:14:52 浏览：750 返回上级

“世界大学学术排名（Academic Ranking of World Universities）”最早由上海交通大学世界一流大学研究中心于2003年发布，是世界首个世界大学排名。2009年起由上海软科教育信息咨询有限公司负责。

与上文各排名的主办方不同，上海软科既非中立调查机构，所谓教育咨询也不是升学招生咨询公司，而是号称“擅长立足高校实际，量身定制解决方案，由最专业的团队助您成就更卓越的大学”，属于直接利益相关；但排名采用的标准反而最硬性，本国大学丝毫不占优势。

其计算方法如下：

校友获诺贝尔/菲尔茨奖数（校友获奖，10%）：校友指在该校获得学位者，统计诺贝尔文学与和平奖；不同年代权重不同，每回推十年权重递减10%。

教员获诺贝尔/菲尔茨奖数（教师获奖，20%）：不统计诺贝尔文学与和平奖；不同年代权重不同，每回推十年权重递减10%；以获奖时单位为准，同时署名两个单位时各计0.5；诺贝尔科学奖共享者的权重为奖金比例。

高被引教员数（高被引学者，20%）：数据来自Clarivate Analytics每年发布的“高被引学者名单（Highly Cited Researchers）”，2019年排名使用了其2018年的调查数据，涵盖21个学科4000多名学者。统计时仅考虑第一工作单位。

Nature和Science论文数（N&S论文，20%）：只统计近五年普通论文（Article），不统计综述（Review）或快讯（Letter）等。不同作者单位排序权重不同，通讯作者单位100%，第一作者单位（与通讯作者单位相同时则为第二作者单位）50%，下一作者25%，其余10%；多通讯作者时以首位为准。

国际期刊普通论文数（国际论文，20%）：前一年收录于SCIE和SSCI的论文总数，只统计普通论文（Article），不统计综述（Review）或快讯（Letter）等。SSCI权重为2。

教员平均得分（师均表现，10%）：前五项指标得分总和与全时教师数比例。

与之前三榜的标准截然不同，充斥着“诺贝尔”、“高被引”、“Nature“、“Science”、“通讯/第一作者”、“SCI”等字眼，ARWU嫣然是一份中国高校特色排名。

ARWU

首先，该排名不涉及任何主观评价调查，完全基于客观数据。但数据来源单调，均在普通人接触范围内：诺贝尔奖、菲尔兹奖、高被引学者均有现成名单； Nature、Science及SCIE、SSCI数据均可通过数据库爬虫和手动清洗实现。有一定的数据科学基础便可自制，因此统计价值不高。

也正因如此，早在十多年前就有学者进行了验证，并发表论文进行全方位质疑与抨击（Irreproducibility of the results of the Shanghai academic ranking of world universities、Should you believe in the Shanghai ranking?）。

尽管名为“学术排名”，其选用衡量学术水平的指标充满狭隘与无知：

学科局限：

诺贝尔科学奖与菲尔茨奖仅涵盖数、理、化、生、经等五个基础领域，仿佛对学科的认知停留在理科高考，完全忽略了人文学、工程学等重要学科。

若按照ARWU如此简单粗暴的思路，其它领域实际也不乏最高等级奖项，完全能拓展这一指标：工程学有誉为“工程诺贝尔奖”的德拉普尔奖，计算机有图灵奖，科技大领域更是有“千禧年科技奖”。

对Nature和Science的限定也意味着对多数研究方向和大学的利空。且不说每个学科的“顶刊”各有不同，即便是诺贝尔自然科学奖作品往往也未发表在Nature和Science上——有文献总结了有史以来截止2016年全部诺贝尔科学奖得主的学术发表（A dataset of publication records for Nobel laureates）：在有记录的诺贝尔物理、化学、生理或医学获奖作品中，仅有10%、19%和17%发表在Nature和Science上；其中物理、化学奖作品最常发表在Physical Review（32%）和Physical Review Letters（23%）、Journal of the American Chemical Society（15%）上，而发表在Cell上的生理或医学奖作品远多于Science。

研究类型局限：

只统计普通论文，主动剔除了综述和快讯。一方面，有些情况下综述恰恰能反映学术界地位，即使是学生执笔，也是有一定学术威望的教授才会获得邀约。另一方面，尽管快讯长度小于普通论文，并不代表其价值低；刚刚提到有23%的诺贝尔物理学奖作品发表在Physical Review Letters，其形式均为快讯。从统计难度上看，这二类文章和普通论文并没有区别，完全可以像US News一样通过设定不同的权重进行区分。

更有甚者，仅考虑期刊（也是唯一的排名），对研究产出的衡量缺乏代表性：对于计算机、人工智能、机器人等快速发展的领域，会议发表的地位远高于期刊；同样，人文类学科也有着不同的评价体系，以著书的地位相对较高。ARWU方法介绍中明确提到“考虑到社会科学领域的学者经常以著作等形式发表其研究成果，根据实证数据，我们对SSCI收录的论文赋予2倍的权重。”——既然有“实证数据”给出论文与著书间精确2倍权重比的依据，为何还要剔除著书数据本身？

衡量指标局限：

几乎所有指标以“数量”为主，尽管有“人均引用量”指标，占比仅2%，远低于QS和THE的30%，使其排名偏向大型大学。而同以研究产出数据为主的US News则多指标区分量/比，降低不同大学规模、乃至年份和学科等特点可能造成的误差。

“师均表现”指标中有3%对应人均诺贝/菲尔茨奖得主/校友率、2%对应人均高引学者率、2%对应人均N&S发表数，其分子远小于分母，且与大学规模没有明显相关性，标准化处理实属多余。

所谓“国际论文”指的是发表在英文期刊，与国际合作毫无关系；也是唯一没有考虑国际化水平的排名。

有效对象局限：

历史上共产生约千名诺贝奖和菲尔茨奖得主，垄断了全球大学33%的评分。加上2018年Clarivate Analytics高被引学者名单约4000人，即跨度百年的5000人垄断了56%的评分。

Nature和Science每年各发表800-900篇论文，五年合计8500篇文章，夸张估计平均每篇文章有5个不重复作者，和大奖得主们一起、全世界累计约5万人垄断了89%的评分。

全球千百万非超高水平、非基础学科研究人员则仅由不足12%的分值代表，而更多基层教员、行政人员等大学员工对于大学的贡献得不到任何体现。

即便主打客观的US News榜，也通过评价问卷调查稍稍反映了教学水平，而本榜则完全以校友获得诺贝尔奖和菲尔茨奖定义为教学水平好坏的标准，完全忽略了数以千万计世界大学生以及他们在毕业后的表现。

ARWU

综合以上原因，配合其毫不合理的分值设定，出现了有悖排名设计的漏洞：

近年在学术界崛起的中国大陆大学超过50%的分数来自仅22%占比的“国际论文”，剩余几乎全部来自占比44%的“高被引学者”和“N&S论文”——情况不限于中国，其它地区绝大部分大学的分值理论上限只有56%，沦为陪衬。

2019年度排名上第1名哈佛大学高出第2名斯坦福大学三分之一的分值，仅仅12名后得分便不足50，第100名得分则仅为26，意味着90%的大学分布在25%评分区间里。不仅后段区分度荡然无存，连百位、五十位的代表性都十分有限。

假设哈佛大学的全体员工同时离职，使其学术职能完全瘫痪，那么仅凭历史荣誉，它仍能在近十年维持超过30分，位列50左右，明显不符合常识；而若假设诺贝尔奖和菲尔茨奖停止颁发、Nature和Science停刊、Clarivate Analytics停止公布高被引学者名单，那么其评价体系则瞬间崩溃。

然而从“存在即合理”的角度，ARWU并非一文不值：

相比于复杂庞大的设计和统计，极简的数据来源和计算方法从根本上降低了出错和造假的可能。其中56%的分值精确到个人、可一一核对，占据剩余分数的论文数据来源单一、几乎无需过多调整，计算结果不至于有太大偏差；比问卷调查可操纵的空间和嫌疑都小很多。

回到21世纪初，在数据库尚不发达，研究人员对信息的接触范围、处理能力都十分有限的年代，作为首个衡量世界大学学术水平的排名，当年ARWU的价值和其团队的视野都值得肯定。很可惜的是，随着QS/THE和US News分别与2004和2014年异军突起，20年过去了，中国学生学者走出国门，对世界大学有了全面深刻的理解，而ARWU却没有利用信息时代的浪潮新陈代谢，一味原地踏步，如今才显得如此荒诞。

QS一文提到，也许是日常来自学术权威零零散散的评价让我们下意识对部分大学进行了定位，因此以学术界评价为主的QS排名“看上去”合理。ARWU也是类似的道理：普通大众很少有接触大学的机会，他们（包括许多大学生）对大学的印象很多时候恰恰就来自于媒体对诺贝尔奖、Nature和Science以及某某专家的报道。

对他们而言，在谈论大学的“好坏”之前，听过没听过才是关键——如果听过、甚至经常听到，“应该”就是好大学。ARWU团队便是依靠这个原理，力求与中国媒体曝光度正相关，将大众印象量化为排名；这也能很好地解释了为何只有十几所大学分数不太低，毕竟普通人对自己不相关事物的记忆是极为有限的。

综合来看ARWU是纯数据统计分析，尽管设计理念有些过时、代入太多地域特色主观理解，使数据代表性严重不足，但依旧有着可参考性与准确性。可惜的是由于设计理念不完美使得ARWU后段排名代表性低。