目前,中国的开放科学政策和实践主要集中在开放科学基础设施、开放科学数据和开放获取(OA)等方面。国内对研究软件(Research Software,RS)的研究主要集中在其使用、引用和影响力评价等方面,对软件开放共享的系统研究尚处于起步阶段。而法国已走在世界研究软件开放共享相关政策制定及实施的前列,对其进行介绍和系统分析可为中国开放科学政策的优化提供借鉴和参考。
法国是全球开放科学运动的积极参与者和重要推动力量。2022年2月,法国以欧盟轮值主席国身份举办欧洲开放科学会议(Open Science European Conference,OSEC),会议主题围绕“欧洲研究和创新生态系统转型框架”展开,涉及科学出版的未来、科研评价改革和开放研究软件等内容。欧洲开放科学会议取得的主要共识是“软件是开放科学的支柱之一”,并呼吁各方在政策、科学出版和科学基础设施等方面支持开放科学软件和源代码。 近年来,随着软件在科学研究中的作用日益凸显,各界对“软件与数据并重”形成共识,开放源代码成为开放科学领域继开放获取和开放数据之后新的研究重点。2021年1月,经济合作与发展组织(OECD)理事会通过新修订的《公共财政资助的研究数据获取的建议》,将软件、算法和模型等增列为开放获取对象,并要求各成员国制定政策和法律落实该建议。2021年11月,联合国教科文组织(UNESCO)第41届大会审议通过《UNESCO开放科学建议书》(Recommendation on Open Science,以下简称《建议书》),将开源软件和源代码与数据、出版物等并列为开放共享大家庭的“一等公民”。2022年3月,研究数据联盟(Research Data Alliance,RDA)等研制完成“研究软件FAIR原则”(FAIR Principles for Research Software,FAIR4RS Principle),其思想对荷兰和澳大利亚等国制定新的开放科学政策具有一定的影响。2019年,国际组织研究软件联盟(Research Software Alliance,ReSA)成立,其联合全球50多个软件社区,采取推广FAIR4RS原则等措施,推动国际上研究软件生态系统(Research Software Ecosystem)的形成和发展。 目前,中国的开放科学政策和实践主要集中在开放科学基础设施、开放科学数据和开放获取(OA)等方面。国内对研究软件(Research Software,RS)的研究主要集中在其使用、引用和影响力评价等方面,对软件开放共享的系统研究尚处于起步阶段。而法国已走在世界研究软件开放共享相关政策制定及实施的前列,对其进行介绍和系统分析可为中国开放科学政策的优化提供借鉴和参考。
01
相关政策目标与关键举措分析
开源运动是开放运动(包括开放政府、开放数据和开放科学等)的源头,开放科学与开源软件的融合使得开放研究软件站到了时代的潮头。《建议书》认为:(1)软件是开放科学知识的主要载体之一,应尽可能开放;(2)公共资金资助的研究软件应是开放的;(3)开放研究软件时,源代码必须包含在软件发行版本中,并存入可公开访问的存储库;(4)开放获取环境下,与科学出版物相关联的软件应存入开放存储库;(5)开放研究软件的同时,要开放相关联的数据和软件编译、运行环境的相关规范;(6)开放科学的数字基础设施应尽可能以开源软件为基础。
在国家层面,2013年7月22日生效的法国《关于高等教育和研究的第2013-660号法律》规定,高等教育公共服务部门在提供数字教育服务和资源时,要优先使用免费软件(Free Sofeware);2016年10月7日法国颁布的《数字共和国法》(Digital Republic Law)明确源代码是可传播和可重复使用的行政文件,并将开放数据原则扩展到源代码。根据施行的法律,法国将开源软件(Open Source Software,OSS)相继纳入开放政府计划和开放科学计划。
1.1 相关概念定义
清晰的概念定义有助于界定政策的范围。研究软件也称科学软件(Scientific Software)或学术软件(Academic Software),在开放科学环境下常以软件源代码(Software Source Code)的形式存在。各方对研究软件的理解尚未达到完全一致,目前采纳较多的是研究数据联盟在研究软件FAIR原则中给出的定义(见表1)。表1同时给出了从法国、经济合作与发展组织和联合国教科文组织的政策文本中梳理的相关概念的定义或解释,包括开放软件、开源软件和开放原则等。
1.2 开放政府国家行动计划
法国依据其颁布的《数字共和国法》,在开放政府计划的统一框架下实施开放科学计划。2014年,法国加入开放政府合作组织(Open Government Partnership,OGP),相继制订了3轮国家行动计划(National Action Plan,NAP)。其中,第二轮国家行动计划(2018—2020年)的五大任务之一是开放数字资源与开放创新,目标是通过开放数据和开源软件推动政府管理变革和社会创新。同时,引入开放科学内容,确立打造开放科学生态系统(含开放获取、开放数据和开放代码等)的战略目标。国家行动计划规定,由法国高等教育、研究和创新部(MESRI,以下简称“高等教育部”)负责组建开放科学委员会(Committee for Open Science),承担开放科学政策的落实工作。
在此基础上,第三轮国家行动计划(2021—2023年)加大了对开源软件的支持力度,在59项承诺中有5项以软件、代码或算法为核心关注对象(见表2)。同时,由法国高等教育部负责的开放科学承诺——第37项承诺,力求与《建议书》和欧盟开放科学政策协调一致,并规划建设针对源代码的开放科学晴雨表(Open Science Barometer,BSO)及制定两级开源软件政策。
1.3 国家开放科学计划
2018年7月,为落实国家行动计划对开放科学的承诺,法国高等教育部开始实施《国家开放科学计划(2018—2021年)》,在3个重点领域开展工作,分别是推广开放获取、开放科学数据和推进国际开放科学运动。国家开放科学计划的实施使得开放获取的科学出版物的比例从2017年的41%增长到2019年的56%,预计到2030年可达到100%。此外,开放科学委员会成立“免费软件和开源项目组”,研究软件在科学研究中的作用并达成了3点共识:(1)充当工具,利用软件处理数据、建立模型以支持研究假设;(2)作为研究成果,软件是解决问题的算法载体,与论文和数据一样,是科研的重要产出;(3)成为研究对象,主要研究软件的特性及其开发模式等。
2021年7月,法国实施《国家开放科学计划(2021—2024年)》,其中有两个重大变化:一是预算从每年500万欧元增加到1500万欧元;二是重点领域从3个扩展到4个,即开放获取、开放数据、开放源代码和使开放科学成为科研转型的默认原则。在新增的软件领域,该计划旨在保障公共研究框架内开发的软件/源代码得到有效的维护和保存,以及优先推广和使用/重用开源软件。法国提出推动研究软件开放共享的主要措施(见表3)。
1.4 开源软件和通用数字行动计划
2021年4月27日,法国总理签署《关于数据、算法和源代码公共政策的第6264/SG号通知》,强调数据政策是国家的战略优先事项。根据该通知的要求,2021年11月,法国启动《开源软件和通用数字行动计划》(以下简称《行动计划》),目标是在行政部门中更好地使用免费软件和数字共享,支持源代码的传播和开放。《行动计划》包括3项核心工作:在行政管理中使用免费软件、公共部门开放源代码和吸引开源人才,分别对应第三轮国家行动计划中的承诺34、承诺15和承诺41。为此,法国数字化部际管理局编写了《使用和开放源代码指南》《供管理部门使用的开放许可证清单》和《公共算法指南》等文件,指导各部门的实践工作。
截至2021年12月,法国共有15个中央级政府部门出台了实施《行动计划》的路线图,共部署500项具体行动,涉及法国的高等教育部、卫生部、文化部、司法部和公共服务部等。其中,法国高等教育部出台《关于公共数据、算法和源代码的政策(2021—2024年)》,提出5个子目标和53项具体行动,总目标是通过开放公共领域的数据、算法和软件/源代码促进科学创新和提高公共管理的透明度,其中与源代码相关的主要行动见表4。
02
实践案例分析
联合国教科文组织秘书处设计了开放科学建议的实施战略,并在2022年4月28日的在线会议上发布,包括最佳实践征集、科学基础设施共享、能力建设培训和开放科学全球监测框架等。与此同时,法国的研究软件开放共享实践已取得长足发展,如第一次将开放科学奖颁发给软件开发团队及建成世界上最大的软件归档中心等,对全球的开放科学运动起到引领和示范的作用。
2.1 颁发面向开源研究软件的开放科学奖
2022年2月,在欧洲开放科学会议上,法国高等教育部颁发了第一届开源研究软件的开放科学奖。此项奖励分为3个类别:科学技术类、社区类和文档类。有来自法国的10个团队,因其开发的软件对科学知识进步有重大贡献而获得该奖项,部分获奖作品见表5。这些软件分布在数学、计算机科学、医学、物理学、人文和社会科学等领域,大多数软件都有十几年甚至几十年的开发和应用经历。例如,Coq证明助理软件系统(coq.inria.fr)由巴黎-萨克雷大学的团队于1984年开始研发,用于数值计算算法的验证和数学定理的形式化,是第一个获得ACM软件系统奖(ACM Software System Award)的法国软件,此次获得了开源研究软件开放科学奖中的科学技术类奖。
2.2 设立支持软件开放共享的国家平台
2022年7月8日,法国高等教育部正式推出国家级综合性开放科学平台(recherche.data.gouv.fr)——法国开放科学基金投入700万欧元建设的新一代科学基础设施。其具有两个新特征:一是采用可信技术建成的主权解决方案,使法国能够保持对资源(数据和软件等)的控制权;二是支持研究团队融合入单一的生态系统中,已搭建起13个数据管理集群、6个专题参考中心和4个资源中心。截至2023年初,该平台已收录各类资源2269个,其中包括但不限于数据集1233个、软件94个、模型75个和工作流49个。
在开放政府框架下,法国建设了跨部门的公共源代码共享平台。该平台于2019年10月上线,目前已收录14757个源代码存储库(包含表5中的Coq证明助理等),参与机构2045个。其中,法国高等教育部是最大的供给机构,已提供7377个开源软件资源。统计显示,采纳最多的开源许可是MIT许可(占比29.6%),采用最多的计算机语言是JavaScript(占比24.38%)。
公共源代码共享平台收录的全部源代码的清单(即元数据记录的集合)会同步发布到国家开放数据平台(www.data.gouv.fr),源代码也可以长期保存在软件归档中心软件遗产库(Software Heritage,SWH)中。针对开源软件的特点,国家开放数据平台网站提供了持续关注次数(Stars)和重用次数(Reused)等元数据项。例如,法国国家信息与自动化研究所(INRIA)开发的科学软件Spoon已被关注1379次、重用739次,很多是用于学术目的。这对于用户发现、选择和重用软件大有裨益。
2.3 编制免费软件目录系统
在落实《数字共和国法》和《数据、算法和源代码公共政策》的过程中,为促进政府部门使用开源软件,法国数字化部际管理局编制了“免费软件目录”(Free Software Catalog)。所收录的软件需要满足两个条件:(1)在批准的免费许可证下发布,源代码与可执行文件同步发布、没有延迟;(2)由公共机构的信息技术部门部署,或由公职人员在其工作站上安装。
依托公共源代码共享平台,法国数字化部际管理局开发了目录管理系统(SILL)。目前,SILL中的免费软件有320个,涉及操作系统(如Debian)、数据库(如PostgreSQL)和地理信息系统(如Qgis)等基础软件,也有图书馆系统(如Koha)、电子学习平台(如Moodle)、教育服务器(如SambaÉdu)和数据分析平台(如Grafana)等应用软件。全部软件的元数据记录形成JSON格式的清单文件,通过应用编程接口(Application Programming Interface,API)向外发布。利用这些软件,法国各个机构搭建了85个公共服务系统,举例见表6。
2.4 运行软件遗产库——软件长期保存的国际平台
2016年6月30日,由法国国家信息与自动化研究所历经一年多的孵化,软件遗产库(www.softwareheritage.org)上线运行,用于收集、组织、保存和共享世界上公开的所有源代码。2017年4月,联合国教科文组织与法国签署软件源代码保存和获取方面的合作协议框架,发起全球软件源代码存档行动;2018年6月,联合国教科文组织将软件遗产库作为数字遗产保护计划的一部分,向全球推广和开放;2018年7月,软件遗产库成为法国国家开放科学计划的一部分。截至2022年12月初,软件遗产库保存的软件源文件数量超过132亿个,它们来自超过1.90亿个项目。目前,软件遗产库已发展成为全球最具影响力的软件归档中心之一,其赞助商包括微软、谷歌和华为等公司,以及巴黎大学、比萨大学、博洛尼亚大学和法国国家科学研究中心(CNRS)等教学科研机构。
软件遗产库是一种重要的科学基础设施,旨在保障软件源代码所具备的3个主要属性,分别是:(1)可用性,代码可长期保存和访问;(2)可追溯性,每个软件组件被赋予一个持久的唯一标识符;(3)统一性,存档的所有源代码都通过统一的应用编程接口访问。为此,软件遗产库的建设基于3个要素,分别是:(1)透明度,系统采用开放式架构和协同开发方式,源代码须在免费和开源软件(Free and Open Source Software,FOSS)许可证下发布;(2)内生标识符(Intrinsic Identifiers),依据软件的内在特征计算得出唯一标识符;(3)分布式架构,允许在一组大型对等节点中复制所有内容,以防止信息丢失。
03
对中国的启示
软件正在走出信息世界的范畴,深度渗透到物理世界和人类社会,开始扮演着重新定义整个世界的重要角色。从这个意义上说,人类正在进入一个“软件定义”的时代。对于中国而言,软件(包括基础软件、工业软件和科学软件等)还是实现高水平科技自立自强需要突破的关键领域之一。中国的科学软件在计算仿真、一体化电子产品开发等方向还严重依赖进口,整体上对国外开源生态的依赖性也比较强。因此,除了基础软件和工业软件,科学软件也日益受到各界关注,如中国科学院已连续举办3届中国开源科学软件创意大赛。但是,中国支持科学软件的政策还比较零散、缺乏全局性,如开放科学方面的国家政策——《科学数据管理办法》仅聚焦于“科学数据”,尚有优化和扩展的空间。
实现高水平科技自立自强是中国的重大战略,在软件领域实现自立自强需要发展开源生态、构建技术命运共同体。开放性是科学的本质属性之一,推动开放科学,有利于打破西方壁垒,建立国际科学新格局。因此,中国应抓住开源软件进入开放科学范畴的历史机遇,借鉴法国等科技强国的经验,促进科学软件的开放共享,释放开放科学的巨大潜力。
3.1 推动数据、软件与算法的协调统一开放共享
在大数据与人工智能日益融合的“数智”时代,经济合作与发展组织、联合国教科文组织和法国的开放科学政策都将数据、软件和算法等多种研究对象统一对待,做到开放共享目标、原则(如开放原则和研究软件FAIR原则等)及主要措施(如人才培养和科研评价改革等)的协调一致。同时,在开放政府的框架下,开放政府合作组织鼓励各国在开放数据的同时,开放公共源代码和算法,并借鉴法国、荷兰和新西兰的经验。制定专门的政策,如澳大利亚于2022年3月出台的《研究软件国家议程》和新西兰于2020年7月发布的《算法宪章》,这些都是国家新数据战略的有机组成部分。主要原因不仅是数据、软件和算法都是重要资源或知识的载体,更在于三者之间存在密切关联:一方面,数据的处理和算法的实现离不开软件;另一方面,软件又以数据为“原材料”和输出源、以算法为“灵魂”。由于涉及多个部门和各种利益相关方,法国在数字化部际管理局下成立公共数据开放办公室(Etalab),其担任政府数据、算法和源代码总管理员的角色,负责协调国家相关计划的实施。
大数据、智能算法和算力是数字经济和人工智能的3个基本要素,且均与软件密切相关。因此,中国在重视开放公共数据和科学数据的同时,应尽快补齐开放软件和算法的短板,出台更加全面的数据战略和开放科学政策,促进数据、软件与算法的协同开放,打造立足于国内资源、自主可控的开放科学生态系统。
3.2 建设涵盖软件的开放科学基础设施
虽然同是数字资源,但软件具有不同于数据的特殊性,主要表现在:(1)软件具有“可执行性”,要完成一定的功能;(2)软件的“复合性”和“多粒度”导致软件之间存在错综复杂的依赖关系,必须不断维护和更新才能保持正常运行,这意味着软件的保存和重用比数据更为复杂;(3)软件的生命周期通常短于数据的生命周期,软件的演化和更新比较频繁,新的版本会取代旧的版本,需要严格的版本控制;(4)许多软件在开发过程中就可以通过GitHub等托管平台实现共享,待开发完毕后进入存储库以实现正式出版和归档。由于软件的特殊性,需要建设专门面向软件的科学基础设施。欧洲开放科学云执行委员会的研究报告《研究软件的学术基础设施》主张从“归档/存储、引用/标识、描述/元数据和学术声誉/学术贡献归属”(archive,reference,describe and credit,ARDC)4个方面建设相关的科学基础设施。法国积极参与欧盟的ARDC建设,除建设了软件归档平台和存储中心,还建设了科学出版和聚合服务平台及ScanR(scanr.enseignementsup-recherche.gouv.fr)等。
2020年,《美国国家科学委员会:2030愿景》报告强调,必须在所有科研基础设施上进行投资,特别是在数据、软件、计算和网络能力方面。到2019年6月,中国的科研基础平台取得了跨越式发展,成立了20家国家科学数据中心,研制成功多个超算系统(如“天河二号”和“神威·太湖之光”等)。在此基础上,中国应进一步加大研究软件开放共享的科学基础设施的建设力度,将更多的开源资源吸引及保留在国内平台上。
3.3 积极参与研究软件开放共享的国际合作
2018年11月,联合国教科文组织联合法国国家信息与自动化研究所发起《巴黎呼吁:软件源代码作为可持续发展的遗产》(以下简称《巴黎呼吁》),呼吁各成员国积极参与保存和共享软件的国际合作。目前,已有48名国际知名专家在《巴黎呼吁》上署名,他们分别来自法国、英国、意大利、荷兰、澳大利亚和美国等国家,以及国际图书馆协会联合会(IFLA)、国际档案理事会(ICA)和开源促进会(Open Source Initiative,OSI)等国际组织和软件社区。
据统计,近年来中国开源软件的贡献者数量正快速增长,对GitHub的贡献仅次于美国。虽然中国已成为国际开源运动的重要参与者,但对研究软件开放共享的国际合作贡献度却不高。具体表现在中国缺少具有全球影响力和符合国际标准的研究软件平台,研究数据联盟、研究软件联盟和研究软件FAIR原则的相关工作也缺乏来自中国的成果和声音,这与中国科技大国和软件大国的地位不相匹配。因此,中国应鼓励更多的科研机构、科技公司和开源组织参与研究软件开放共享的国际合作,增强在规则制定、标准研制和科学基础设施合作上的话语权。
04
结语
近年来,现代科学研究范式呈现出从实验观察、理论分析、计算模拟3种传统的科研范式向以“数据密集型”“人工智能+大数据”为代表的第4范式转型的现象,具有全球影响力的开放科学运动加速了这一转型进程。伴随着《建议书》的发布和实施,法国、荷兰和欧盟等国家和地区都更新了开放科学政策,澳大利亚研究数据共享中心、美国国立卫生研究院(NIH)和研究软件联盟等出台了专门的研究软件政策,都将开放研究软件确立为开放科学新的支柱或重点领域。其中,法国的政策和实践最具代表性、引领作用和借鉴价值,包括协调统一的政策体系及针对软件的系列科学基础设施等。
同时,研究软件FAIR原则的广泛采纳和实施,促使研究软件管理的规范化和公平化,使得软件的开放共享更深入地融入科研活动中。对这一趋势的解读,将是后续研究的重点。
免责声明:本文转自科情智库,原作者翟军,范卫华,左云皓,寇红红。文章内容系原作者个人观点,本公众号编译/转载仅为分享、传达不同观点,如有任何异议,欢迎联系我们!
转自丨科情智库
作者丨翟军,范卫华,左云皓,寇红红
研究所简介
国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。
地址:北京市海淀区小南庄20号楼A座
电话:010-82635522
微信:iite_er