This is a research project commissioned by Shanghai Commission for Economic and Informatization in 2018. It aims to develop a new framework to evaluate how well the city open data program is operated by the contracted operation team.
「城市数据开放运营管理指标体系」是一个供政府内主管城市数据开放工作的决策机构用于确定各项城市数据开放运营工作——开放策略、数据平台、数据治理和生态营造——当前所处「成熟」阶段,并为其指明「下一阶段」方向的「路线图」式工具。
本项目所产出的指标体系工具是一个整体方向性框架,而非专门用来评价一个城市数据开放工作绩效优劣的评价性框架。其根本目的是希望帮助城市数据开放的主管部门,能够掌握自己当前各板块工作,相较于国际最佳实践和未来趋势而言,所处的「位置」,从而帮助他们能够结合工作阶段解读「绩效评估」的结果,并掌握下一步努力的方向和侧重点。
本项目所产出的指标体系是「面向未来」的,我们不单单希望基于过去十年世界各国的最佳实践,也期望能够在这个项目中,结合技术、社会、经济的整体发展趋势,描绘未来撑死数据开放的走势,从而给出一个可以指导未来工作方向的框架。
本项目产出的框架,适用于从整体上反映一个城市开放数据工作思路当前的「成熟」情况,也可以就特定工作板块用于诊断。正如同任何指标体系框架工具,我们要指出的是,使用者应当结合自身的情况,并外部的额外信息,来解读和使用该工具。
自2009年奥巴马政府正式启动Data.gov已来,以开放政府数据为主的开放数据运动席卷了全球。而在这过去的十年间,国际组织、非营利机构与高校等相继研发了开放数据绩效评估框架如《开放数据晴雨表》1、《开放数据指数》2等从准备度、数据开放度、影响力等方面对各个国家以及城市达成开放数据原则目标的程度予以评价和排名。
这一类绩效评估型的评价体系,往往不考虑各个国家或城市本身就开放数据发展目的和发展环境的差异,而已既定的、理想化的最高标准作为「考试标准」予以要求,对于被评测对象而言,虽能评测出自身绩效达标的优弱势,但很难结合具体情境给予弱势改善的主次关系,以及优势所应转向发力的方向。
除了绩效指标类的框架,还有一类是用于反映所处阶段的成熟度模型。其中较为有代表的行有英国开放数据研究院所制作的《开放数据成熟度模型》3,其是针对具体的数据发布者而言,从其管理并发布数据的能力和机制成熟角度来反映数据发布者的现有成熟阶段,其包括了数据管理流程、知识技能储备、用户参与和支持、资源保障以及策略五个方面,设定了初始化(Initial)、流程化(Repeatable)、标准化(Defined)、制度化(Managed)以及完善化(Optimising)五个成熟阶段。
图 1‑1 Socrata的技术型城市数据开放成熟度模型
而Socrata所发布的开放数据成熟度模型则是从技术平台视角提出了五层模型:从最底层的无平台发布数据文件,到数据下载索引目录(2级),到简单交互式数据门户(3级),到全自动数据发布、用户体验佳数据门户(4级),到实时数据、商业级数据交换的开放数据生态(5级)。
图 1‑2 旧金山市所采用的管理型城市数据开放成熟度模型4
而旧金山市所采用的成熟度模型则是围绕开放数据管理视角所产出的5级模型,从整体上反映一个城市的开放数据从行政管理角度的状态:从第一级行政令刚生效,测试性的数据开放工作开始,到第二级数据开放支持者的较无章法的「开放一切能开放的」,到第三级的标准化流程化发布数据,到第四级的瓶颈期,资源受限,到第五级的开放数据成为政府事务的紧密一部分不再单独存在。
而回顾所有这一系列模型,我们并未能找到一个模型是用于指导具体某一个阶段应该关注哪一类工作,才能继续进步直至达成目标的,也因此,我们这项工作才有其意义,试图搭建一个工作框架,并反映不同工作阶段,运营管理工作具体应当关注那些重点。
而当下,产出一个面向未来,指引数据开放后续工作路线的指标体系,则需要直面正在变化中的发展环境,而在下一个十年,城市数据开放所面临的5大冲击是:
数据作为基础设施 (Data as Infrastructure),最早应当是由英国开放数据研究院5所提出的论断,其认为数据作为公共品应当和桥梁、公路等基础设施一样具备公共服务属性,因此应当开放给社会使用。2017年,英国国家基础设施理事会组织针对「数据为社会公共利益」(Data for public good)的专项议题开展研究,其中就围绕数据基础设施予以了调研,其中一篇研究报告6指出,数据应当和其他基础设施一样予以管理和利用,从而支撑社会经济的发展。
基于数据基础设施化的论点,我们不难发现原本开放数据的政府数据/政务数据范畴难以充分支撑数据的基础设施化。事实上,越来越多的有关于城市运作的数据掌握在企业,特别是大型的互联网公司手中。因而,数据基础设施化实质带来的核心问题是如何处理多源数据的自由流通问题,特别是私营企业数据的流通问题。
伦敦市在数据基础设施化的论点基础上建立了城市数据战略7,其指出以严格的开放格式和授权去流通政府数据已经无法满足这个社会经济运作的数据需要,我们急需将我们的目光投入「城市数据」——纳入所有有助于城市管理、运作、发展的公共、私营乃至个人数据——从而去进一步发挥数据在智慧城市发展中的作用。
万维网的本质是去中心化,而数据开放流通的未来也是去中心化的。一方面,数据范畴在逐步扩展,数据发布者类型各异,越发趋向各自寻找符合各自特性的数据发布渠道和模式;而另一方面,技术的演进,也将越来越鼓励数据的流通去中心化。我们不妨回顾万维网初期,为了能够发现网站内容我们有了雅虎这样的集中索引目录,将不同的网站分门别类地归集到一处以便发现内容,而这正类似现行的数据门户。而当搜索引擎出现,网页黄页服务一步步走向衰灭,最终雅虎也被收购,而这正是未来数据发布到发现的去中心化范式。Google 推出的Dataset Search8就是这不远未来的现实版本。
而近年来大热的区块链本身也为去中心化的数据发布提供了可能的支撑,正和食品溯源等一样,数据的去中心化发布要解决的正是哪个可信主体发布了什么数据,又在哪些渠道流通,如果这些信息都能够通过分布式账本即区块链技术的方式予以记录,并能够方便核验,那么去中心化的数据发布、流通、使用正是一个符合现实发展的可期未来。
「数据发布人们自然会来使用的」(Publish then They will come)是开放数据领域的经典问题,是否不论目的地将不同数据尽可能多的开放,就一定会得到应用而创造预期的价值呢?十年的实践经验告诉我们,答案可能是否定的。也因此,开放数据宪章 (Open Data Charter)启动了「有意义的发布」(Publish with Purpose)的新运动9,期望树立情境提倡人们围绕情境——也即期望解决的问题,应用的场景——去系统性地开放数据。
除了发布时应当带有目的,实际上数据发布后的组织呈现方式也应当情景化。纽约开放数据社群的知名人物 Chris Whong 曾就撰文10指出,实际上将开放数据发布在其源头部门的网站上,和其他相关情境相关的文档、可视化、应用等一块才是最佳的方案。而这一论断也得到了近两年研究的支持,比如欧盟开放数据门户所开展的「未来开放数据门户」研究报告,就认同应当把数据情境化组织,从而帮助使用者更好地发现相关数据和应用方向。
可持续开放是近年来开放数据领域的重点问题,随着通过政治诉求推动开放数据已经进入瓶颈期,而经济方式推动开放数据尚未有令人信服的商业模式,如何继续激励数据拥有者能够发布并持续更新数据成为了紧迫的命题。根据欧盟开放数据门户所做的研究,开放数据门户普遍缺乏资金去建设支撑项目团队、覆盖数据质量治理到发布维护的费用、开展社会参与工作吸引利用提高质量等。而在这样的状况下,如何转变思路,将开放数据工作去中心化,并建立合适的收益机制(基础设施或者数据资源可以换取收益资源)是急需探索的问题,也将影响未来开放数据计划为何开展,如何开展,如何评估成功的关键因素。
开放数据是一个具有严格定义的概念,承袭自开源代码,其对开放的理解是免费、自由。而对于开放数据真实的内核:数据的自由流通,其开放性是停留在开放数据原本的理想化的、技术权益化的层面,还是使其基因化成为根植于整个数据流通生命周期的一种文化,则是眼前理念与实践的冲突。「数据协作」(Data Collaboratives)11的研究在于试图理解数据非严格意义开放下但流通用于有意义工作的方式是否是值得探索的,以及如何可以反馈到开放数据的实践。而伦敦市的城市数据战略则是直接指出,开放数据已不够,我们应当寻求的是开放根植于我们的数据文化,而不是苛求开放数据的定义12。
为了能够理清未来开放数据发展的路线,我们一方面回顾过往,基于国内外开展的横向评估总结开放数据现状及未来改进的路线方向,另一方面,我们调研了国际城市和国家所发布的未来3-5年的开放数据战略,围绕先进地区的实践重点,构建变化趋势,最后我们针对开放数据领域的重要国际组织例如开放数据宪章,以及专家型机构例如英国开放数据研究院等在过往十年间所发布的对于开放数据实践和未来发展趋势的观点与报告,予以汇总总结,从而指导各工作板块的趋势研究,进而搭建体系模型。
图 1‑3 项目案头研究参考资料概貌一览13
运营管理城市数据平台或者说城市数据计划,首先要明确的是其开放策略,那么何为开放策略呢?我们认为,开放策略应当回答的是:1)驱动力:为什么要推动城市数据开放? 和 2)资源:哪些数据纳入开放范畴?3)角色:政府扮演什么角色?这三个问题,从而从宏观角度能够指导我们如何建设数据平台(技术设施:承载什么数据资源,以技术手段具现化驱动力要素和政府角色)、数据治理(技术运营:对哪些数据做哪些治理)、生态营造(管理运营:基于驱动力模式,以何种方式吸引哪类利息相关提能够达成开放特定资源的目的)这三个运营构成模块,也即指导并回答「怎么开放?」
表格 2‑1 开放数据的四大驱动力
驱动力 | 典型理念和诉求 |
---|---|
文化与权利 (Culture and Rights) | 「科学无国界,因为知识属于人类,是点亮世界的火把」14; 「知识获取是基本人权」15 |
政治与法律 (Politics and Law) | 开放政府(Open Government)16:透明(Transparency)、问责(Accountability)、参与(Participation)、包容(inclusion) |
市场与经济 (Market and Economy) | 「数据是新石油」17; 数据是新的基础设施(Infrastructure)18 |
技术与伦理 (Technology and Ethics) | 为下一代万维网奠定关联数据(Linked Data)基础19; 为伦理化发展和应用AI 及自动化/算法决策技术提供基础 |
回顾开放数据理论和实践的发展,我们可看到,开放数据起初是「开放文化」在数据时代的自然延续性的产物20:其是开放知识、开放获取、开源代码等一系列开放文化运动的后继者,进而转化成为人类基本权利的一部分:数据获取权。而我们所熟识的开放数据运动,也即开放政府数据运动,实际是「开放文化」走入政治生态后的产物,而「开放政府」和「开放数据」天然的结合绑定,使得开放数据得以高调发展,其目标就是通过开放数据去实现开放政府,根本上增强人民在社会治理中的地位,加强民众对政府的信任。
而2012年起,经济发展成为了又一开放数据的驱动力。麦肯锡经典的3万兆-5万兆经济规模论21无疑给与市场一剂强心针,大大刺激了市场对开放数据的诉求,也即对将政府封闭数据开放给社会从而刺激经济增长的渴求。而对于中国,实际上从一开始开放政府数据的发展就是为了经济增长,形成具有规模的数据市场或者说智能市场22。
而随着「人工智能」时代的来临,以及多起著名的数据泄露事件,例如 Facebook 数据泄露案23的发生,人们逐渐将目光又投向了隐含在经济和政治两条线下的驱动力:技术和伦理。开放数据的开放正是达成关联数据、人工智能等技术快速迭代高速增长的秘诀,也是伦理化、透明化、可解释化开发应用人工智能及其他智能类数据应用的必要手段24。
事实上,下一个十年的数据开放已经不单单是单一动力的驱动了,欧美也早已认识到仅仅政治驱动是无法保障数据开放的长效,而经济发展必须介入。技术和伦理、文化和权利两者虽然更为弱化「利益」,而事关社会「福祉」,但这两股力量的走强,则恰恰可以使得开放数据在「利益」驱动——无论是政治利益还是经济利益——不足时仍旧保持向前的趋势。也因此,我们认为,开放数据的驱动将会更多体现这四种动力的多元交叉,而一个城市或者国家去推动数据开放,应该如何去做,则更多视乎于这四者间的平衡关系。
过往十年间,开放数据的主要重点是在于政府数据或者说政务数据,而面临着城市高度智能化的需要,城市数据逐步成为了开放数据的努力目标。事实上,开放数据范畴从政府数据扩展一直在过往十年间发生。起初的理论是应当将公共财政支持的数据采集和数据生成都纳入开放数据范畴,这本身就是为了能够将原本一些未能纳入政府数据范畴的,但又是利用公共财政即纳税人资金买单的数据。
而后,事关公共利益的数据又被提出作为一种新的范畴。实际上,在欧美很多国家公共服务是由企业所承担的,比如公交、邮政等。而在这一过程中,企业本身不接受公共财政资金的支撑,但又采集和管理了公共服务相关的数据,也因此难以被原有的范畴所覆盖,因而有了公共利益相关的数据的提法。
而城市数据则是一个全新的概念,它的范畴非常大,但又有着其必要性:因为越来越多的城市数据,无论其掌握在什么属性的主体手中,都和城市进一步智能化息息相关,而发展城市智能化,实际本身就是开放数据的一个必要目标。然而,迈向城市数据的过程中,如何开放,开放本身的原则是否需要进行调整,则是另一项需要探讨的命题。
围绕开放策略,我们关注的是三方面的问题:目标、资源和角色。目标确定了为什么要推动城市数据开放,其即是确定了推动力/驱动力,亦是描绘了城市数据开放发展成熟所需的基础力量。我们认为,四种不同的驱动力实际可以分成两类: 资源梯级模型
从资源角度而言,我们提供以下的梯级模型来帮助城市数据开放计划确定自身所处的阶段,和下一阶段努力的方向: 其反应了一个城市如何从政府数据出发,逐步深化开放原则,从而扩展范围纳入公共财政覆盖数据、公共利益相关数据,直至城市数据。而不同的数据范畴,实质又会影响一个城市数据开放计划如何去组织、协调、开展具体的工作,并需求不同的技术基础设施去给与支撑。
表格 2‑3 开放策略-资源梯级模型
| ★ | ★★ | ★★★ | ★★★★ | ★★★★★ |
---|---|---|---|---|---|
资源 | 政府数据 | 政务数据 | 公共财政覆盖的数据 | 公共利益相关的数据 | 城市数据 |
表格 2‑4 开放策略-角色梯级模型
| ★ | ★★ | ★★★ | ★★★★ | ★★★★★ |
---|---|---|---|---|---|
角色 | 发布者 | 倡导者 发布者 | 协调者 倡导者 发布者 | 监管者 协调者 倡导者 发布者 | 赋能者 监管者 协调者 倡导者 发布者 |
对应于所开放资源,政府所扮演的角色自然会有所相应的变动。对于基本的政府数据、政务数据范畴,政府自身就是「发布者」和「倡导者」。而当数据范畴扩展进入公共财政覆盖的数据,政府就不仅仅是「倡导」而需要进一步具备「协调」的职责,协调公共财政覆盖的数据乃至城市数据能够按规则统筹性调度开放流通。而当数据范畴正式扩展到公共利益数据时,政府应当正式树立并强化对数据的流通应用予以监管的责任形象。而最终,当数据范畴扩展到城市数据,政府需要增加赋能者的角色,提供基础设施、规则体系赋能支撑整个城市的数据流通和监管。
数据门户(Data Portal)是任何开放数据计划启动时就会率先纳入建设计划的信息系统,其作为集中式的一站式门户提供对开放数据范畴内的数据的集中索引,并面向终端用户提供搜索、访问、获取、预览数据资源的支持,以及作为在线渠道支撑数据使用者和数据发布者的交互例如数据评价、数据反馈等。
在很长一段时间内,「建设开放数据计划」就近乎等同于「要开发上线一个数据门户」,数据门户成为了开放数据工作具象化的手段与成果展示。但正如我们在前文中已经提及的,当开放数据所覆盖的数据类型发生变化,从政府数据逐步扩展至城市数据,其对应的数据发布主体类型也发生根本的变化,而最终随着数据发布主体的多元,开放数据工作的治理将更多去中心化,数据的发布自然也将更为去中心化,在这样的情况下,我们是否还一定需要集中式的通过一站式的门户去发布数据?而进一步,考虑到数据的流通权限、流通监管将成为未来的重点治理方向,我们需要的还仅仅是一个辅助数据发布、索引及获取的门户网站吗?还是说,从治理主体角度(政府)而言,为了更好的促进和治理整个城市的数据开放流通,我们需要加大投入的是基础设施,一组信息技术系统用于支撑数据开放流通中从发布到授权到监管的全生命周期的管理,而非仅仅是一个面向终端使用者的信息服务网站?
在本章节中,我们带着上述的问题,结合欧美国家对于数据门户的反思,以及整体万维网及人-数(Human-Data)交互的技术趋势,来对数据平台的建设运营指出未来的可能方向。
数据平台的发展趋势可以从两个角度予以结构,一是从服务数据发布者的角度,一是从服务数据使用者的角度。我们首先从服务数据发布者的角度来剖析变化趋势:
首先我们观察到的一个趋势是,随着数据范畴从政府数据扩展到公共数据直至城市数据,对于数据发布的主体而言,其愿意通过统一的由政府建设的数据门户上传或提供数据接口的意愿是不一致的。从品牌角度考量,私营企业往往期望能够建设自身品牌的数据发布门户,而这实质性的就引导了数据从中心化的统一门户发布变化成了去中心化的多渠道发布数据。对于城市数据平台而言,其面向数据发布者的功能发展方向则从单纯的支撑发布者统一通过城市数据平台发布数据,并上架索引支持发现搜寻数据,进而变化到应当能够主动识别城市数据范畴内的数据发布者,建立机制主动发现或被动提醒去中心化发布的数据资源,并在城市数据平台索引相关资源,提供正确的指向数据资源的链接,并能够定期予以活性的检查。
而随着去中心化发布的到来,另一个显著的变化则是城市数据平台将更注重城市数据资源的监管和跟踪,而不仅仅是发布(而且事实上发布这件事商业平台可能做得比城市平台更好25)。传统中心化发布的场景下,数据开放的生命周期:从发布,到被发现,到被获取,到被应用,基本能够通过城市数据平台予以追踪。而在去中心化的场景中,城市数据平台仅仅起到「指路人」的作用:导引用户通过城市数据平台到达发布在数据拥有者自有渠道的数据,其被获取、被应用的情况则由数据拥有着自行管理。因此,对于城市数据平台而言,应当建立起机制,能够和数据发布者建立起通讯方式,实时或定期掌握数据的流通情况和应用情况,从而从宏观上而言,一个城市的城市数据平台应当掌握整个城市的数据脉络。
从2.1和2.2的变化趋势中我们不难看出,去中心化的数据流通会为扮演中心化角色的城市数据平台带来诸多的挑战。而从解决的思路上来看,将城市数据平台不再简单定义为一个在线的应用网站系统,而是将其视为网站加上一组支撑网站功能的必要技术基础设施则是更为合理的架构视角。事实上,这意味着城市数据平台不单单应当作为数据开放流通的前沿阵地,其本身应当成为一组开放的技术组件供他人复用。如果其本身作为基础设施,能够被数据发布者复用,则数据发布的流程、标准等将一并复用而方便管理,如果其本身的数据权限、用户账号等组件能够作为基础设施被应用整合于第三方数据发布者自身开放发布系统的建设,则城市数据平台本身将更好地被整合入整个城市的数据生命周期中。
对于目前的开放数据门户设计,大多数情况下为了帮助用户检索和发现门户数据,提供的功能有:搜索框、按数据管理类元数据所设计的筛选器和按单个数据的统计量的推荐。
其基本思路是将数据集按照图书一样依照其设定的各类分类规则进行管理。
表格 3‑1 数据资源「图书式组织」的功能设计
功能 | 功能描述 | 限制 |
---|---|---|
搜索框 | 一般通过数据集的标题、简介的文字做精准或模糊陪的文本搜索。 | 较少支持针对数据字段及数据内容的搜索,亦无法根据语义搜索相应内容 |
按数据管理类元数据所涉及的筛选器 | 筛选器即一般提供的「按机构」、「按主题」等下拉、勾选式的筛选工具,用于对整体数据集或现有搜索结果做进一步过滤。目前数据门户通常按照数据自身的管理类元数据即其主题、发布单位、发布日期、数据格式等信息设计筛选器。 | 较少围绕其结构类元数据即数据范式(字段)或描述类元数据(即使用情境、采集背景、原始用途等)做筛选,限制了数据从应用角度的发现可能 |
按单个数据的统计量的推荐 | 按单个数据集的「下载量」、「浏览量」等统计量设定的推荐排行榜 | 下载量、浏览量等方式较难符合数据使用者发现或搜寻数据的逻辑 |
而实际上,无论是引导数据使用者发现数据或是帮助数据使用者搜寻数据,图书式的组织方式都较难以满足需求,「商品式」的组织方式则是未来可以参考的方向。所谓「商品式」组织即是参考电商网站如何通过搜索、筛选、推荐等功能方式帮助消费者发现或搜寻到所需的商品的。例如,消费者如在电商网站购买手机,同样是提供筛选功能,,电商网站除了提供按照手机自身管理类元数据筛选商品,即「按品牌」、「按价格」等方式之外,亦会围绕消费者的典型购买需求/应用场景来提供筛选选项,比如「按是否带有 NFC」、「是否大电池」等。同样的,电商网站的推荐功能并非单一的按照销售排行推荐展示,而是会一并提供例如「同类商品推荐」、「搭配捆绑商品推荐」(如购买衣服,推荐裤子、佩饰的组合)的方式,而这些都是从消费者的购买心理和购买需求角度出发。对于数据平台而言,即是要全面拥抱应用场景,对内容进行组织并辅助搜索、筛选和推荐的功能。
而值得注意的是,关联数据将是 Web3.0的基础,而在关联数据的时代,数据交互不仅仅是基于元数据和应用场景,也基于庞大的、交叉关联的关联云/网络(Linked Data Cloud)26所开展,数据平台应当有能力帮助用户基于场景的需要,依据元数据的描述,漫游关联网络从而发现、理解并利用数据。
城市数据平台被认为是一个城市所有数据资源的中央目录,用户通过它能够发现并获取数据,而基于这些数据,所能延展所做的交互例如预览、可视化、地理信息化等的想象空间是巨大的,其可衍生出的功能列表和需求是没有止境的,因而对于一个城市数据平台,面对目的不同背景不同的各阶层各类型使用者27,不可能去自行建设并提供所有需要的功能。城市数据平台应当明确其核心的目的而建设功能,其服务于终端使用者解读、利用数据的功能应当通过将城市数据平台定位为可与第三方轻易链接交互的「平台」而一切都由「门户」去实现。换而言之,城市数据平台自身应当能够曝露一批 API 接口,以方便第三方简便地获取数据平台自身的元数据及其他交互能力,从而得以和第三方工具可以关联整合。事实上,CKAN28以及 Scorata 等成熟的开放数据门户解决方案就已经部分实现了这一愿景,允许第三方通过 API 方式获取完整的数据目录列表、各数据集的具体元数据及交互记录等。而专业化的地理信息平台例如芝加哥的 OpenGrid29 ,以及 Data.gov 所增设的「Open With」 按钮30正是这一类「互通」思维的先驱代表。
我们同样从两个维度来拆解构建数据平台的运营管理体系模型。
首先从服务数据发布者角度而言,我们前文趋势中已经描绘随着数据资源范畴从政府数据逐步扩展至城市数据,数据平台本身的定位将会更为去中心化,基础设施化(底层化),因而我们对应开放策略-资源梯级模型,有以下模型:
表格 3‑2 数据平台-资源端定位梯级模型
★ | ★★ | ★★★ | ★★★★ | ★★★★★ | |
---|---|---|---|---|---|
数据平台 | 中心化集中式发布数据 | 去中心化发布数据,中心化管理数据权限 | 去中心化发布数据和管理数据权限,中心化数据溯源 | 基础设施化支撑去中心化的发布数据和管理数据权限,去中心化数据溯源 | 基础设施化支撑去中心化的数据发布、数据权限、数据溯源 |
上述模型的构建,是基于资源梯级模型和整体趋势对应产出的。我们可以看到,当资源范畴在政府或政务数据阶段时,资源端的主体类型较为一致,此时大多数情况下会选择以中心化的方式集中管理数据的发布(资源端阶梯第一阶段)。当然也不排除可以选择去中心化发布,中心化权限管理(资源端阶段第二阶段),从而方便各数据发布主体自主发布数据,但对于数据权限的管理仍旧是集中的中心化的方式。而当数据范畴扩展到公共财政覆盖的数据起,数据平台应当以去中心化的发布模式为主,可以根据需要选择中心化或者去中心化的权限管理。而当数据范畴进一步扩展到公共利益相关乃至城市数据,此时数据主体以政府直属管辖外的企业和机构为主,去中心化的发布和权限管理已经成为必然,此时数据平台应当以基础设施化路线为主,从而支撑整个城市的数据流通。而此时的数据溯源则应当从中心化溯源进化为去中心化的溯源,直至过渡到亦由数据平台作为基础设施来支撑。
而从数据平台服务数据利用者角度而言,我们认为其发展方向的主要矛盾核心在于从何角度组织对数据资源的交互,而这就是利用端的梯级模型:
表格 3‑3 数据平台-利用端定位梯级模型
★ | ★★ | ★★★ | ★★★★ | ★★★★★ | |
---|---|---|---|---|---|
数据平台 | 数据交互按数据列表组织 | 数据交互按管理类元数据组织 | 数据交互按元数据组织 | 数据交互按数据元数据及应用场景组织 | 数据交互按数据元数据、应用场景和关联网络组织 |
从模型中我们可以看到,最早的开放数据门户是单纯的列表索引,其负责的是将以开放的数据(量很少)通过列表形式归集到一处,供使用者发现。而后,随着数据量的增长,形成了现有的传统数据门户,其主要利用数据的管理类元数据,通过搜索、筛选等方式帮助用户发现和搜寻数据。而随着数据治理水平提升,并引导用户使用的方向,数据的元数据将会更为完整和丰富,引入数据结构类元数据(范式描述)、描述类元数据(采集背景、原因、方式等),这类元数据如何整合成为辅助用户发现和搜寻数据的新「交互」技术,就成为了新的发展课题。而,将不同数据通过应用场景主动「组织」起来,以及进一步通过关联数据方式,提供数据关联线索,则是未来平台的发展方向。
通常而言,数据治理指的是对于数据的全生命周期(从采集到应用)的质量控制与管护,数据质量一般被认为反映了「数据多大程度适用于特定用途」的特性,其维度分解的理论复杂,但一般被认为包含以下基本维度31:完整性(Completeness)、全面性(Integrity)、准确性(Accuracy)、安全性(Security)和时效性(Timeliness)。
但在数据开放的场景下,我们认为,数据作为一种生产资料固然应当满足「数据质量」本身的指标建议,但当其被数据拥有者「发布/开放」而提供至第三方利用时,其作为一种「产品」,应当同时衍生出数据产品质量的概念。为了帮助读者理解,我们请读者思考一下家庭食物和超市加工食物的差别:以「番茄炒蛋盖饭」为例,单纯从食物质量(即类比数据质量)角度来说,我们对于家庭出品或超市出品的都会要求菜品的健康、美味、安全,这是对食物本身品质的最基本要求。但对于超市加工食物而言其作为一种产品化、包装化的食物,我们则会进一步要求更多,例如要求摆盘美观、用料标准、标注卡路里和食材等一系列产品化的条件(即类比数据产品质量)。而这正是我们所谓的数据质量和数据产品质量间的概念差异,可以看到,正如同食物质量会是食物产品质量的一部分,数据质量也是数据产品质量的构成要素。
而考虑到整个数据开放的治理趋势和技术发展趋势是去中心化的,因此对于未来主导并治理数据开放工作的主管单位而言,要求其能够具体负责跨行业的多种类数据的数据质量成为了一件不太可能的工作,也无相应的配给资源可以去实现这样复杂的工作。另一方面,针对数据质量的数据治理,实质在传统场景中往往指的是满足数据拥有者自身的使用目的而对全生命周期予以管护。但是,数据开放本身是将数据形成产品对外提供,其数据使用的对象是第三方而非数据拥有者自身,即数据治理是发生在两个分离的生命周期上,因而,我们认为,对于业务主管部门更为重要的数据治理活动是针对数据产品质量中如何发布/包装数据这项产品的工作而开展,而非数据质量本身。主管部门运作数据开放计划时,应当保障不同数据发布者在将数据发布作为产品时,能够符合统一的发布质量标准和约定,从而能够满足数据使用者对数据产品质量的整体期望。而这一「数据发布质量」,即是本章节的核心内容,其用以表征「多大程度上数据被发布在满足消费者预期的标准化形式下」,从而有助于发现、理解和采用数据产品。
数据的发布是在数据共享和开放潮流下所带来的全新问题,特别是当数据发布行为大多数发生在互联网之上时,数据作为一种产品,其可被如何发现和理解都是崭新的挑战。为了应对这一新挑战,万维网联盟成了了「万维网上的数据」(Data on the Web)工作组,由企业、政府、非营利机构等联合协作,在2017年正式发布了「数据发布最佳实践」指南32,其围绕「重用性」(Reuse)、「可理解性」(Comprehensive)、「可关联性」(Linkability)、「可发现性」(Discoverability)、「可靠性」(Trustworthy)、「可访问行」(Access ibility)、「互通性」(Interoperability)、「可处理性」(Processability)这8大维度(Benefit),整理了共计35条建议。其中从我们数据发布质量角度来说,我们主要考量「可处理性」、「可靠性」、「可发现性」、「可理解性」和「互通性」这5大维度。
表格 4‑1 数据发布质量的维度说明
维度 | 说明 |
---|---|
「可发现性」(Discoverability) | 数据产品能够发布在人和机器可容易(自动)发现的状态下 |
「可处理性」(Processability) | 数据产品能够提供在机器可自动读取并处理数据的方式下 |
「可靠性」(Trustworthy) | 数据使用者对数据产品的稳定和可靠有足够的信心 |
「可理解性」(Comprehensive) | 数据使用者能够对数据产品的数据结构、采集方式、使用方式等信息有更好的理解 |
「互通性」(Interoperability) | 数据产品采用标准的语言和格式,能够帮助数据发布者和数据使用者间「同一频道」沟通,帮助数据发布者基于由共识的接口标准整合数据产品 |
自开放数据运动以来,数据发布特别是政府数据发布通常通过统一的数据门户进行集中的发布,从而确保其在万维网上有统一的入口供使用者通过搜索、浏览等方式发现相应的数据产品。随着去中心化成为城市数据开放的趋势,城市数据开放后的可发现性迎来了新的挑战:对于任何数据发布主体,其不一定在统一的数据门户上发布其数据产品,在这样的情况下,该如何确保该数据产品对消费者「可见」呢?
Google所发布的 Dataset Search 产品33将该问题的答案「抬」出了水面:数据产品无论在万维网上何处发布,都应在对应的网页页面采用 schema.org 定义的数据集标记规范34,以确保该资源能够被准确识别和自动发现。
进一步,无论是从「数据引用」(Data Citation)角度还是从「关联数据」(Linked Data)角度,数据产品的发布都应当尽可能采用唯一的 URI(统一资源标识符)来标记数据资源或数据服务,乃至其历史版本,及其中的具体内容(例如地名、人名),从而确保「网络效应」下,人或计算机都能够快速并尽可能自动地发现相关的数据产品。
可处理性指的是数据的数字可访问性(Digital Accessibility)和可用性(Usability),其实数据发布过程中最为人知晓也最为关注的特性,Tim Berners-Lee 所提出的著名的5星模型35即是从数据的可处理性角度搭建的:一星为数字格式,二星为结构化数据格式,三星为开放格式,四星为配给URI的语义标记格式(RDF 等),五星为关联数据。
而所发布数据的可处理性不仅仅局限在数据资源本身。为了使得机器能够更方便的理解和处理数据资源,数据的相关元数据、文档等也都尽可能地提供在机器可自动处理的格式下则是更佳,因此数据发布质量中的可处理性应当同时兼顾数据资源本身以及其相应的元数据和文档资源。
数据产品发布的可靠性主要来自于两个层面:一是从其产品化的角度是否足够可靠,二是其内容是否可靠。
作为直观也较多讨论的一个指标是数据的按期更新情况,其代表了一项数据产品发布后是否能够提供持续、稳定、最新的资源服务。而除此之外,类似于企业级 API 服务一样,数据若以 API 方式发布开放,应当亦有表征其实时服务状态的信息供消费者随时查询,从而确保其数据产品是稳定提供了一项服务。
而从内容角度来说,数据产品由谁发布、内容来自于谁本身就是内容可信(Credibility)的基本判断信息。进一步,从内容角度来说,数据产品发布过程中的迭代修改历史是否本身提供完整的版本追溯、版本修改的说明,亦为数据产品本身的内容可靠与否提供了佐证。而这一部分信息,则应当由数据元数据中的管理类元数据(Administrative Metadata)负责,其应当包含数据的创建者、创建者联系信息、基本时空范围、版本信息等。
数据的发布是为了让他人使用,而往往使用者对于原本数据的内容情况和其原本的采集目的等所知甚少,因此目前的国际趋势是应当进一步提升数据发布时的数据可理解性,通过增强其结构类元数据和描述类元数据。所谓结构类元数据(Structural Metadata)即对数据范式的说明,应当描述数据的数据域组成、数据取值类型和范围以及必要的编码对应情况。而描述类元数据(Descriptive Metadata)则应该提供数据采集/生成的必要过程、目的、限制信息,并对所发布的数据与原始数据间的差异做必要说明,提供相应文档。如果数据产品是以 API 等方式发布,那么相应应该提供包含操作方式、示例及错误编码和应对方式的完整文档,以方便用户理解和使用数据产品。
而更进一步,将数据产品和应用场景相关联也是一个主要的趋势。纽约开放数据社群领袖Chris Whong 指出36,数据应当和其应用场景目的所关联,以引导和帮助使用者理解该数据可用于解决什么问题。
数据产品的互通性是数据开放领域乃至整个数据领域的重点问题。互通性可以体现在多个层面(粒度),比如从数据整体范式的角度而言,有着所谓「数据标准」(Data Standard)的概念,其是具有行业共识的用于结构化表述特定对象或事件的数据规范。例如 GTFS37 是由 Google 维护的交通数据标准,用于描绘交通信息该由哪些数据域(字段)组成,分别是什么属性等。而在数据值的层面,亦有标准可言,例如时间日期的表述,是采用 YY/MM/DD(年月日)还是MM/DD/YY(月日年)也会有特定行业或国情等的具体约束和共识规定。
而通用的词汇和编码列表,则是另一类促进互通性的工具。例如上文提到的 GTFS,其谨慎拟定了采用的词汇例如「route_type」、「route_short_name」等,并定义了「route_type」的编码表:「0 - Tram, Streetcar, Light rail. Any light rail or street level system within a metropolitan area. 1 - Subway, Metro. Any underground rail system within a metropolitan area. 2 - Rail. Used for intercity or long-distance travel.」 从而对于其他任何数据资源,其均可以复用已有行业共识的词汇和编码列表构成,从而方便使用者能够复用「认知模型」去快速理解并在相同的标准下处理数据。
而上文所提到的关联数据角度,对于一些客观存在的事物:人物、机构、地名等,可通过为期分配持久的URI(统一资源标识符),而跨数据以 URI 替代具体的文字或字母数字等表述形式,从而达到互通关联的作用。
基于上述的讨论,我们认为在城市数据开放的问题背景下,讨论数据治理,应当是重点针对数据发布质量的治理,而非数据自身数据质量的治理。
针对不同阶段的城市数据开放项目,我们构建了如下的五星梯级模型,其反应的是在不同阶段针对城市数据开放的数据治理所重点关注的核心维度。随着一个城市数据开放越来越成熟,其从数据治理角度而言应当能够满足更多的数据发布质量维度的要求。
对于一个城市数据开放项目,其在数据治理工作上的「越发成熟」,代表其在数据治理工作上,通过政策、项目战略、考核等方式体现其当前项目运营过程中已明确纳入下一梯级阶段的重点维度,从而进入下一梯级的阶段。也因此其应当开始纳入对应维度的绩效指标的考核。
表格 4‑2 数据治理梯级模型
| ★ | ★★ | ★★★ | ★★★★ | ★★★★★ |
---|---|---|---|---|---|
数据治理 | 可发现性 | 可处理性 可发现性 | 可靠性 可处理性 可发现性 | 可理解性 可靠性 可处理性 可发现性 | 互通性 可理解性 可靠性 可处理性 可发现性 |
表格 4‑3 数据治理各重点维度的可参考绩效指标
维度 | 绩效指标 |
---|---|
「可发现性」(Discoverability) |
|
「可处理性」(Processability) |
|
「可靠性」(Trustworthy) |
|
「可理解性」(Comprehensive) |
|
「互通性」(Interoperability) |
|
城市数据开放不仅仅是战略与技术的工作,更是针对于人的工作: 如何激励决策者发布数据、如何帮助技术人员提升管护改善数据质量、如何引导人们有效利用所开放的数据、如何开启数据发布者和使用者间的对话乃至合作?这一系列围绕人的意识、能力、关系的工作往往隐藏在具象化的政策和技术工作之下,但其却恰恰是城市数据开放成败的关键。
生态营造是一项战略性工作。这意味着生态营造应当和开放策略紧密关联,基于开放策略来确定生态营造的策略。同时,生态营造也是具体的、围绕一个个不同个体或组织的服务性工作,需要投入大量的时间,在理解特定个体或组织的基础上,「对症下药」才能更好的和不同利益相关体建立良好的关系,共同推动整体城市数据的开放流通。
在体系构建上,目前并没有成熟的、针对数据开放生态营造的运营管理体系模型或绩效模型存在,因此我们借鉴了Startup Commons所创建的创业生态成熟度模型38:其针对培育创业企业的本地生态,提出了:觉醒&宣言(Awakening & Manifesto) 、蓝图&愿景(Mapped & Vision) 、共识&量化 (Aligned & Measured) 、合作与迭代(Orchestration & Iteration)的四阶段模型,我们基于其核心的思路,并结合政府在城市开放数据计划中的角色梯级模型,搭建了如下的认知方式梯级模型,从而反映不同角色阶段的政府对生态营造的认知,进而指导政府生态营造的策略。
表格 5‑1 生态营造-认知方式梯级模型
| ★ | ★★ | ★★★ | ★★★★ | ★★★★★ |
---|---|---|---|---|---|
认知方式 | 懵懂 缺乏生态思维;对生态中的其他利益相关体缺乏认知和交互 | 觉醒 初步意识生态思维;逐步认知生态中的主题;和有选择的利益相关体开展交互; | 认可 认可生态思维;初步建立对生态布局和诉求的认知;初步建立生态策略,开展和生态利益相关体间的交互 | 成熟 有成熟的生态思维;掌握生态布局和诉求;完善生态策略,有侧重和针对性地开展生态运营 | 融合 生态思维已融入整体战略;掌握并完善生态布局; 有健全的生态策略,并依靠生态来运营和发展城市数据开放工作 |
在这个模型中,我们认为大多数刚刚开始启动城市数据开放工作的政府都是处于「懵懂」阶段的,即他们认为数据开放工作只是有一个信息化形态的项目,只需要输出政策、命令、文件,建设系统就能达成任务,也因此这一阶段的政府并不会考虑「告知」(Inform) 这一单纯对外输出方式之外的生态互动模式。而对于「觉醒」阶段的政府,其刚刚意识到「生态」中还有自己的战友,自己需要具备一定的生态意识,和他人合作,才能完成数据开放,但这一阶段政府自身并不了解也不信任生态,因此只会基于有限的生态资源,邀请熟悉的生态利益相关体参与到生态营造中。「认可」阶段的政府,则对生态有了进一步的认知和信任,承认生态营造是城市数据开放的必要组成,因而会主动探索生态中的各类利益相关体,试图理清生态布局和诉求,建立初步的生态策略。「成熟」阶段的政府,对生态中的角色和诉求已有了全盘的掌握,能够根据自身所处的各项工作的发展阶段,围绕生态利益相关体的特性展开生态营造工作。而「融合」阶段的政府,此时已经将生态思维贯穿了整个城市数据开放工作的始末,对生态的不足有自身的见解,并能够通过生态营造填补生态不足,赋能生态中的利益相关体,借助生态推动数据开放的工作。
我们依据Tim Davies等所提出的Five Stars for Engagement39模型,对生态营造的工作做了抽象,总结为如下5个方面的工作,其同时面向生态中数据的发布者和应用者:
表格 5‑2 生态营造-5类工作内容
工作板块 | 说明 |
---|---|
意识文化 | 指针对生态利益相关体的城市数据开放工作的普及、宣传、文化塑造 |
数据发布 | 指围绕数据发布的内容、规则吸引生态利益相关体的参与 |
数据质量 | 指围绕数据质量的治理吸引生态利益相关体的参与 |
能力建设 | 指提升生态利益相关体的技能和能力来更好发布/解读/应用开放的数据 |
数据应用 | 指引导、激励对开放数据的应用 |
针对这5个不同层面的工作,政府可以通过工作策略的调整,来确定具体的工作内容。此处我们借鉴了公共参与梯级模型,引入了政府接纳公众参与/提供公众参与服务的5种方式,由此得到工作策略梯级模型如下:
表格 5‑3 生态营造-工作策略梯级模型
| ★ | ★★ | ★★★ | ★★★★ | ★★★★★ |
---|---|---|---|---|---|
工作策略 | 告知 (Inform) 单向的告知、命令 | 协商 (Consult) 单向反馈通道建立 | 参与 (Involve) 直接参与某些工作,反馈影响决策 | 合作 (Collaborate) 合作共建某些工作,双向反馈通道 | 赋能 (Empower) 依靠生态决策、推进工作 |
因而,对于具体的工作内容,其应当是工作对象、工作板块和工作策略的交叉产物。比如针对数据发布者,围绕数据质量工作,如果采用「告知」策略,那么就应当仅仅是向数据发布者提供数据质量的标准和实施手册,如果采用「协商」策略,那么数据质量的治理就应当是政府和数据发布者之间协商得到的流程、标准,如果采用「赋能」策略,那么应当由数据发布者来确定数据质量如何治理,政府只支撑该工作即可。而类似的,如果针对的是数据利用者(开发者),同样围绕数据质量工作,如果采用「告知」策略,那么仅仅提供数据质量的标准、实施手册、质量结果的信息即可,而如果是「合作」策略,那么应当建立路径使得开发者能够和发布者合作治理数据质量。因此我们看到,工作具体如何开展,是三者交叉的结果,当然其也会受到各具体工作的梯级模型和策略的影响。
本项目产出的框架,以「开放策略」的「驱动力」、「资源」、「角色」为核心,确定一个城市的数据开放工作的整体定位。从而其影响一个城市如何开展「数据平台」、「数据治理」和「生态营造」的相应工作。
我们从整体框架间的关系不难看出,「数据平台」的功能定位与「资源」、「角色」紧密关联,当数据资源范畴扩展出政务数据范围之外,数据平台必须做出「去中心化」的转变,并逐渐支撑「数据的基础设施化」。
同样,「资源」与「角色」也导引了「生态营造」的工作。当数据范畴扩大,随之而带来的问题就是利益相关者的范畴扩大,以及利益相关者的「权利」和「自主性」的加强。在这样的前置条件下,「生态营造」的工作必须能够适应新的改变,从而积极向「赋能」的工作策略靠拢,更为依托生态的力量,而非政府自身的力量来开展工作。
而「生态营造」的工作实质上也反过来影响「驱动力」的决策。如果一个城市能够通过生态营造,成功在社会文化中使得开放成为主流,积极地吸引开源社群参与开放的工作,那么自然一个城市可以逐步引入「文化与权利」的驱动力,并借助生态优势驱动自身的发展。
在限定的资源和时间框架下,本项目基于国内外的前沿趋势,采用未来构想的方式,描绘了未来城市开放数据的工作方向。在这一过程中,考虑资源的限制,我们无法对所有的参考资料予以严谨的系统性的整理,并产出统计性的分析结果,从而基于统计视角/数学视角佐证我们纳入在项目报告中的未来趋势是最为主要、最有可能发生的。
同样,因为本项目是面向未来开展的,基于趋势而对未来发展方向予以预测性判断,是基于项目团队自身对趋势的理解,以及在项目领域内的多年知识和经验积累,其必然有项目团队的主观性,而无法符合严谨的科学性的、客观性的要求。因此,我们建议读者,特别是政府机构,在阅读并采纳本项目产出框架时,应当采取谨慎的态度,对相应的文献资料给予第二次的检视,并结合自身及专家的再次解读和建议,有选择性地采用本项目产出的指标体系框架,指导后续的工作开展。
资料名称 | 资料作者 |
---|---|
旧金山市开放数据规划(2014-2018) | 美国,旧金山市 |
西雅图市开放数据规划(2017、2018) | 美国,西雅图市 |
纽约市开放数据规划「Open Data For All」(2015) 及年度评估报告(2015-2018) | 美国,纽约 |
多伦多市开放数据远景规划(2018-2022) | 加拿大,多伦多市 |
埃多蒙顿市开放数据规划(2017) | 加拿大,埃多蒙顿 |
澳大利亚新南威尔士州开放数据规划(2017) | 澳大利亚,新南威尔士州 |
爱丁堡开放数据规划(2014) | 爱丁堡,英国 |
伦敦市远景数据策略(2014) | 伦敦,英国 |
爱尔兰开放数据规划2017-2022 | 爱尔兰 |
新西兰开放数据规划(2017) | 新西兰 |
加拿大开放数据蓝图指南(2017) | 加拿大开放数据联盟 |
欧盟开放数据成熟度评估(2016-2017) | 欧盟开放数据门户 |
开放数据门户:从建设到可持续 | 欧盟开放数据门户 |
未来的开放数据门户 | 欧盟开放数据门户 |
开放数据晴雨表 | 万维网基金会 |
开放数据指数 | 开放知识基金会 |