一、健康医疗大数据开放的国内外发展现状
全球健康医疗大数据开放实践尚处于起步阶段。数据开放的前身为信息公开。自年美国奥巴马颁布《开放政府指令》、美英相继建立国家数据开放平台data.gov和data.gov.uk之后,世界各国掀起了数据开放运动。健康医疗作为关乎生命健康的重要民生领域,各国均将其作为优先实行数据开放的领域。
(一)国外健康医疗大数据开放情况:万维网基金会的《开放数据晴雨表》全球报告(OpenDataBarometer),从准备度、执行力和影响力3个维度评估政府数据开放程度。此项评估得到了世界各国的广泛认可。英国连续5年位居《开放数据晴雨表》的前三名[2]。年,英国在全球率先上线国家数据开放平台data.gov.uk,开放了包括健康医疗在内的12个领域数据。目前,data.gov.uk已开放多个健康医疗数据集,其以卫生管理与质量、人口统计类数据为主,其次为卫生费用、疾病预防和公共卫生数据。此外,英国国家医疗服务体系(NationalHealthService,NHS)健康和社会保健信息中心、NHSChoices等网站也提供了许多健康医疗数据。
美国是全球健康医疗大数据开放的先行者,已建立国家健康医疗数据开放平台HealthData.gov。该平台公布了多个相关数据集,并提供按数据集主题、数据格式、发布单位等多种分类方式的下载服务,以增强数据的易用性。年,美国食品药品监督管理局(FoodandDrugAdministration,FDA)公共数据开放项目openFDA正式上线。该平台开放了食品、药品、医疗设备和其他4大类数据,如药品不良反应事件数据、医疗设备不良反应事件数据等。openFDA平台的数据更新十分及时。
加拿大近年的数据开放实力逐年上升,在年发布的《开放数据晴雨表(领导者版本)》中位居榜首。在健康医疗领域,加拿大ourhealthsystem.ca网站采用医疗信息研究院的数据,医院就诊难度、医疗水平、费用、疾病预防、全国人口健康状况等数据。
澳大利亚是数据开放运动的早期领导者,其年发布的《空间数据访问和定价政策》是最早向公众免费提供政府数据的政策之一。其国家数据开放平台data.gov.au在健康医疗领域已开放卫生工作者密度和分布、每10万人口新诊断人类免疫缺陷病毒(HIV)数等近个数据集。
(二)国内健康医疗大数据开放情况:我国数据开放尚处于起步阶段,在《开放数据晴雨表(领导者版本)》中排名24/30(领导者版本仅排名了《开放数据宪章》采用国和G20成员国)。目前,暂无国家层面的数据开放平台。但是,北京、上海、贵州、青岛等地区已建立相应的数据开放平台,开放了包括健康医疗领域在内的数据。此外,国家和各省市卫生健康委员会网站的“政务公开”栏目,公开了医疗机构数、诊疗费用、诊疗人次、出院人数等统计数据以及统计年报、月报、公报等数据资源;中国疾病预防控制中心(CDC)、国家统计局等也公布了部分健康医疗数据。另外,于年成立的非营利性、非政府性的民间组织开放医疗与健康联盟(OMAHA),持续致力于推动健康医疗领域的数据开放和共享,目前联盟正在实施的个人健康档案“当归”项目的愿景之一即为促进数据开放与再利用[3]。
二、健康医疗大数据开放平台架构
建立健康医疗大数据开放平台可为数据开放提供统一的门户网站。纵观美国、英国、加拿大等国,均是先建立数据开放门户,再逐步完善数据开放实践。目前,我国已形成国家-省-市-县4级全民健康信息平台的规模化建设,汇聚了大量健康医疗数据,为健康医疗大数据开放奠定了良好的基础[4]。因此,我国可在现有全民健康信息平台的基础上拓展数据开放功能,以减少重复建设;亦可单独建立健康医疗大数据开放平台。
健康医疗大数据开放平台框架可分为基础层、数据采集层、大数据中心、数据服务层以及标准体系、安全体系[5]。基础层提供网络、计算、存储等资源;数据采集层按照一定的标准定时或实时采集医疗服务、公共卫生、综合管理等数据,并进行部分数据清洗、整合与标准化处理;大数据中心负责存储、组织、加工健康医疗大数据;数据服务层负责将数据以分类目录的方式呈现给用户,如机构目录、业务目录、主题目录等,并提供应用程序接口(applicationprograminterface,API)、手机App应用、互动交流等服务;标准体系是健康医疗大数据开放平台的基础保障,应完善数据元、核心元数据、数据集、数据敏感程度评估、数据开放风险评估、数据采集接口等标准;安全和隐私问题是我国健康医疗大数据开放的主要障碍之一,一方面可通过完善工作人员的操作规范以及各类用户的数据使用权限等措施保障安全和隐私,另一方面可充分借助数据脱敏、加密、安全多方审计以及区块链等技术防止个人隐私和核心数据泄露[6-7]。尤其是区块链的发展,其去中心化、安全可信、集体维护、不可篡改的特点,使其可用于跟踪与追溯数据的使用及流通情况[8-9]。
三、健康医疗大数据开放管理制度
健康医疗大数据开放,在管理层面首先应建立完善的数据分类、分级、分域开放制度,使不同类型的用户可依法依规获取不同类别、不同等级和不同范围的数据。数据分类分级结果将影响数据是否适合开放、开放范围以及是否需要脱敏、脱密处理等。数据分类方式较多,按开放程度可分为无条件开放、依申请开放和暂不开放等,按加工程度可分为原始数据、中间数据和结果数据等,应根据实际应用对健康医疗大数据进行科学合理的分类。根据数据敏感程度,健康医疗大数据可分为Ⅰ级、Ⅱ级和Ⅲ级,Ⅰ级为非敏感数据,Ⅱ级为涉及个人隐私的数据,Ⅲ级为涉及国家机密的数据。此外,还应定义敏感域,包括但不限于姓名、家庭住址、身份证号、电话号码等[10]。健康医疗大数据分类分级开放类别见表1。
四、健康医疗大数据开放所面临的关键问题
健康医疗大数据开放涉及众多利益相关者。数据从产生、采集、处理到开放和利用的流程虽不复杂,但是面临的问题却不容乐观。图1为健康医疗大数据开放的关键步骤。
健康医疗大数据开放涉及的角色有数据提供者、协调者和数据利用者。数据提供者包括医疗机构、卫生行政机构、公共卫生机构、保险机构、医疗企业等,他们提供电子病历(EMR)与电子健康档案(EHR)、全员人口、医疗保险、研发项目、健康监测等多种类型的数据。协调者为各级卫生健康委员会,主要职责为收集、处理与发布健康医疗大数据,建立、管理数据开放平台并制定运行规则。协调者是保障健康医疗大数据开放安全有序、高效稳定运行的关键。数据利用者为科研机构、保险机构等健康医疗大数据的使用方。
(一)数据收集:协调者(如国家卫生健康委员会)收集来自医疗机构、CDC、医保局、医药企业等的数据,并将数据存储在国家健康医疗大数据开放平台中,供用户访问时获取。数据统一存储有利于集中管理,但也增加了资源集聚性风险。因此,国家平台亦可不直接存储原始数据,只提供数据的获取地址,用户访问时链接到数据提供单位下载即可。
数据收集首先需明确数据收集范围,其次需明确收集方式(如自动采集或定期传输等)、数据集格式、数据集元数据等问题以及数据传输安全、存储安全等。编制健康医疗大数据资源目录可解决“有哪些资源”“资源在什么地方”等问题,为数据收集提供详细的解决方案[11]。建立资源目录的关键技术包括元数据库模型、分类模型和编码模型等[11]。
(二)数据审核:为保障开放数据的质量,需对收集的数据进行审核。可将人工审核与机器审核相结合,审核数据集核心元数据的完整性、数据准确性等。对不符合要求的数据进行重新采集。
(三)数据遴选:对通过审核的数据判断其开放类型,即完全开放、依申请开放、暂不开放,并遴选出可开放的数据集。评估维度包括数据的应用价值、开放风险、元数据完整性、可用性与认证情况等[12]。可研制开放数据遴选标准,在资源目录基础上编制开放目录,以促进遴选工作高效运转。
(四)数据脱敏:数据脱敏除考虑传统的数据安全外,还应