DCS Cloud和可信研究环境
可信研究环境概述
可信研究环境(Trusted Research Envieonments,简称 TRE)旨在为授权用户提供的一个安全且受控的空间,使其能够在保障数据隐私、安全和合规的前提下,访问、存储、分析和共享敏感数据、分析结果、大模型及其他输出,从而支持高级研究和开发。
从历史上看,将数据合并用于研究的传统方法涉及组织之间的数据的复制移动。可信研究环境无需在研究人员和组织之间以物理方式共享数据,为研究人员提供访问和分析数据的安全环境,允许研究人员以安全的方式访问数据,将数据保留在安全的环境中,并由授权研究人员使用可信研究环境中提供的工具进行计算分析,从而提供了数据共享的替代方案。
使用可信研究环境的优势
数据流动才会产生价值。基因组数据和其他类型的健康数据在研究中具有很高的价值,大规模的基因组数据可以加速社会对如何检测、预防和治疗疾病的创新研究,但这些数据的规模和敏感性为数据流动带来了阻力。与传统的复制和移动数据方法相比,可信研究环境通过多层安全控制和监控审计功能解决了有关患者隐私和数据安全的许多问题,并为健康数据研究和管理提供了多重优势。
01 促进大规模健康数据价值利用
为了保护患者隐私,大部分健康数据存储在机构的独立环境中,而机构之间的数据共享非常复杂,除了需要签署相应的数据共享协议之外,还需要考虑隐私健康数据在各个机构之间的安全保护以及地区内数据共享访问的法规要求。可信研究环境提供了支持大规模敏感健康数据研究的功能和基础设施,它解决了数据授权共享的问题,确保以安全和负责的方式处理数据,在不牺牲数据安全性的情况下促进了数据研究和价值利用。
02 有利于更好的医疗发现
大规模数据对于了解疾病的形成因素以及确定健康和疾病的模式和趋势至关重要。可信研究环境可用于存储和处理大量患者数据,相比传统方法,可以在更大的范围内进行研究,可以更容易发现新的疾病原因并开发新的、更有效的诊断、治疗和护理方法。
03 更高的数据安全性
可信研究环境是安全且可控的环境,获得批准的研究人员可以使用环境中的数据,但数据不会离开可信研究环境。使用可信研究环境进行健康数据管理的最显著优势就是能够安全的存储和访问敏感的健康数据。可信研究环境允许经批准的研究人员安全的开展工作,同时保护健康数据免受未经授权的访问和潜在的安全风险。
04 更低的数据管理成本
在传统的数据共享方法中,数据被复制和移动,这需要消耗大量资源。可信研究环境通过将数据存储分析整合到单个环境中,可以最大限度的减少数据复制和移动,从而减少资源消耗。同时,研究人员也可以降低维护多个系统和数据迁移的成本,可信研究环境比传统数据共享方法更具成本效益。
05 满足法律合规要求
在各个国家和地区中,医疗保健行业都受到了严格的法律监管,组织必须遵守法规要求以确保合规的处理患者健康数据。可信研究环境通过提供必要的控制和监控措施,确保符合个人信息保护法、HIPAA 和 GDPR 等法规以及 ISO 27001 等安全标准,帮助组织满足相关要求,避免代价高昂的数据泄露和违规处罚。
可信研究环境的功能要求
不同国家地区对于可信研究环境的功能要求略有不同,但通常为满足可信研究环境功能所采取的安全措施具有共通之处。
五个安全框架
五个安全框架是英国健康数据研究中心对于可信研究环境的特征功能标准,分别是安全的人员、安全的项目、安全的设置、安全的数据和安全的输出。该框架涵盖了数据管理的各个阶段,被广泛认为是敏感数据保护的一个黄金标准。
安全研究数据访问的五个安全框架
01 安全的人员 仅获授权的研究人员可访问数据,且仅限用于已批准项目。数据管理者需有流程验证人员授权状态,还需能隔离用户间的数据访问。所有用户在数据管理平台的访问及操作均需记录,以确保全面可审计性。
02 安全的项目 可信研究环境需有透明的数据访问申请流程,例如使用者需明确数据用途。
03 安全的设置 可信研究环境必须安全的存储数据,且具备符合行业标准的安全控制措施(如数据加密、禁止导出个体级数据、追踪研究人员 / 用户活动的能力)。
04 安全的数据 数据在静态存储及传输中均需去标识化与加密。
05 安全的输出 可信研究环境需通过可靠透明的流程支持数据结果导出,防止未经授权的数据泄露。
可信数据空间
可信研究环境还需要满足可信数据空间的核心能力要求,确保数据在研究环境空间内的可信流通、高效交互以及价值的共同创造。按照中国国家数据局《可信数据空间发展行动计划(2024—2028年)》给出的定义,可信数据空间指的是基于共识规则,连接多方主体,实现数据资源共享共用的一种数据流通利用基础设施。如果把互联网比作信息传输的普通公路,可信数据空间就像配备了全程监控、防撞护栏和智能调度的超级高速公路。
可信数据空间三大核心能力
01 可信管控能力
支持对空间内主体身份、数据资源、产品服务等开展可信认证,支持对数据流通利用全过程动态管控,支持实时存证和结果追溯。
02 资源交互能力
支持不同来源数据资源、产品和服务在可信数据空间的统一发布、高效查询、跨主体互认,实现跨空间的身份互认、资源共享和服务共用。
03 价值共创能力
支持多主体在可信数据空间规则约束下共同参与数据开发利用,推动数据资源向数据产品或服务转化,并保障参与各方的合法权益。
数据安全保护最佳实践
除了五个安全框架和可信数据空间之外,可信研究环境所依托的支持大规模研究的系统和基础设施也应该具备高水平的安全保护能力,使研究人员能够安全有效的访问和分析数据。
提供可信研究环境的组织机构的数据安全保护能力通常会因为自身情况的不同而存在差异,但组织最佳的数据安全保护实践一般会遵循行业公认的最佳实践标准,例如 ISO27001 和网络安全等级保护,这些最佳实践标准明确了企业在涉及数据安全的多个维度需要具备的安全能力,且一般都有独立的第三方审计机构提供审核认证服务。
组织可以通过获取独立审计机构的审核认证,来向外界表明自身符合最佳的数据安全保护实践标准,具备强大的数据安全保护能力,以增加研究人员和机构对可信研究环境的信任。
DCS Cloud的可信研究环境
我们(DCS Cloud,简称DCS)非常注重用户信息和数据的保护,参照可信研究环境的功能要求建立可信研究环境,采取各类安全措施保护可信研究环境中的数据,实现了原始数据不出平台。
五个安全框架建设
01 安全的人员
我们建立了基于角色的权限控制机制(RBAC)。项目管理者可以给项目用户分配相应的角色,不同的角色拥有不同的数据资源访问权限,从而实现精细颗粒度的数据权限访问控制。项目管理者通过权限管理模块和申请审批流程来管理不同角色的数据访问权限及用户的角色分配授权情况。用户仅可访问自身已有的项目,以及拥有角色被授权的数据。不同项目和用户间的数据访问是隔离的,互不影响。
此外,我们制定了内部制度,对内部员工对用户数据的访问做了严格限制。开发人员使用模拟数据或匿名化数据进行调试,禁止使用真实用户数据。运维人员通过堡垒机进行服务器和数据库资源访问,堡垒机是唯一入口,并部署有权限控制及操作日志审计措施,涉及用户数据的重要操作需要多层审批授权。这些措施有效避免了内部员工对用户数据的违规访问和操作风险。
同时,独立第三方公有云在其系统中记录了DCS用户的登录和数据操作访问日志,日志记录内容包括用户 id、操作类型、操作时间、操作详情、资源标识、资源类型和远程地址。日志由第三方公有云存储,DCS业务上做了防篡改机制。项目管理者可授权项目审计角色,使用平台公布的方式联系我们,申请调取系统中的数据操作访问日志,以便对数据访问和操作记录进行查看和审计。
02 安全的项目
项目管理者负责利用系统的权限管理模块管控项目数据的访问。新增用户需要通过项目管理者的授权才能获取相应角色项目数据的访问权限,项目用户新的数据访问需求需要说明数据用途原因,通过数据权限申请审批流程获取项目管理者的审批授权,才可获取相应数据的访问权限。
另外,我们通过数据访问权限控制和业务逻辑设计,在软件层面实现了不同项目间的计算、存储和数据隔离,项目间的数据操作互不干扰,有效避免了项目间的数据篡改和泄露风险。。
03 安全的设置
我们基于 ISO27001和网络安全等级保护(三级)安全行业实践标准对我们的系统和可信研究环境建立了全面的安全控制措施,包括但不限于数据加密、数据脱敏、访问控制、高危操作审批、日志记录和审计、身份认证、项目数据隔离等。
同时,我们在平台系统开发阶段,就基于预防胜于治疗的理念,利用DevSecOps(开发、安全和运营)和SDL(Security Development Lifecycle, 安全开发生命周期)这些全面的软件开发方法论,将安全实践融入到软件开发的每一个阶段,通过在早期的开发阶段识别并解决安全问题,减少后续修复成本和风险,确保系统的原生安全。
04 安全的数据
我们对从外部传至平台系统和平台系统内部之间的数据传输过程均采取了TLS传输通道加密措施,并对传输的敏感信息(如密码)也进行了加密保护。在数据的静止存储过程中,我们也对敏感数据进行了加密。我们在加密过程中使用了高强度的加密算法和密钥,将明文数据转换为不可读的密文数据,维护了数据的机密性和隐私性。
另外,我们也对用户敏感数据,如手机号码、邮箱账号等,采取了数据脱敏措施,根据脱敏规则对敏感数据进行数据变形,去除敏感数据部分,以实现对敏感数据的可靠保护,这样就保障了在系统环境以及界面展示中使用数据的安全性。
05 安全的输出
我们环境中的数据输出完全由用户自己控制,只有当用户拥有数据导出权限时,才可导出结果数据。用户的权限由权限控制申请流程来支持,且权限的申请审批以及数据导出等均留有相应记录,操作记录内容包括文件名称、操作类型、状态、文件路径、操作时间和操作人。这样的多层管控有效降低了未经授权的数据输出泄露风险。
符合可信数据空间核心能力
01 可信管控能力
我们为解决平台内各类资源访问的身份问题,对进入平台的注册用户,均支持开启多因素身份认证技术的身份可信认证,认证通过后才可进入平台访问相应的项目和数据资源。我们以项目管理的形式推进数据的计算分析和交付结果等,各个项目间的计算、存储和数据均进行了隔离,相当于建立了一个个数据沙箱。项目内的数据资源访问基于用户所拥有的角色,不同角色拥有对特定数据资源的访问能力,而用户角色由项目管理者根据权限管理流程来分配授予。
另外,我们对用户的数据操作访问及流通利用全过程进行了日志记录,记录内容包括操作时间、操作人、数据对象、操作行为等。日志记录内容保存在独立的系统中,并建立了防篡改机制,记录只能查看不能修改。日志记录会至少保存 6 个月,审计角色在期限内可对数据操作行为结果进行追溯,对异常操作行为进行审计。
02 资源交互能力
我们提供了强大的资源交互能力,支持多来源、多类型的数据资源、工具和服务在平台空间中的统一发布与高效查询。平台通过智能搜索和分类管理功能,让用户能够快速定位所需资源,同时支持跨项目的身份互认与资源共享,实现数据、工具和服务的无缝流通。无论是多组学数据的整合分析,还是工具的灵活调用,DCS Cloud 都为用户提供了一个高效、安全的资源交互环境,确保数据资源的高效利用和价值最大化。
03 价值共创能力
我们以数据价值转化为核心,支持多用户主体在平台空间中共同参与数据开发与利用。平台通过以项目为中心的协作模式,让用户能够快速整合数据和工具,形成完整的分析流程,推动数据资源向科研成果的转化。同时,平台提供透明的规则和计费机制,保障参与各方的合法权益,确保数据共享和使用过程的公平性。平台严格遵循数据主权原则,用户数据所有权及衍生知识产权利益均归用户所有,用户可安全掌控数据资产,并通过平台工具便捷转化方法及成果,既保障创新权益又激活数据流通。此外,平台还支持知识共享与协作创新,用户可以将分析过程、经验成果沉淀到知识库中,形成可持续的数据资产,助力数据生态的繁荣发展。
遵循数据安全最佳实践标准
我们成立了高效的安全组织,制定了全面的安全管理制度,应用了多个安全技术平台,并保持对员工的安全教育,参照行业最佳实践标准建立了数据安全管理体系,实现了多维度多层次的数据安全保护。
我们通过了多个数据安全领域的最佳实践标准认证,比如网络安全等级保护三级认证和 ISO27001 信息安全管理体系认证。此外,独立的第三方审核机构每年也会对我们开展外部审计活动,以保障我们的安全措施与最佳实践标准的符合性。
结语
DCS Cloud 始终将用户的数据安全与隐私保护视为服务的核心基石与首要责任。我们遵循五个安全框架、可信数据空间和数据安全最佳实践标准,通过建立多层次的安全防护体系,包括数据加密和脱敏、严格访问权限控制、日志记录和审计,以及符合国际标准的隐私合规框架,构建了可信研究环境。我们深知,用户信任是数字服务的生命线,因此始终按最高安全标准筑牢数据防线,让用户在享受高效数据服务的同时,无需担忧隐私泄露与数据滥用风险,真正实现技术应用与隐私保护的和谐共进。
引用参考
1、英国健康数据研究中心,构建可信的研究环境 - 原则和最佳实践;迈向 TRE 生态系统
https://zenodo.org/records/5767586
2、国家数据局,一图读懂 | 可信数据空间发展行动计划(2024—2028 年)
https://www.nda.gov.cn/sjj/zwgk/ytdd/1122/20241122163755929549118_pc.html
3、英国数据和分析研究环境,多方可信研究环境联合:建立基础设施,以便跨不同的临床基因组数据集进行安全分析
https://zenodo.org/records/7085536
4、生产力联盟,企业信息安全管理体系 ISO27001 介绍
https://mp.weixin.qq.com/s/ppUtd9lgFNRKfi8PVWgnOg
5、网络安全和信息化,安全跟我学|网络安全等级保护:保护你的数字生活
https://mp.weixin.qq.com/s/DCWTfULkH8vyZwIQks3yag
6、许宸至,【Nature Communications】一种基于云的基因存储计算环境——TRE(可信研究环境)https://mp.weixin.qq.com/s/pL3Pv5HisMCKUDsXnip3IQ
7、Microsoft,Microsoft 安全开发生命周期(SDL)
8、Microsoft,什么是 DevSecOps? 定义和最佳做法
https://www.microsoft.com/zh-cn/security/business/security-101/what-is-devsecops