大数据时代基于云计算的数据监护研究论文
在大数据时代,为了更好地管理和利用科学数据,计算机图灵奖获得者Jim Gray于2002年提出了数据监护(Data Curation)的概念。十余年来,数据监护一直是国内外信息资源管理领域的热点议题,研究主题集中在数据监护的内容、发展策略、合作模式、职业教育、成功实践等领域。111鉴于云计算能够为数据监护提供强有力的技术支撑,如云计算快速提供资源的能力有助于辅助完成资源密集型数据监护任务,网络化云服务有利于实现数据监护的协同工作,基于云计算开展数据监护引起了国外信息资源管理学界和业界的广泛关注。本文对基于云计算的数据监护问题进行探讨,希望对我国的数据监护工作有所借鉴。
一、数据监护工作流程
数据监护是为了确保数据当前的使用目的,并能用于未来再发现及再利用,从数据产生伊始即对其进行管理和完善的活动。121为了有效指导数据监护实践,提高数据监护效率,一些数据监护机构和研究者对数据监护过程进行了概念化,提出了相应的数据监护生命周期模型。本文基于英国数据监护中心的DCC数据监护生命周期模型13与王芳和慎金花提出的细化的数据监护生命周期模型,梳理出了数据监护工作流程,见图1。数据监护工作流程由4个阶段、11个业务环节组成,涵盖了数据监护的所有必要阶段和核心工作。
数据收集阶段:数据采集。数据采集是数据监护活动的起点,指根据采集政策,从数据创建者、档案馆、知识库或数据中心等接收数据。元数据创建。为采集到的数据创建管理、描述、结构和技术元数据,以便进行数据管理和数据维护,以及实现数据共享。
数据处理阶段:数据评价和选择。评估数据并为长期监护和保存选择数据。数据评价和选择直接关系到科学数据库的质量,并且带有一定的主观性。数据剔除。根据成文的政策、指引或法律要求,处理未成为长期监护和保存对象的数据,将这些数据转移到其他档案馆、知识库、数据中心或其他保管机构。根据法律要求,有些数据会被安全销毁。数据导入。将经过选择的数据传送至档案馆、知识库、数据中心或其他数据监护机构。为保证数据的可用性,在导入数据之前,应进行去重、交叉注释、格式认证等。数据迁移。根据存储环境的需求,或者为了确保数据对硬件和软件退化的抗扰性,改换数据的格式、存储系统、存储类型。
数据保存阶段:数据长期保存。长期保存须确保数据的可信性、可靠性、可用性和完整性。长期保存包括数据清洗、数据验证、分配保存元数据、分配表征信息,保证数据具备可接受的数据结构和文件格式。数据存储。遵守相关标准,选择科学的组织方式和安全的存储介质组织并存储数据。数据存储既可以保证数据的安全性,又便于数据被随时使用和加工处理。
数据利用阶段:数据获取。采用适当的标准发布数据,并执行严格的访问控制和验证程序,保证用户安全、准确的访问和获取数据。数据复用。制订数据复用规则,在不违反知识产权的前提下,提供数据复制、链接、引用等服务。数据转换。根据原始数据创建新数据。例如,通过转换格式、建立子集等途径,创建新数据。
二、云计算为数据监护提供支撑
云计算作为分布式计算、网络存储、负载均衡、热备份冗余等计算机和网络技术融合的产物,具有超大规模、虚拟化、通用性、高可扩展性等诸多特点。云计算的特点与数据监护的需求非常契合,可以为数据监护提供强有力的技术支撑。
弹性服务:云计算服务的规模可快速伸缩,以自动适应业务负载的动态变化。用户使用的云计算资源与业务的实际需求相一致,避免了因为资源供需不匹配而导致的服务质量下降或资源浪费。161数据监护的数据剔除和数据迁移等任务不需要持续不断的执行,属偶发性活动。云计算的弹性服务能够很好地满足偶发性数据监护活动的资源调用需求。
按需服务:云计算以服务的形式为用户提供基础设施、存储空间、应用程序等,并能够根据用户的需求,自动分配各种资源。17用户也可以根据需要在云中部署所需的应用程序。云计算的按需服务为数据监护中需要依赖主观意识完成的任务,如元数据创建、数据评价和选择提供了极大的便利。
泛在接入:用户通过互联网可以随时随地利用云计算服务。数据用户越来越多的使用笔记本电脑、智能手机、平板电脑,将数据监护业务流程转移至云,能够极大地方便用户上传、访问和下载数据。数据监护的数据采集、数据获取和数据复用等业务环节,可以从云计算的这一特点中受益。
服务外包:用户进行数据处理所需的计算资源价格昂贵,将提供计算资源的业务委托给云服务商,既能够节省开支,又能够使用户专注于自己的核心工作。云服务商为了利益最大化,保持最优竞争力,都会迅速应对技术变革,以更低的价格提供更快的处理器和更大的存储空间。云计算服务外包的特点使数据监护机构将部分信息技术支持业务委托给云服务商,以获得更低廉的价格和更优质的服务成为可能。
三、基于云计算的数据监护模型
云计算提供从硬件设施到应用软件的多层次服务。根据服务的对象和功能差异可以将云计算划分为三种服务模式:基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS);根据租用云计算的用户对数据和环境的控制权,可以将云计算划分为公有云、私有云和混合云等部署模型。本文根据数据监护不同业务阶段的工作内容和技术需求,并结合云计算的服务模式和部署模型,构建了基于云计算的数据监护模型,见图2。下面分别从数据监护的云计算服务模式和部署模型两个方面分析基于云计算的数据监护模型。
(一)数据监护的云计算服务模式
IaaS层。IaaS提供基础设施部署服务。IaaS通过虚拟化技术整合服务器、存储设备、网络资源、高性能计算集群等物理资源,构建全局统一的动态虚拟化资源池。基于云计算的数据监护模型的IaaS层为上层云计算服务提供海量硬件资源,实现硬件资源的按需酉己置。
PaaS层。PaaS是云计算应用程序运行环境,提供应用程序部署与管理服务。PaaS不仅能够实现海量数据的存储,而且能够提供面向海量数据的分析处理功能。在基于云计算的数据监护模型的PaaS层,数据监护机构使用云供应商的软件工具和开发语言,开发数据收集和数据处理所需的各种应用程序,实现应用程序的多元化和定制化服务,并将科学数据保存于海量数据存储系统。
SaaS层。SaaS提供以服务为形式的应用程序。SaaS允许用户使用部署于供应商云基础设施上的应用程序,用户也可以根据需求向供应商定制应用程序。在基于云计算的数据监护模型的SaaS层,数据监护机构通过应用程序向用户提供数据利用服务,实现数据共享和科研协作。
(二)数据监护的云计算部署模型
数据监护的各个阶段分别面向数据监护方和数据使用方,对应不同的数据存取、处理等操作权限,因此需要采用相适应的云计算部署模型。数据监护过程中的数据利用阶段位于SaaS层,为用户提供方便高效的数据获取等服务,而公有云面向一般公众提供敏捷弹性服务的特点与数据利用阶段的功能需求相契合。用户能够通过网络浏览器像使用个人电脑中的软件那样使用公有云的应用程序,实现应用程序的泛在访问。因此,基于云计算的数据监护模型的SaaS层应采用公有云部署模型。数据收集和数据处理工作要求云计算提供量身定制的服务功能和非常稳定的'服务质量,而数据保存工作要求云计算能够切实保障数据安全。私有云部署在用户数据中心的防火墙内,能够提供对数据、安全性和服务质量的最有效控制,而且不会冲击用户已有的业务流程。因此,基于云计算的数据监护模型的PaaS层适宜采用私有云部署模型。上述公有云和私有云的基础设施共同构成了基于云计算的数据监护模型的IaaS层,并且公有云和私有云具有统一的接口标准,保证服务的无缝迁移,即IaaS层采用混合云部署模型。
四、基于云计算的数据监护案例
SRF项目:英国南安普顿大学的SRF项目,针对科学研究工作集成了许多已有的协作型数据管理工具,并将这些工具部署到一个共享的虚拟云平台上,以SaaS的方式提供服务。SRF工具最大的特点是能够在网络日志中自动或者手工创建和共享实验数据。例如,SRF的一款代理软件能够植入实验仪器和计算机,自动抽取仪器在实验过程中记录的数据,并转换为XML格式,然后以博客的形式发布以实现协作复用。通过博客发布平台实现实验过程、实验数据、实验分析的互联,组织实验数据记录,构建实验、实验数据、实验设备之间的关联关系。在数据监护生命周期中,SRF工具主要用于接收和抽取数据,以保证实验数据在上传至云的过程中会被格式化成标准格式。
Data Flow项目:牛津大学的Data Flow项目,旨在创建免费的云托管Data Stage和Data Bank,以便于管理、保存、发布研究数据。其中,Data Stage以在用户电脑上运行映射驱动器的方式,提供研究组水平的、安全的“本地”文件管理环境。另外,Data Stage还提供数据的网络获取和在线存储服务,用户通过访问控制程序的认证之后,即可以访问私人、共享、协作、公众和公共数据目录。Data Bank是一种虚拟化的、基于云部署的机构研究数据仓储。机构可以选择将Data Bank部署在Eduserv教育云或者机构自己的基础设施中。Data Bank还具备包括数据抽取、储存、长期保存、访问在内的一系列数据监护功能。
Kindura项目:伦敦国王学院的Kindura项目,是一个基于混合云部署模型的科学数据管理试点项目,提供基于存储的数据管理服务和基于计算的数据处理服务。Kindura项目通过DuraSpace推出的托管云服务一DuraCloud,将本地服务与各种云服务相衔接。用户利用DuraCloud提供的统一界面,即可享受一站式数据存取服务。Kindura项目通过部署于服务器上的规则引擎,以及面向规则的集成数据管理系统(iRODS)的规则库,决定具体数据存储在本地还是存储于云端:二进制对象存储在云端,元数据和Fedora对象存储在本地。l9Kindura项目证明,混合云能够有效节省数据监护成本,并且能够更加高效地利用本地存储库,提升数据处理能力。
东南大学AMS-02项目:东南大学为大型国际合作项目AMS-02的数据监护工作构建的云计算平台,提供IaaS、PaaS、SaaS服务。该云计算平台架构如图3所示。在IaaS层,云计算基础设施由3500颗CPU内核和500TB高速存储设备构成,提供虚拟机和物理机的按需分配,并且自动配置操作系统、科学计算函数库等运行环境。在PaaS层,数据分析处理平台提供大规模计算能力和海量数据存储能力;应用开发环境为AMS-02数据分析处理应用提供编程接口。在SaaS层,以服务的形式部署云计算应用程序,用户通过访问AMS-02应用,可以获取原始科学数据以及数据处理分析结果。云计算通过超级计算模式,整合大量的存储、计算、带宽等资源,为数据监护提供了经济高效的解决方案。国内的数据监护尚处于起步阶段,对基于云计算的数据监护进行深入的理论探讨和实践探索,有助于推动我国的数据监护实现跨越式发展。
【大数据时代基于云计算的数据监护研究论文】相关文章:
云计算环境数据安全研究论文11-03
云计算环境下的数据挖掘研究论文10-28
大数据时代的大数据管理研究论文10-19
大数据时代数据挖掘技术教学研究论文01-20
分析论文:云计算环境下大数据06-26
大数据时代的国际关系研究论文11-05