面向分布式文件系统的可扩展数据快照科技论文

时间:2021-06-25 14:26:18 论文 我要投稿

面向分布式文件系统的可扩展数据快照科技论文

  引言

面向分布式文件系统的可扩展数据快照科技论文

  随着信息的全球化,互联网产业得到迅速地发展,其在科学研究、数据挖掘和信息获取等方面的广泛应用,使人类需要存储和管理越来越多的数据,进而出现数据爆炸的现象。2012年12月,IDC公司的全球数据分析报告如图1,预计2020年全球数据总量将由2012年的2.72ZB增长至40ZB,并且40%的数据需要保证其安全性。然而,受硬件设备失效、火灾、地震自然灾害等因素的影响,数据的安全性和可靠性受到严重威胁。在这个数据即信息,数据即价值的大数据时代,如何保证数据的安全性和完整性成为当前存储领域越来越重要的问题。

  1 目前主流快照技术

  本章首先介绍目前主流的快照创建技术,包括镜像分裂、按需复制、指针重映射和增量快照技术,并分别分析其优缺点;然后介绍目前基于增量快照的快照恢复方法;最后为了降低空间、时间开销和提高系统可扩展性,提出快照创建和快照恢复需要改进的问题。

  1.1 快照创建1.1.1 镜像分裂快照技术镜像分裂技术在快照时间点到来之前需要为源数据卷创建并维护一个完整的物理镜像卷,同一数据的两个副本分别保存在由源数据卷和镜像卷组成的镜像对上。快照操作到来时,镜像操作停止,镜像卷转化为快照卷,得到一份数据快照,快照卷在完成数据备份后,与源数据卷再次同步,重新成为镜像卷。镜像分裂技术虽然在短时间内(断开镜像对所需的时间)就可以得到一个完整的物理副本,但其缺乏灵活性,需要预先为源数据卷创建镜像卷,无法在任意时间点为任意的数据卷创建快照,并且其占用大量的存储资源,会造成存储空间的浪费。

  1.1.2 按需复制快照技术[12-14]按需复制技术在快照时间点之后开始建立源数据卷的完整物理副本。系统接收到快照请求,暂停上层应用,接着为源数据卷创建快照卷,并为其分配大于或等于源数据卷容量的存储空间,同时建立一个控制位图,该控制位图的每一个控制位表示源数据卷的一个单位(通常为数据块)是否已经复制到快照卷,快照操作完成,恢复上层应用。快照建立之后,后台复制程序开始运行,将源数据卷的数据块复制到快照卷,并将对应的控制位图位置1,表示该数据块完成复制。在此过程中,当源数据卷上某数据要被更新时,若该数据块尚未完成复制,则这些块将执行写前复制COW(首先被复制到快照卷,同时将对应的控制位图置1,然后才能更新源数据卷的数据);若该块已完成复制,则直接更新数据。按需复制快照技术的工作原理如图2所示: 图2 按需复制快照技术工作原理写前复制技术确保复制操作发生在更新操作之前,使快照时间点之后的数据更新不会出现在快照卷上,保证了数据的完整性。通过后台复制和写前复制技术,最终源数据卷的数据会被复制到快照卷,得到源数据卷的完整物理副本。

  1.1.3 指针重映射技术[12-14]指针重映射技术建立一份快照时刻源数据卷的逻辑副本,不会产生完整的物理副本。该技术只需分配少量的快照空间,存储快照时间点之后被更新的数据,每个源数据卷都有一个数据指针表,该指针表中记录的`数量等于源数据卷的数据块数量,每条记录保存着指向对应数据块的指针。快照创建时,为源数据卷的指针表建立一个副本,作为快照卷的数据指针表,快照时间点结束时,快照卷和源数据卷通过各自的指针表共享同一份物理数据。 图3 指针重映射技术工作原理快照创建之后,当源数据卷中的某数据将要被更新时,使用写前复制技术,将要更新的数据写至预先分配的存储空间,然后修改快照卷的数据指针表使其指向该存储空间的数据块。指针重映射技术工作原理如图3所示:指针重映射技术的备份窗口只需几秒钟,为快照卷分配的存储空间却大大减小。

  但因为快照卷仅仅保存了源数据卷中被更新的数据,快照技术无法得到完整的物理副本,且若更新的数据数量超过预先分配的存储空间,快照将失效。

  1.1.4 增量快照技术增量快照是基于按需复制的快照技术,因此能够产生各个连续时间点的完整物理副本,同时结合重映射技术只复制更改数据块的思想,减少了数据的物理复制工作量。在第一个快照时间点,除了分配一个大于或等于源数据容量的快照卷并建立控制位图之外,同时还建立一个增量位图,增量位图用于记录自上次时间点的快照创建之后,源数据卷上被更新的数据块的位置。通过查询控制位图,执行后台复制和写时复制,同时利用增量位图记录快照时间点之后源数据卷上被更新的数据块位置。当需要创建B时间点的快照时,用前一快照时间点的控制位图与此时的增量位图进行XOR操作,产生快照时间点B的控制位图,同时将增量位图置0,开始记录时间点B之后被更新的数据块,其工作原理如图4所示: 图4 增量快照工作原理快照时间点A时一部分数据已经拷贝至快照卷,同时增量位图记录了自快照时间点A后源数据卷被修改的数据块,当创建时间点B的快照时,可以通过查看增量位图,然后与A的控制位图XOR,即得B处的控制位图,即B时间点需要存储的数据,同时增量位图置0,记录时间点B后被更新的数据块。

  1.1.5 快照技术总结如表1所示,镜像分裂技术虽然备份窗口仅为断开镜像对的时间,但每次需要完全复制数据,浪费存储空间,且缺乏灵活性。按需复制技术虽然可得到完整的数据副本,但空间开销大并且后台复制影响系统性能。指针重映射技术虽然只复制被更新的数据块,但无法得到完整的物理副本。增量快照技术可以实现连续时间点的快照,并且在快照时间点只需要复制更改的数据块,从时间和空间的角度综合考虑,明显优于其他快照技术。然而,在分布式文件系统中,增量快照的空间开销随着系统规模的增大,仍然会比较大,因此需要进一步改进,以节约空间开销,提高系统可扩展性。表1 快照技术总结

  1.2 快照恢复快照恢复与快照创建具有一一对应关系,对主流在分布式文件系统中,随着数据量的增大和快照版本的增多,需要恢复的数据块数也急剧增多,因此,递进式地恢复特定时间点快照所需要的时间也会相应增多。为了提高数据失效时快照的恢复效率,对增量快照恢复方法的研究也是十分必要的。

  2 基于数据压缩的增量快照技术

  2.1 增量快照的空间开销问题数据快照的创建主要包括两方面:第一,决定需要备份的数据块;第二,将需备份的数据块快速写入快照空间。其中决定需要备份的数据块有两种情况,全部备份或者部分备份,目前的数据总量急剧增长,如果全部备份,所需的快照空间将随数据总量的增加急剧增加,因此我们采取部分备份,即只备份更新的数据块。传统的创建数据快照的技术镜像分裂、按需备份、指针重映射和增量备份技术中,在空间和时间方面,增量备份有相对低的开销,并且可以创建连续时间点的快照。

  2.2 基于数据压缩的增量快照技术随着系统规模的增大,被更新的数据块逐渐增多,快照所占的存储空间仍然比较大,因此需要对增量快照作进一步的改进,使其在大规模的分布式文件系统中具有较小的空间开销和较高的可扩展性。压缩技术是按照一定的算法对数据进行重新组织,以减少数据的冗余性和存储空间开销,因此本文将增量快照和压缩技术相结合,实现了基于数据压缩的增量快照技术,即在将需要备份的数据块复制于快照空间之前,首先将这些数据块进行一定的压缩,然后再将其存入快照空间。本文拟采用Huffman压缩算法[16-17],并对其做进一步改进,Huffman压缩算法的流程如图6:图6 Huffman压缩算法Huffman压缩算法首次遍历数据块,分别统计每个字符出现的次数,按字符出现次数进行降序排序并构造二叉树,出现次数较多的数据在树的最顶层,较少的数据在树的最底层,然后从根节点到每个数据的路径来对其进行相应的编码得到编码位,最后用编码位替换原数据块中的字符,即可得到压缩后的数据。但是,源数据块中可能存在多个连续的相同字符,如果用编码位将相同的字符都进行替换,会出现一定程度的空间浪费,可以考虑将连续出现的相同的字符只替换一次,然后增加标志位,用于记录该字符连续出现的次数,以此节约更多的存储空间。

  2.3 基于数据压缩的增量快照开销分析因为增量快照只是复制更改的数据块,当数据块较大时,每次虽然只更新了数据块中的小部分数据,仍然需要将整个数据块复制至快照空间,造成存储空间的浪费。而当数据块较小时,若更改的数据较多,则每次需要复制多个数据块,导致快照创建和恢复的操作复杂。因此,数据块大小的选择也是一个比较关键的问题,还需要做更多的测试来比较验证,以选择合适的大小

  3 恢复链路缩减技术

  3.1 快照恢复的开销问题在采用增量快照的基础上进行研究,增量快照在首次创建快照时完全备份,之后仅备份自上次快照时间点之后更改的数据块。因此,当恢复指定时间点的快照时,需采用递进式的恢复方法,当快照版本增多时,恢复快照的开销也会相应的增大,因此,需要在原有快照恢复方法的基础上作进一步的改进,以控制快照的恢复开销。

  3.2 恢复链路缩减算法针对上述问题,本文在已有的基于增量快照的快照恢复方法基础上,提出了恢复链路缩减的快照恢复技术,即在从特定时间点至首次快照时间点之间的快照链路上,将对同一数据块的多次递进式恢复缩减为一次。在首次创建快照时,同时建立一个日志文件,该文件包括快照创建时间、需备份的数据块地址和该数据块在快照空间的地址三个字段

  4 总结语

  在大数据时代,保证数据的安全性和完整性具有重要意义,因此,越来越多的存储系统采用快照技术来保证数据的安全性。然而在分布式文件系统中,快照创建的空间开销随着系统数据量的增大急剧增大。并且随着快照数量的增多,存储快照所占用的空间和系统失效时恢复快照的开销也会增大,从而严重影响分布式文件系统的性能和可扩展性。

【面向分布式文件系统的可扩展数据快照科技论文】相关文章:

基于知识网格的分布式数据挖掘论文04-25

论面向对象的数据库技术论文06-26

基于可扩展的网页关键信息抽取研究论文04-14

可扩展集成化云平台监控机制的设计论文04-20

浅析基于云计算的分布式数据挖掘系统设计与实现论文04-20

AT24C512中数据的文件系统化管理论文07-01

基于Java RMI的分布式数据库系统的应用与研究的论文04-14

分析科技人才数据库建设的现状论文11-04

分布式电源系统设计论文04-19