1、背景
随着企业业务数据的激增,传统备份方式下,要保存生产数据的多个副本拷贝,导致备份容量会越来越大,造成对备份系统管理困难和成本上升。
然而,备份系统中存在的多个生产数据副本之间,存在着大量的冗余重复数据。因此,对于备份系统,重删技术的应用可以很好的消除冗余数据,极大节省备份空间,从而降低采购和运维成本。
2、华为OceanStor VTL6900重删方案
华为集中备份解决方案采用OceanStor VTL6900作为备份设备, VTL6900通过FC SAN或者IP SAN连接备份服务器,应用组网如图1所示。
图1 VTL集中备份方案
华为 OceanStor VTL6900虚拟带库是业界唯一的集群重删备份系统,同时支持Post processing和Inline的重复数据删除技术,其重删引擎为SIR(Single Instance ReposITory)。
2.1Post processing重复数据删除方案
VTL6900所支持的Post processing重复数据删除技术,其数据比较方法为索引比较方法。
Post processing重复数据删除技术原理
图1 VTL集中备份方案
在Post processing重复数据删除模式中,VTL6900软件包含两个模块:VTL模块和SIR模块。VTL6900的存储空间逻辑上被划分为两部分,分别为VTL模块和SIR模块所用,称之为VTL存储空间(又称为Cache)和SIR存储空间(又称为Repository)。VTL6900接收到备份数据后,首先将其存放于VTL存储空间,此后的某个时刻(如某时间点、备份结束、达到存储水位等),SIR模块会读取这些数据,并将其和SIR存储空间中的已有不同数据块进行比较:SIR模块将原始备份数据划分为大小为若干KB的数据块,然后使用SHA-1算法为每个数据块计算出一个哈希值(又称为索引/Index),通过比较新数据块和已有数据块的哈希值以确定新数据块是否重复,重复的数据块将被丢弃,而仅保留其数据块指针,全新的数据块才会被存放到SIR存储空间。
2.2Inline重复数据删除方案
VTL6900所支持的Inline重复数据删除技术,其数据比较方法也为索引比较方法。数据重复数据删除执行过程,如图2所示。
Inline重复数据删除技术原理
图2 VTL集中备份方案
在Inline重复数据删除模式中,VTL6900软件包含两个模块:VTL模块和SIR模块。VTL6900在接收到备份数据时,Inline Parser会同步将内存中的原始备份数据划分为大小为若干KB的数据块,然后使用SHA-1算法为每个数据块计算出一个哈希值(又称为索引/Index)。同时,SIR模块会在内存中同步的比较新数据块和已有数据块的哈希值以确定新数据块是否重复,重复的数据块将被丢弃,而仅保留其数据块指针,全新的数据块才会被存放到SIR存储空间。
3、华为OceanStor VTL6900系统亮点
√ 高性能:满足用户对备份窗口的需求。单VTL引擎配置时,VTL6900备份性能可达9TB/hr,8小时内可支持备份63TB数据;双引擎配置时,VTL6900实测备份性能高达31TB/hr,8小时内可支持备份239TB数据。对于一次备份数据量不超过239TB的用户,VTL6900可以很好地满足其对备份窗口的要求.
√ 大容量:满足用户对存储容量的需求。双VTL引擎配置时,VTL6900最大支持1728TB裸容量(可用容量为1230TB),提供重复数据删除功能时,VTL6900最大可提供220TB存储容量用于存放重复数据删除后的数据,以20:1重复数据删除比计算,VTL6900可存放4PB备份数据,满足中高端用户对备份容量的需求。
√ 重复数据删除:极大节约系统能耗和存储投资。VTL6900支持重复数据删除和磁盘休眠,可显著减少备份系统需要配置的磁盘存储,极大节省系统能耗和存储投资。
√ 集群架构:满足用户高可用需求。双VTL引擎HA集群配置下,VTL6900的两个VTL引擎一般都独立工作,当任何一个VTL引擎出现故障导致其无法支持备份业务时,另一个引擎将自动接管该故障引擎,VTL6900又恢复正常工作,满足用户对备份系统的高可用需求。3个(2+1)SIR引擎HA集群配置下,当VTL6900任何一个SIR引擎出现故障导致其无法支持重复数据删除业务时,Standby SIR引擎将自动接管该故障引擎,VTL6900又恢复正常工作,满足用户对备份系统的高可用需求。
4、VTL6900重删备份系统给客户带来的价值
基于重复数据删除的远程复制,显著降低用户网络带宽需求,节约网络带宽投资。各个站点的备份数据首先在本地VTL中完成重复数据删除后,再通过WAN复制到数据中心VTL,复制过程中仅传输重复数据删除后,且在数据中心不存在的那些数据块,相比直接传输未经重复数据删除的备份数据,此举可大幅节约复制带宽,显著降低用户网络带宽需求,节约网络带宽投资。
全局重复数据删除,进一步降低用户存储投资。VTL6900支持全局重复数据删除功能,即复制过程中仅传输重复数据删除后的、在数据中心不存在的那些数据块,因此各个分支节点VTL之间的,以及各个分支节点VTL和数据中心VTL之间的重复数据均可得到消除,全局重复数据删除的重复数据消除效率更高,进一步降低用户存储投资。