团队介绍
我们是光大科技有限公司智能云计算部云计算团队集团云项目组,致力于光大集团IaaS平台建设与维护工作,面向集团本部及子公司提供弹性、可扩展的IaaS平台服务。我团队在云计算、虚拟化、存储领域拥有多名经验丰富的技术专家,将不定期与大家分享原创技术文章和相关实践经验,期待与大家共同探讨和进步。
数据备份必不可少
1
什么是数据备份
SNIA(存储网络工业协会)对数据备份的定义:一组存储在非易失性的(通常是可移动的)存储介质上的数据集合,它用于当原始数据丢失或不可用时能够及时恢复,数据备份也称为备份拷贝。
数据备份的根本目的是灾难恢复,归根到底就是解决数据不丢失的问题。
2
为什么要备份
数据是企业的重要资产,关键数据的丢失可能会给企业致命一击。比如在911事件中,Bank NewYork在数月后因数据的丢失被迫破产清盘。
现代企业数据中心承载的数据资源一般包括:
? 资产信息
? 市场信息
? 客户信息
? 企业业务资源
? 核心技术资源
数据往往是一切业务系统的基础,一旦发生丢失,通常会给企业带来较大损失。在上述案例中纽约银行破产清盘,有的企业甚至倒闭后还面临巨额罚款、赔偿及法律制裁。
备份是用来恢复出错系统或防止数据丢失最常用的一种方法,是数据安全的最后一道防线。
你永远不知道灾难何时会到来。
1 数据面临的风险
数据丢失将给企业带来巨大的经济损失
1)计划外宕机平均每分钟造成的经济损失高达5600美元。
1 计划外宕机每小时造成的经济损失
2) 诸多容易被忽视的损失
数据丢失导致的其他诸如丢失客户信心、损害品牌形象、降低工作效率及延迟产品交付等损失也是普遍存在的,企业应予以重视。
3
常见备份内容
常见备份数据有文件备份、数据库备份、虚拟化平台虚拟机整机备份以及大数据平台文件级别备份等。
4
备份的关键指标
备份窗口(Backup Windows):指完成一次给定备份所需的时间。
RTO(Recovery Time Objective):恢复时间目标,指灾难发生后,从I/T系统停机导致业务停顿开始,到IT系统恢复可以支持业务恢复运营之时,所需要的时间。这不仅要考虑数据的恢复时间,还应该考虑恢复后数据的完整性、一致性的修复和确认、备份中心计算机处理系统的启动和备份中心的网络切换等全部时间。
RPO(Recovery Point Objective):恢复点目标,指发生意外灾难事件时可能丢失的数据量。该指标表示能够恢复至某个可以支持业务运作的状态点,即系统及数据恢复到怎样的更新程度——可以是上一周的备份数据,也可以是上一次交易的实时数据等。
5
备份类型
SNIA(存储网络工业协会)对数据备份的定义:一组存储在非易失性的(通常是可移动的)存储介质上的数据集合,它用于当原始数据丢失或不可用时能够及时恢复,数据备份也称为备份拷贝。
备份类型 |
描述 |
特点 |
完全备份 |
将所有选定的数据源备份到指定存储中。 |
·最常见的备份类型。备份完整数据,恢复方便。 ·备份耗时久,且反复备份,占用存储空间较多。 |
增量备份 |
只备份自上一次备份(完全备份或增量备份)后新增或变化的数据。 |
·备份数据量小,备份速度快。 ·相对而言,所需恢复时间比完全备份或差异备份所需时间长。 |
差异备份 |
执行差异备份时,仅备份自上次完全备份后新增或变化的数据。 |
·备份数据量小,备份速度比完全备份快。 ·相对而言,恢复数据所耗费的时间比完全备份时间长。如果大量数据发生变化,差异备份所耗费的时间比增量备份时间长。 |
此外,对于数据库类型的数据备份,还有事务日志备份。事务日志备份是指对数据库中的事务日志进行备份。事务日志是数据库中已发生的所有修改和执行每次修改的事务的一连串记录。使用事务日志备份,可将数据恢复到精确的故障点。
6
备份策略
SNIA对备份策略的定义为,一种IT安装规则,决定备份执行的时间和方式。备份策略指定了备份的信息,例如需要备份的文件或者目录名、备份执行的时间、可以接收备份的设备和介质、进行备份的份数,以及备份操作失败时的处理等。
1 备份策略举例
在实际工作的备份策略制定过程中,可以遵循以下原则。
1) 策略需要结合用户对RPO/RTO的需求及用户实际环境制定。
2) 若数据量小,备份策略可设置更频繁,数据量大,可灵活设计完全、增量、差异的组合策略。
3) 备份时间一般设置在业务空闲期,以免影响业务运行。
4) 对每台服务器的备份,应避免在同一时刻进行。
5) 策略需要根据用户数据量的增长定期调整。
7
备份架构
网络备份,又叫LAN备份,是目前最主流的备份架构之一。通常,带有备份设备的备份服务器被放置在网络中。备份服务器负责整个系统的备份,它管理整个网络的备份策略、备份媒体和备份目标,所有备份数据通过LAN网络传输至备份服务器挂载的存储介质中。
优点
? 技术成熟,适用场景丰富,满足各种物理架构设计,只要网络通畅即可正常备份。
? 可实现大容量自动化、集中式备份。
? 可以对网络环境中不同的备份数据执行不同的备份策略。
缺点
? 运行备份将占用网络带宽,导致系统带宽被占用,可能造成备份过程中网络超负荷。
? 运行备份将占用主机的CPU、内存等计算资源。
SAN备份,备份数据流通过SAN网络传输到备份介质中,不占用LAN网络带宽,因此也叫LAN-Free备份。
优点
? 不占用LAN网络带宽,解放LAN网络上的备份流量。
? 降低备份服务器负担。
? 基于SAN网络传输数据的备份速度有较大提高。
缺点
? 对物理架构有一定要求,需要备份存储介质和数据源存储设备处于同一SAN网络中,应用场景有限。
? 依旧会消耗服务器的CPU和内存资源。
Server-Less备份是备份技术中最近的技术,它可以在LAN-Free备份的基础上节省有价值的服务器资源(CPU、内存等)。一些Server-Less备份设备放在服务器和存储子系统之间,这些设备负责备份数据的全部责任,它从存储阵列向磁带设备直接发送数据。
优点
? 备份不影响业务。
? 极大的减轻服务器负担。
缺点
? 对物理架构有一定要求,应用场景有限。
? 仅监控磁盘数据,无法备份内存中未落盘的数据,不能保证应用级数据一致性,备份兼容性有限。
? 技术待成熟,应用的项目较少。
做好灾难恢复
既然进行数据备份就必须要有对应的灾难恢复,当灾难发生时可以完整正确地恢复数据才是数据备份的必要性所在,灾难恢复是数据备份的根本目的。灾难恢复一般有以下几种情况。
最简单的最容易想到的方法,当数据丢失或损坏时把备份数据恢复到生产系统。这样做的优势在于成本较低,操作简单,兼容性广。劣势在于数据量较大时传输会特别耗时,占用网络带宽,拥有较高的RTO。
不必回迁数据,直接让生产服务器访问备份数据,后续逐步将备份数据迁回生产环境。此种情况没有数据传输过程,通过原生产服务器即可直接使用数据,大大降低RTO。劣势在于对企业IT环境和设备要求较高,成本相对较高。
灾难发生时直接使用灾备环境进行业务接管,即容灾级别的灾难恢复。优势是容忍原生产环境整体损坏,可达到分钟级RTO。但对企业IT环境要求高,建设成本最高。
1
灾难恢复七要素
在进行灾难恢复建设的过程中,需要综合考虑备用基础设施、数据备份系统和备用数据处理系统等要素,具体如下表所述。
序号 |
要素 |
考虑要点 |
1 |
备用基础设施 |
·灾难备份中心选址与建设 ·备用的机房及工作辅助设施和生活设施 |
2 |
数据备份系统 |
·数据备份范围与RPO ·数据备份技术 ·数据备份线路 |
3 |
备用数据处理系统 |
·数据处理能力,与生产系统的兼容性要求 ·平时的状态(处于就绪还是运行) |
4 |
备用网络系统 |
·备用网络通信设备系统 ·备用通信线路的选择 ·备用通信线路的使用状况 |
5 |
灾难恢复预案 |
·整体要求 ·制订过程的要求 ·教育、培训和演练要求 ·管理要求 |
6 |
运行维护管理能力 |
·运行维护管理组织架构 ·人员的数量和素质 ·运行维护管理制度 ·其他要求 |
7 |
技术支持能力 |
·软件、硬件和网络等方面的技术支持要求 ·技术支持的组织架构 ·各类技术支持人员的数量和素质等 |
2
灾难恢复等级
国标《信息系统灾难恢复规范》(GB/T 20988-2007)将灾难恢复能力根据机房硬件设施、专业人员、相关制度、RPO和RTO分为6个等级。
灾难恢复能力等级 |
RPO |
RTO |
相关要求 |
1 |
2天以上 |
1天至7天 |
备份 |
2 |
24小时以上 |
1天至7天 |
本地+异地备份 |
3 |
12小时以上 |
数小时至1天 |
电子传输和部分设备支持 |
4 |
数小时至2天 |
数小时至1天 |
电子传输和完整设备支持 |
5 |
数分钟至2天 |
0-30分钟 |
实时数据传输及完整设备支持 |
6 |
数分钟 |
0 |
数据0丢失及远程集群支持 |
越高的等级要求的灾备建设成本越高,根据不同业务系统和数据灾备需求合理选择灾难恢复等级建设。一般金融机构等重要信息系统的大多业务和数据被要求灾难恢复能力达到5级以上。
备份和容灾
在第1章第1小节中我们了解到数据备份是用于当原始数据丢失或不可用时能够做到及时恢复,根本目的是用于灾难恢复。容灾(Disaster Tolerance)的定义是在自然灾害或人为灾难等风险(详见第1章第2小节)发生时,在保证生产系统的数据尽量少丢失的情况下,保持生产系统的业务不间断地运行。根本目的是要保证业务的连续性。
可以看出,容灾和灾难恢复是不同的,容灾强调的是在灾难发生时,保证业务系统持续不间断地运行的能力,而灾难恢复强调的是灾难之后系统的恢复能力。
1
备份和容灾的目的不同
备份是将在线数据转移成离线数据的过程,建设备份系统的目的在于应付数据中的逻辑错误和进行历史数据的保存,用于灾难恢复。
而容灾系统的目的在于保证系统数据和服务的连续性,即当系统发生故障时,仍然能够正常地向网络系统提供数据和服务,使系统不致停顿。
2
备份和容灾不可互相替代
备份系统可以满足数据丢失或数据破坏时的数据恢复的目的,但还不能提供实时地业务接管功能。因此容灾系统的建设也至关重要,尤其是对于某些关键业务,备份系统的建设不可替代容灾系统的建设。
容灾系统会完整地把数据源端的任何变化复制到容灾端去,但这也会带来预期之外的问题,如数据源端的某些数据被意外删除,则容灾端的对应信息也会被完全删除。无论是同步容灾还是异步容灾都将面临数据丢失的风险。此时就需要从备份系统中取出所需的备份,来恢复被误删的数据。因此容灾系统的建设也不能替代备份系统的建设。
总结
总之,对于企业而言备份和容灾系统的建设至关重要,会直接影响到一个企业的长足发展。至于到底应该如何建设自己的灾备系统,是只建设备份系统或只建设容灾系统,还是二者同时或分步骤地建设等问题,还要根据业务的需求而定,根据具体的RTP和RPO期望值进行适合企业要求的备份和容灾系统建设。
往期回顾
· Servlet Filter中的责任链模式
· 什么是持续集成
· 浅谈虚拟私有云
· Sentinel规则持久化到Nacos
★
欢迎关注EBCloud!
★
? 作者|李许飞 ?
原创文章,作者:EBCloud,如若转载,请注明出处:https://www.sudun.com/ask/32921.html