我们常见的容灾备份系统可以分为两部分进行理解:一是数据备份,这个可以简单理解成灾难备份的基础部分,即先保留好数据,保证它不会丢失。目前国内大部分企业都有自己的数据备份需求,要求有容灾需要的,要做异地备份,可以将存储设备转移到不在同一地震带上的数据中心;二是业务恢复,即业务的连续性的保障。因为如果业务系统无法使用,即使数据没有丢,也依然是处于不可用的状态,因此对企业而言,不仅要保证数据丢,也要保证业务不停。整个容灾备份过程中,最关键的衡量指标有两个:一个是 RTO,另一个是 RPO。
RTO和RPO是企业系统数据恢复方面的重要参考指标。在大数据时代,企业对业务的连续性有严苛的要求,但有些天灾人祸和人为故障难以避免,一旦发生意外就需要开启灾备机制,保障系统的连续性,RTO和RPO可以很好地反映出企业系统的容灾性能如何。这两个参数是运维过程中,一定要重点关注的指标。这两个指标值得高低,直接反映了当前系统数据在灾难恢复方面的能力。
RTO(Recovery Time Objective,RTO)恢复时间目标,指在故障或灾难发生之后,一台电脑、系统、网络或应用停止工作的最高可承受时间。该参数定义了最大可容忍时限,必须在此时限内恢复数据。如果说系统需要在灾难发生的12个小时内恢复,那么RTO数值就是12小时。RTO具体时间长短只是从故障发生后,从系统宕机导致业务中断的那一刻开始,到系统恢复至可以支持各业务正常运作之时,这两个节点之间的时间段。RTO是反映系统业务恢复的及时性指标,表示业务从中断到恢复正常所需的时间,RTO数值越小,代表容灾系统的数据恢复能力越强。RTO=0就意味着在任何情况下都不允许目标业务有任何运营停顿。
RPO(Recovery Point Object)恢复点目标,指一个过去的时间点,当灾难或紧急事件发生时,数据可以恢复到的时间点,是业务系统所能容忍的数据丢失量。例如每天00:00进行数据备份,那么如果今天发生了宕机事件,数据可以恢复到的时间点(RPO)就是今天的00:00,如果凌晨3点发生灾难或宕机事件,损失的数据就是三个小时,如果23:59发生灾难,那么损失的数据就是约24小时,所以该用户的RPO就是24小时,即用户最大的数据损失量是24小时。所以RPO指的是用户允许损失的最大数据量。这和数据备份的频率有关,为了改进RPO,必然要增加数据备份的频率才行。RPO指标主要反映了业务连续性管理体系下备用数据的有效性,即RPO取值越小,表示系统对数据完整性的保证能力越强。
RTO和RPO指标并不是孤立的,而是从不同角度来反映数据中心的容灾能力。
那么对灾难恢复而言, RTO 与 RPO 哪个衡量指标更合适呢?
在考虑采用哪个指标之前,IT 人首先要弄清楚一个基本概念,企业的容灾系统预防的是什么灾害,这个灾害的基本情况如何,是多少年一遇的,对于这种灾害企业的能够承受的损失是多少,需要算出一个大概的成本,当然不一定很精确。其次,无论企业容灾系统是采用冷备、热备、温备、还是磁盘备份,几分钟恢复业务和几天恢复业务效果是完全不一样的。企业需要明确对恢复时间的容忍底限是多少。再从灾备本身的意义来讲,无论采用哪种衡量指标,最终目的是要能够很好地检验灾备系统的实用性能,否则就失去建立灾备的意义了。而灾备最核心的作用就是确保灾难发生后业务能够连续运行,交易中的数据完整保存,丢失越少越好。因此业务层面的恢复,企业要有一个底限。参考世界范围内一系列灾难恢复经验,国家之间的差别非常大。比如在美国,政府是第一位的,警察局对数据的恢复要求特别高。而在中国,无论什么性质,金融机构是排在第一位的。
因此,企业选购的灾备最佳方案必需在RTO,RPO,维护及价钱多方面,都能达致平衡。尤其是中小企业,在资源紧拙的情况,应先好好了解对RTO及RPO的要求,然后再看看价钱,那就比较容易找到适合企业的方案了。