Disaster recovery: o que é, RTO, RPO e como montar o plano

Q: Qual a diferença entre disaster recovery e backup?

Backup é a cópia recuperável dos dados, gerada periodicamente e armazenada em local separado do ambiente primário. Disaster recovery é o conjunto mais amplo de processos, infraestrutura e procedimentos que usa esses backups (e outros recursos, como sites secundários e replicação) para restabelecer sistemas inteiros após um desastre. Em outras palavras, backup é insumo; disaster recovery é a operação de recuperação. Ter backup sem plano de DR significa ter dados, mas não conseguir reativar serviços a tempo. Ter plano de DR sem backup é impossível, porque não há ponto de partida para a restauração.

Q: Qual a diferença entre disaster recovery e continuidade de negócios?

Disaster recovery foca na recuperação da infraestrutura de TI, enquanto continuidade de negócios (BCP) é mais ampla e cobre processos, pessoas, fornecedores, comunicação e a TI como um de seus componentes. O DRP é, na prática, um capítulo do BCP dedicado à camada técnica. Em uma crise, o BCP define como a empresa continua operando (atendimento alternativo, comunicação com clientes, escalonamento de pessoal), enquanto o DRP define como a TI volta ao ar. Os dois precisam estar alinhados para que a recuperação técnica chegue antes que a continuidade do negócio se esgote.

Q: O que são RTO e RPO?

RTO (Recovery Time Objective) é o tempo máximo que um sistema pode ficar indisponível antes que a parada cause impacto inaceitável ao negócio. Mede para a frente, a partir do momento do desastre. RPO (Recovery Point Objective) é a quantidade máxima de dados que o negócio aceita perder, medida em tempo, do desastre até o último ponto de recuperação válido. Sistemas críticos exigem RTO e RPO baixos (minutos ou segundos), o que demanda estratégias caras como warm standby ou multi-site active/active. Sistemas tolerantes aceitam valores em horas e podem operar com backup-and-restore. A definição parte de uma análise de impacto no negócio (BIA).

Q: O que é DRaaS (disaster recovery as a service)?

DRaaS é o modelo em que um provedor especializado opera a infraestrutura de disaster recovery como serviço gerenciado. O cliente assina o contrato e o provedor mantém o ambiente secundário, executa a replicação contínua e orquestra o failover quando acionado. O modelo costuma ser atrativo quando a empresa não tem expertise interna para arquitetar DR avançado, quando o custo de operar um segundo site não se justifica, ou quando há preferência por trocar capex por opex mensal. As principais trade-offs incluem dependência do provedor, complexidade contratual sobre RTO/RPO comprometidos e a necessidade de testes regulares para validar a entrega real do serviço.

junho 9, 2020 Pedro Tebaldi

Um servidor que para no meio de uma operação de fechamento contábil. Um ataque de ransomware que cifra o storage primário às três da manhã. Uma região de cloud que sai do ar por falha de energia regional. Cada um desses cenários custa horas, dinheiro e reputação — e cada um deveria estar previsto em um plano de disaster recovery.

Disaster recovery é a disciplina que organiza a TI para sobreviver a esses momentos. Não se trata apenas de ter backup, embora o backup seja parte. Trata-se de definir, com antecedência, quanto tempo a operação aguenta ficar parada, quanto dado pode ser perdido, e quais procedimentos a equipe vai executar quando o pior acontecer.

Neste guia, vamos cobrir o que é disaster recovery, como ele se relaciona com backup, continuidade de negócios e alta disponibilidade, o que são RTO e RPO, quais estratégias técnicas existem hoje, e o passo a passo para construir e testar um plano que funcione na prática.

O que é disaster recovery (DR)?

Disaster recovery é o conjunto de políticas, ferramentas e procedimentos que garantem a recuperação da infraestrutura de TI e dos dados críticos após um evento disruptivo. Em outras palavras, é o que mantém o negócio funcionando depois de uma falha grave de hardware, um ataque cibernético, um erro humano sério ou um desastre natural.

O artefato central da disciplina é o disaster recovery plan (DRP). Trata-se de um documento operacional que descreve, em detalhe, as ações para retomar serviços críticos: quem aciona o quê, em qual ordem, com quais ferramentas, e dentro de quais janelas de tempo aceitáveis.

Um bom DRP combina três camadas. Antes de tudo, prevenção — reduzir a probabilidade do evento. Em seguida, antecipação — preparar recursos espelhados e procedimentos. Por fim, mitigação — agir rápido quando o evento ocorre, restabelecendo serviços com perda mínima.

Disaster recovery vs. backup, continuidade de negócios e alta disponibilidade

Quatro conceitos costumam ser confundidos no dia a dia da TI. Cada um resolve um problema diferente, e o plano completo de resiliência precisa de todos. A tabela abaixo separa o foco principal de cada um.

Dimensão	Backup	Disaster recovery	BCP	Alta disponibilidade
Foco	Cópias dos dados	Restabelecer a TI	Manter o negócio	Evitar a parada
Quando atua	Antes do evento	Após o evento	Antes, durante e após	Continuamente
Métrica-chave	Janela e retenção	`RTO` e `RPO`	Continuidade operacional	`SLA` de uptime
Escopo	Dados	Sistemas e infra de TI	Pessoas, processos e TI	Arquitetura redundante

Em resumo, backup é uma cópia recuperável de dados e funciona como insumo do plano. O disaster recovery é o procedimento que usa esses backups (e outros recursos) para restabelecer sistemas. O business continuity plan (BCP) é mais amplo: cobre processos, comunicação, pessoas e fornecedores, com a TI como uma de suas peças. Já a alta disponibilidade busca evitar que a parada aconteça, com redundância arquitetural e failover automático.

Tipos de desastre que justificam um plano de disaster recovery

Nem todo incidente é um desastre, mas certos eventos disparam o DRP. Mapear esses cenários antecipa decisões e reduz o tempo de reação no momento da crise.

Os principais grupos de gatilhos incluem desastres naturais (enchentes, incêndios, terremotos), falhas de infraestrutura (perda de energia regional, queda de provedor cloud, falha de hardware crítico), ataques cibernéticos como ransomware, sequestro de credenciais e DDoS, erros humanos com impacto sistêmico (drop em produção, deploy quebrado em larga escala, exclusão acidental de bucket) e falhas de fornecedores estratégicos.

Cada tipo de evento exige uma combinação diferente de recursos. Um ataque de ransomware demanda restauração a partir de backups imutáveis. Já uma queda de região cloud exige replicação multi-região. Por isso, o plano deve mapear os cenários antes de definir as estratégias.

RTO e RPO: as duas métricas que definem o plano

Toda decisão técnica de disaster recovery passa por duas métricas. RTO e RPO traduzem expectativa de negócio em parâmetros de engenharia mensuráveis.

O que é RTO (Recovery Time Objective)

RTO é o tempo máximo que um sistema pode ficar indisponível antes de causar impacto inaceitável ao negócio. Mede para a frente, a partir do momento do desastre. Um e-commerce de varejo costuma trabalhar com RTO < 1 hora em horário de pico. Já um sistema interno de RH pode aceitar RTO de 24 horas.

O que é RPO (Recovery Point Objective)

RPO é a quantidade máxima de dados que o negócio aceita perder, medida em tempo. Olha para trás: do momento do desastre até o último ponto de recuperação válido. Um banco com transações financeiras opera com RPO próximo de zero, exigindo replicação síncrona. Sistemas de relatórios analíticos toleram RPO de horas com snapshots periódicos.

Como definir os valores na prática

A definição parte de uma análise de impacto no negócio (BIA). Para cada sistema, levante o custo financeiro por hora parado, o impacto regulatório de perda de dados, a dependência de outras áreas e o impacto reputacional. Em seguida, traduza esses números em RTO e RPO específicos por aplicação. Quanto mais crítica, menores os valores — e mais cara a estratégia.

Estratégias de disaster recovery, do backup-and-restore ao multi-site active/active

Existem quatro grandes estratégias para implementar disaster recovery em infraestrutura moderna. Elas formam uma escala progressiva: quanto menor o RTO/RPO, maior o custo de manter recursos espelhados. Por isso, a escolha sempre balanceia criticidade vs. orçamento.

Estratégia	RTO típico	RPO típico	Custo relativo
Backup & Restore Básico	Horas a 24h	Horas	Baixo
Pilot Light Intermediário	Dezenas de minutos	Minutos	Médio
Warm Standby Avançado	Minutos	Segundos a minutos	Alto
Multi-site Active/Active Premium	Segundos	Próximo de zero	Muito alto

A estratégia mais simples mantém apenas backups em segundo site (cloud ou on-premises) e exige reconstrução completa do ambiente em caso de desastre. Já a estratégia pilot light mantém o núcleo da aplicação rodando minimamente no site secundário; em caso de evento, a infra escala para suportar produção. O warm standby vai além e mantém uma réplica dimensionada (ainda que reduzida) que pode ser promovida rapidamente, enquanto o multi-site active/active distribui carga real entre dois ou mais sites simultaneamente, com failover automático orquestrado em caso de queda. Para uma referência detalhada sobre essas categorias, consulte o framework de confiabilidade publicado pela AWS.

DRaaS, quando faz sentido contratar disaster recovery as a service

Disaster recovery as a service é o modelo no qual um provedor especializado opera a infraestrutura de recuperação como serviço gerenciado. O cliente assina o serviço e o provedor mantém os ambientes secundários, executa a replicação e orquestra o failover quando acionado.

DRaaS faz sentido em três cenários típicos. Primeiro, quando a empresa não tem expertise interna para projetar e operar arquiteturas de DR avançadas. Segundo, quando o custo de manter um segundo data center não se justifica frente ao volume de cargas críticas. Terceiro, quando a equipe precisa de previsibilidade de gasto, trocando capex por opex mensal contratado.

A trade-off envolve dependência do provedor, complexidade contratual sobre RTO/RPO comprometidos e necessidade de testes regulares para validar que o serviço entrega o prometido. Vale destacar que muitos modelos de DRaaS hoje rodam sobre infraestrutura de cloud computing, com replicação cross-region e orquestração via API.

Como montar um plano de disaster recovery (passo a passo)

Um DRP útil é executável sob estresse. Para chegar nesse nível, ele precisa ser construído com método. As sete etapas a seguir cobrem o ciclo do início ao fim.

1. Inventário e mapeamento de dependências

Liste todos os sistemas, aplicações, serviços externos, bancos de dados, storages e equipamentos de rede. Em seguida, mapeie as dependências entre eles. Um sistema de pedidos depende do banco e do payment gateway; sem entender a topologia, o plano falha quando um ativo crítico não considerado fica offline.

2. Análise de impacto no negócio (BIA)

Para cada sistema, calcule custo de parada por hora, requisitos regulatórios, impacto operacional e impacto reputacional. A BIA é o que justifica gastar mais em DR para um sistema A do que para um sistema B. Sem ela, decisões de orçamento ficam reféns de opinião.

3. Definição de RTO e RPO por sistema

A partir da BIA, atribua RTO e RPO a cada aplicação. Documente os valores como contratos internos: o time de TI compromete-se a recuperar sistema X em até Y minutos com até Z minutos de perda de dados. Isso elimina ambiguidade no momento da crise.

4. Escolha das estratégias técnicas

Para cada combinação de RTO/RPO, selecione a estratégia da seção anterior. Sistemas críticos pedem warm standby ou multi-site, enquanto sistemas tolerantes podem operar com backup-and-restore. Documente as justificativas — auditoria e renovação de contrato vão pedir.

5. Procedimentos operacionais (runbooks)

Cada cenário de desastre precisa de runbook próprio: pré-requisitos, comandos exatos, ordem de execução, pontos de verificação e critério de “recuperado”. Evite runbooks genéricos demais — em produção sob pressão, ambiguidade vira erro humano.

6. Comunicação e governança

Defina o time de resposta, canais de comunicação interna e externa, gatilhos formais de declaração de desastre e quem assina cada decisão. Inclua comunicação com clientes, reguladores e imprensa quando aplicável. Como resultado, a equipe entra em modo “executar” em vez de “decidir” durante a crise.

7. Testes regulares e revisão

Plano não testado é plano que não existe. Defina calendário formal de testes, registre desvios, atualize o documento e re-treine a equipe a cada mudança relevante de arquitetura. A próxima seção entra no detalhe de tipos de teste.

Como testar o plano de disaster recovery

Existem quatro tipos principais de teste de DRP, com profundidade e frequência distintas. Combiná-los ao longo do ano dá maior cobertura sem comprometer a operação.

Tipo de teste	O que valida	Frequência sugerida
Tabletop	Discussão guiada de cenário sem mexer em sistemas. Avalia clareza de papéis e procedimentos.	Trimestral
Walkthrough	Equipe percorre o runbook passo a passo em ambiente de homologação.	Semestral
Simulado parcial	Failover real de um subconjunto de aplicações para o site secundário.	Anual
Full failover	Failover completo do ambiente produtivo para o secundário, com retorno controlado.	Anual ou bianual

Cada teste deve produzir um relatório com tempo medido (vs. RTO/RPO comprometido), desvios encontrados e ações corretivas. Ainda assim, é nos testes mais profundos que aparecem os problemas reais — chave de SSH expirada, DNS apontando para o site primário, certificado vencido no balancer secundário. Por isso, encarar o teste como aprendizado vale mais do que tratar como auditoria.

O papel do monitoramento e da observabilidade no disaster recovery

Um DRP só funciona se a equipe souber, em tempo real, que precisa acioná-lo. É aí que entra o monitoramento contínuo. Sem ele, o tempo de detecção do desastre se soma ao RTO e estoura o compromisso.

A camada de observabilidade contribui em três frentes. Primeiro, alertas que disparam em sinais precoces (uso anômalo de CPU, latência fora do baseline, queda de health checks regionais) reduzem o tempo entre o evento e o acionamento do DRP. Em seguida, dashboards de runbook permitem que a equipe acompanhe a execução do plano e detecte desvios cedo. Por fim, métricas pós-failover validam que o ambiente secundário está saudável antes da equipe declarar o ambiente recuperado.

Plataformas de monitoramento real-time integrado à operação 24×7 conseguem, inclusive, rodar verificações sintéticas no site secundário continuamente. Isso garante que, no dia do desastre, o ambiente de DR não esteja silenciosamente quebrado há semanas. Para um aprofundamento conceitual, vale consultar o guia oficial do NIST sobre planejamento de contingência.

Disaster recovery e LGPD

A Lei Geral de Proteção de Dados muda o peso jurídico do disaster recovery. Dados pessoais armazenados em backups, replicados em sites secundários ou processados em ambientes de DRaaS continuam sob a responsabilidade do controlador de dados, mesmo durante a recuperação.

Três pontos exigem atenção. Primeiro, retenção: backups com dados pessoais devem respeitar o ciclo de vida definido pelo controlador, mesmo no site secundário. Segundo, sub-operadores: provedores de DRaaS são operadores e precisam constar na cadeia formal de tratamento. Terceiro, incidentes: um ataque que dispara o DRP costuma também acionar a obrigação de notificar a ANPD em até dois dias úteis. Por isso, o plano de comunicação do DRP deve estar alinhado com o plano de resposta a incidentes do DPO.

Adicionalmente, a norma internacional ISO 22301 orienta como integrar continuidade, segurança e proteção de dados em um framework auditável.

Disponibilidade & SLA

99,9% de uptime não acontece por acidente. É resultado de engenharia.

Estruturamos arquiteturas de monitoramento proativo que elevam sua disponibilidade de forma gradativa e mensurável, com SLA garantido em contrato.

Fale com um Especialista →

Conclusão

Disaster recovery deixou de ser apólice de seguro guardada na gaveta. Hoje, com cloud, ransomware e exigências regulatórias somando pressão, o plano precisa ser vivo, testado e integrado à operação diária de TI. RTO e RPO traduzem expectativa de negócio em parâmetros de engenharia, as estratégias técnicas (do backup-and-restore ao multi-site active/active) materializam essas metas, e o monitoramento contínuo garante que a equipe saiba quando agir.

A lição prática é simples: um DRP só vale o quanto foi testado pela última vez. Inventário atualizado, BIA refeita anualmente, runbooks específicos por cenário, calendário formal de testes e pós-mortem de cada exercício são o que separa um documento decorativo de um plano operacional.

Se sua operação ainda depende de backup como única linha de defesa, ou se o último teste de failover foi há mais de doze meses, é hora de revisar. Fale com um especialista da OpServices e estruture uma camada de monitoramento e disponibilidade alinhada ao tamanho do seu risco.

Perguntas Frequentes

O que é disaster recovery?

Disaster recovery é o conjunto de políticas, ferramentas e procedimentos que permitem restabelecer a infraestrutura de TI e os dados críticos após um evento disruptivo, como falha grave de hardware, ataque cibernético, erro humano sistêmico ou desastre natural. O artefato central da disciplina é o disaster recovery plan (DRP), documento que descreve quem aciona o quê, em qual ordem, com quais ferramentas e dentro de quais janelas de tempo aceitáveis. O objetivo é retomar serviços com perda mínima de dados e o menor tempo de indisponibilidade compatível com a criticidade do negócio.

Qual a diferença entre disaster recovery e backup?

Backup é a cópia recuperável dos dados, gerada periodicamente e armazenada em local separado do ambiente primário. Disaster recovery é o conjunto mais amplo de processos, infraestrutura e procedimentos que usa esses backups (e outros recursos, como sites secundários e replicação) para restabelecer sistemas inteiros após um desastre. Em outras palavras, backup é insumo; disaster recovery é a operação de recuperação. Ter backup sem plano de DR significa ter dados, mas não conseguir reativar serviços a tempo. Ter plano de DR sem backup é impossível, porque não há ponto de partida para a restauração.

Qual a diferença entre disaster recovery e continuidade de negócios?

Disaster recovery foca na recuperação da infraestrutura de TI, enquanto continuidade de negócios (BCP) é mais ampla e cobre processos, pessoas, fornecedores, comunicação e a TI como um de seus componentes. O DRP é, na prática, um capítulo do BCP dedicado à camada técnica. Em uma crise, o BCP define como a empresa continua operando (atendimento alternativo, comunicação com clientes, escalonamento de pessoal), enquanto o DRP define como a TI volta ao ar. Os dois precisam estar alinhados para que a recuperação técnica chegue antes que a continuidade do negócio se esgote.

O que são RTO e RPO?

RTO (Recovery Time Objective) é o tempo máximo que um sistema pode ficar indisponível antes que a parada cause impacto inaceitável ao negócio. Mede para a frente, a partir do momento do desastre. RPO (Recovery Point Objective) é a quantidade máxima de dados que o negócio aceita perder, medida em tempo, do desastre até o último ponto de recuperação válido. Sistemas críticos exigem RTO e RPO baixos (minutos ou segundos), o que demanda estratégias caras como warm standby ou multi-site active/active. Sistemas tolerantes aceitam valores em horas e podem operar com backup-and-restore. A definição parte de uma análise de impacto no negócio (BIA).

O que é DRaaS (disaster recovery as a service)?

DRaaS é o modelo em que um provedor especializado opera a infraestrutura de disaster recovery como serviço gerenciado. O cliente assina o contrato e o provedor mantém o ambiente secundário, executa a replicação contínua e orquestra o failover quando acionado. O modelo costuma ser atrativo quando a empresa não tem expertise interna para arquitetar DR avançado, quando o custo de operar um segundo site não se justifica, ou quando há preferência por trocar capex por opex mensal. As principais trade-offs incluem dependência do provedor, complexidade contratual sobre RTO/RPO comprometidos e a necessidade de testes regulares para validar a entrega real do serviço.

Pedro Tebaldi

Trabalho há mais de 15 anos no mercado B2B de tecnologia e hoje atuo como Gerente de Marketing da OpServices e Líder em Projetos de Governança para Inteligência Artificial.

Disaster recovery: o que é, RTO, RPO e como montar o plano

O que é disaster recovery (DR)?

Disaster recovery vs. backup, continuidade de negócios e alta disponibilidade

Tipos de desastre que justificam um plano de disaster recovery

RTO e RPO: as duas métricas que definem o plano

O que é RTO (Recovery Time Objective)

O que é RPO (Recovery Point Objective)

Como definir os valores na prática

Estratégias de disaster recovery, do backup-and-restore ao multi-site active/active

DRaaS, quando faz sentido contratar disaster recovery as a service

Como montar um plano de disaster recovery (passo a passo)

1. Inventário e mapeamento de dependências

2. Análise de impacto no negócio (BIA)

3. Definição de RTO e RPO por sistema

4. Escolha das estratégias técnicas

5. Procedimentos operacionais (runbooks)

6. Comunicação e governança

7. Testes regulares e revisão

Como testar o plano de disaster recovery

O papel do monitoramento e da observabilidade no disaster recovery

Disaster recovery e LGPD

99,9% de uptime não acontece por acidente. É resultado de engenharia.

Conclusão

Perguntas Frequentes

Pedro Tebaldi

Deixe um comentário Cancelar resposta

Quer receber novidades e atualizações?

Soluções

Plataformas

Conteúdo

Redes Sociais

Vamos conversar?

Disaster recovery: o que é, RTO, RPO e como montar o plano

O que é disaster recovery (DR)?

Disaster recovery vs. backup, continuidade de negócios e alta disponibilidade

Tipos de desastre que justificam um plano de disaster recovery

RTO e RPO: as duas métricas que definem o plano

O que é RTO (Recovery Time Objective)

O que é RPO (Recovery Point Objective)

Como definir os valores na prática

Estratégias de disaster recovery, do backup-and-restore ao multi-site active/active

DRaaS, quando faz sentido contratar disaster recovery as a service

Como montar um plano de disaster recovery (passo a passo)

1. Inventário e mapeamento de dependências

2. Análise de impacto no negócio (BIA)

3. Definição de RTO e RPO por sistema

4. Escolha das estratégias técnicas

5. Procedimentos operacionais (runbooks)

6. Comunicação e governança

7. Testes regulares e revisão

Como testar o plano de disaster recovery

O papel do monitoramento e da observabilidade no disaster recovery

Disaster recovery e LGPD

99,9% de uptime não acontece por acidente. É resultado de engenharia.

Conclusão

Perguntas Frequentes

Pedro Tebaldi

Deixe um comentário Cancelar resposta

Quer receber novidades e atualizações?

Soluções

Plataformas

Conteúdo

Redes Sociais