As melhores estratégias para recuperação de desastre

em Soluções.

Ter um plano de prevenção e recuperação de falhas e desastres é vital para as organizações que desejam aumentar a segurança e a integridade de seus dados e operações.

Afinal de contas, no mundo globalizado, as empresas estão cada vez mais dependentes de seus sistemas tecnológicos e comunicacionais, os quais se interligam em um intrincado emaranhado de processos e troca de informações — tanto internamente quanto externamente.

Dessa forma, um pequeno problema de hardware ou software pode colocar a perder meses de trabalho, ocasionar prejuízos e até afetar relacionamentos com parceiros e consumidores.

Vale ressaltar que esses transtornos podem ocorrer por diversos motivos, como desastres naturais, ataques de vírus e crackers, quedas de energia, falhas de infraestrutura (conectividade, incompatibilidade etc.) ou até por erros humanos. Tudo isso torna urgente a existência de medidas e soluções para prevenir, resolver ou recuperar dados perdidos nesses eventos.

Por isso, preparamos este post para mostrar a você as principais estratégias das grandes organizações para prevenir falhas e reduzir o impacto que certos desastres podem causar em seus negócios. Confira!

O que é recuperação de desastre?

Recuperação de desastre é o processo pelo qual a empresa busca restaurar suas aplicações e sistemas críticos após um desastre.

Os níveis de criticidade são expressos levando em consideração o tempo de tolerância de interrupção das atividades sem que incorra em prejuízos importantes para a empresa. Envolve também a criação de documentação formal de recuperação de ativos.

O desastre pode ser algo grande, como falha nos softwares gerenciais, queda de servidores ou até vazamento de um alto número de informações devido a ataques cibernéticos, vide o caso Sony Pictures em 2014. Ou ainda algo de menor expressão, como páginas indisponíveis no site corporativo em decorrência de um grande volume de tráfego ou computadores desligados por conta de uma pane elétrica.

Um dos erros na gestão de TI é justamente não ter um plano de continuidade dos negócios, ou tê-lo sem processos e soluções estruturados para a recuperação de desastres, visando lidar com esses imprevistos depois de terem ocorrido.

Ou seja, é essencial ter um plano de recuperação de desastres para contornar esses problemas, o qual deve definir estratégias de replicação. Conheça as principais, a seguir.

Adote técnicas de replicação

A replicação é uma técnica utilizada por empresas de diversos portes para criar um ambiente virtualizado e, dessa forma, reduzir o impacto diante de desastres. Conheça 3 métodos principais.

Replicação via software

Um software específico de replicação de dados é empregado para realizar a duplicação de dados entre servidores, movimentando-os nos bancos e integrando conteúdos heterogêneos. Ou seja, ele faz cópias de um servidor-fonte para um servidor de backup, e permite gerenciar tal processo por meio de uma interface.

Replicação via storage

Nesse caso, utiliza-se um ou mais storages, isto é, hardwares que possuem slots para vários discos, ligados aos servidores. Trata-se de peças bastante redundantes, que armazenam os dados e informações da organização com segurança.

Replicação via banco de dados

Aqui pode ser utilizado, além da replicação, o espelhamento do banco de dados para aperfeiçoar a disponibilidade ao banco de dados de publicação. Esse processo inclui duas cópias de um único banco, que geralmente ficam em máquinas diferentes. Em certo momento, somente uma cópia fica disponível aos clientes, a do banco de dados principal.

As atualizações realizadas pelos clientes são sobrepostas à outra cópia, a do banco de dados espelho. O processo de espelhamento inclui a aplicação do log de transações de cada inserção ou exclusão realizada no banco de dados primário até o banco de dados espelho, inclusive atualizações.

Tenha conhecimento das ameaças existentes

O primeiro passo é identificar os riscos mais graves à infraestrutura de TI. As ameaças podem ter diversas origens. Confira as principais, a seguir.

Falhas humanas

Erros cometidos por colaboradores, clientes e fornecedores podem comprometer a integridade dos dados, causando sua exclusão, corrupção, alteração ou mesmo divulgação de informações sigilosas. Esses erros também podem resultar em problemas de configuração dos sistemas, o que muitas vezes se reflete na redução de desempenho ou interrupção da aplicação.

Falhas no software

Falta de manutenção, incompatibilidade entre sistemas ou com o hardware e erros de programação resultam em falhas no software.

No entanto, é preciso lembrar que, com o tempo, os sistemas se degradam e até ficam obsoletos. Afinal, os dispositivos de hardware podem ser substituídos, a tecnologia de uma forma geral avança, e as empresas precisam atualizar seus sistemas de software para atender às novas demandas técnicas.

Quanto não há essa atualização, os resultados podem ser falhas constantes que geram problemas de performance e até indisponibilidade.

Catástrofes

Embora sejam a minoria dos casos, as catástrofes têm um grande potencial de destruição. Estão relacionadas a ações da natureza, como furacões, enchentes, tempestades e ondas de calor. No entanto, também podem ter origem em atentados terroristas, incêndios e explosões. São situações que dificilmente permitem a retomada dos serviços localmente.

Por isso, a alternativa mais viável é a criação de sites redundantes em locais geograficamente distantes, que entram em ação quando o servidor local é interrompido. O foco aqui é encontrar esses pontos mais críticos e, a partir deles, implementar procedimentos que possam prevenir a falha ou reduzir os danos recorrentes.

Após fazer o mapeamento de riscos de TI, é preciso criar planos de contingência, como veremos a seguir.

Crie planos de contingência

Se você detectou falhas que podem surgir, considere que elas vão acontecer. Isso é o que diz a Lei de Murphy. Então, prepare seu negócio para os possíveis desastres. Assuma que os planos de prevenção também podem dar errado.

Assim, para cada etapa do seu plano de recuperação de desastres, crie contingências. Tenha sempre um plano B — e, por que não, um plano C.

É claro que a maioria das empresas não tem condições para criar contingências ou redundâncias para cada processo que pode dar errado. Por isso, a próxima estratégia é fundamental.

Priorize o que deve ser recuperado

Em caso de falhas, o que deve ser resolvido ou recuperado primeiro? Em qual ordem? A resposta a essas perguntas está relacionada ao grau de impacto que um desastre tem no negócio.

Isso quer dizer que você precisa priorizar serviços mais delicados, com os quais o seu negócio não pode ficar sem — ou seja, que estejam relacionados à continuidade dos serviços da sua empresa. Talvez sejam da linha de produção, do funcionamento do site ou de outros processos ligados ao atendimento ao consumidor. Listadas essas urgências, também é preciso elencar a ordem que deve ser seguida para essa restauração.

O próximo passo é definir os Objetivos de Tempo de Recuperação (RTOs). Isto é, quanto tempo deve levar para que o serviço seja restaurado sem que haja um impacto significativo no negócio.

Adote o modelo de governança de TI mais adequado

governança de TI pode assumir diversas metodologias, dependendo do seu modelo de negócios e de seus objetivos específicos. Mas é preciso investir em uma governança que seja adequada à recuperação de desastres. A Information Systems Audit and Control (ISACA), por exemplo, desenvolveu o Risk IT Framework, que é mais direcionado à gestão de riscos de TI. Ele visa:

  • compreender a melhor maneira de se preparar para as ameaças;
  • integrar de modo mais coeso o gerenciamento dos riscos de TI com a organização;
  • compreender a tolerância da empresa às ameaças envolvidas;
  • tomar decisões corretas conforme os riscos.

É um método bem adequado para garantir ao gestor uma visão mais completa dos riscos de TI. A ideia é que a discussão acerca dessas ameaças e suas formas de prevenção não fiquem restritas a decisões técnicas, mas que sejam também incorporadas às decisões estratégicas da organização.

Estabeleça um cronograma de backup

O backup é o método mais básico e eficaz para ser adotado nas práticas de prevenção e recuperação de falhas e desastres. Ele garante que a integridade e o sigilo dos dados serão preservados. Nesse quesito, podemos destacar dois pontos importantes: o Objetivo do Ponto de Recuperação (RPO) e o método empregado.

O RPO está relacionado ao tempo relativo à falha e ao ponto em que é necessário preservar os dados. O valor zero é um número que se equipara à perda nula de dados. Assim, a decisão do tempo vai depender bastante do modelo de negócios da sua empresa. Confira alguns valores válidos:

  • início do último turno, o que equivaleria a 8 horas;
  • último lote de trabalhos (1 hora ou fração dela);
  • última transação realizada (alguns segundos);
  • perda de dados nula (backup automático em tempo real).

Por exemplo: se sua empresa trabalha com um e-commerce, transações são realizadas a todo momento. Isso significa que uma falha no sistema poderia fazer você perder uma venda e reduzir drasticamente a experiência do consumidor na sua plataforma.

Em relação ao método de backup adotado, a nuvem tem sido uma dos principais escolhas, tendo em vista a redução de custos no que diz respeito ao gerenciamento de um servidor local, além de fornecer maior escalabilidade, segurança e facilidade de automatizar a restauração. Outros optam por um modelo híbrido, conciliando um servidor local e outro na nuvem.

Conheça o nível de tolerância do negócio a desastres

Nesse ponto, duas métricas de TI já mencionadas devem ser levadas em conta para mensurar a tolerância do seu negócio à paralisação dos serviços:

  • Objetivo do Ponto de Recuperação (RPO): quanto mais alto for esse valor, maior a tolerância à perda de dados. Por outro lado, se as informações do negócio forem sensíveis, o ideal é que se aumente a frequência dos backups, a fim de reduzir a quantidade de dados perdidos;
  • Objetivo do Tempo de Recuperação (RTO): é o tempo de indisponibilidade. Isto é, quanto menor for esse índice, mais rápido os sistemas devem ser recuperados para reduzir os prejuízos.

O que precisa constar no plano de recuperação?

Existem alguns pontos que devem ser avaliados para a criação de um bom plano de recuperação de desastres, como prioridades, responsabilidades e as soluções de recuperação em si.

Primeiramente, ele deve ser feito com foco nos aspectos principais do negócio, isto é, aquelas operações e atividades cruciais para o correto funcionamento dos processos organizacionais. É essencial que ele estabeleça prioridades que tenham como alvo o core business e as atividades, sistemas e rotinas que dão suporte à empresa.

Também deve ser produzido com o apoio e integração de diferentes setores e funcionários, para que os principais processos de cada área possam ser melhor entendidos pela equipe de TI, a qual ficará responsável por delimitar os pontos cruciais do plano.

Dessa forma, será possível definir responsabilidades e funções para aqueles colaboradores que ficarão a cargo de relatar quando incidentes críticos ocorrerem e, assim, dar início aos procedimentos de recuperação de dados — além, é claro, de atuar de forma presente para a resolução dos problemas junto ao setor de TI.

Também é importante que o plano de recuperação de desastres delimite canais de comunicação e de localização para avisar todos os envolvidos/afetados pelos problemas. Assim, eles poderão se preparar para ajudar a corrigi-los ou proteger suas atividades de novos erros.

Qual a importância da implantação do plano de prevenção e recuperação de falhas e desastres?

A implantação do plano de recuperação de desastres garante a continuidade da operação e o aumento da disponibilidade do negócio, evitando, inclusive, prejuízos para os clientes. Determinados negócios, como mídias e redes sociais, dispõem de muitas informações de usuários, os quais podem ser seriamente comprometidos caso elas vazem, fiquem indisponíveis ou sejam perdidas.

Vale destacar que o plano de prevenção e recuperação de falhas e desastres faz parte de um projeto maior, o de continuidade dos negócios, que também inclui o plano de contingências operacionais. Esse último se refere ao estabelecimento de alternativas de trabalho para continuar com processos e procedimentos enquanto os meios principais estão inoperantes ou sendo recuperados.

Ele envolve, por exemplo, a adoção de formulários físicos (papéis) para continuar a realização de cadastros ou aplicação de pesquisas, o uso de equipamentos analógicos em substituição aos digitais, entre outros.

Todo gestor que queira garantir a segurança dos dados e das operações da empresa deve estar atento às principais soluções tecnológicas do mercado, aquelas que permitam um plano de prevenção e recuperação de falhas e desastres efetivo, rápido e, se possível, simplificado. Desse modo, a empresa poderá minimizar custos e prejuízos decorrentes dessas situações.

Que tal saber mais alternativas para prevenir e lidar com falhas? Descubra 8 passos que podem ajudá-lo na construção de uma plano de recuperação de desastres.