Olá,

Durante os últimos dias enfrentamos junto aos nossos clientes uma grande instabilidade em nossos serviços. Esta situação gerou grande transtorno à todos os usuários do sistema 3C Plus, por isso, estamos gerando este relatório completo sobre o que aconteceu e também sobre todas as medidas de correção que foram sendo tomadas durante as falhas.

Sobre o SLA

Nossos usuários estão divididos em 3 ambientes e os 3 são frequentemente monitorado por uma ferramenta chamada Nixstats, que foi implantada em nossos servidores e serviços a partir de Julho/2018. Segue abaixo o relatório de disponibilidade e SLA gerado pelo Nixstats para cada um dos 3 ambientes:

Ambiente 3CPlusV1 3cplus.fluxoti.com

Ambiente 3CPlusV1 app.3cplusnow.com

Ambiente 3CPlusV2 app.3c.fluxoti.com

Sobre as falhas

Nos dias 26 e 27 de outubro de 2018 enfrentamos 3 pequenas instabilidades que não foram identificadas naquele momento. Eram desconexões de equipamentos sem nenhum motivo aparente, que causaram leves quedas no serviço, com breve retorno. Durante estas 3 ocorrências, nossa equipe verificou a falha, fez os ajustes necessários para recuperação dos serviços.

Nos dias 28 e 29 estas falhas se agravaram e vários serviços precisaram ser recuperados para que pudessem retornar ao ar. Isso deixou o sistema totalmente fora do ar por várias horas.

Todas as falhas que ocorreram constam no relatório abaixo:

Mas o que causou estas falhas?

Nossos servidores ficam em um Datacenter com uma super estrutura, com proteções à todo tipo de catástrofes como furacões e até terremotos. Estamos em uma estrutura muito confiável que nunca gerou falhas até hoje.

Dentro deste datacenter possuímos 2 espaços reservado para nossos servidores. Que trabalham de forma 100% redundante, de maneira que caso um servidor falhe, ou caso um equipamento queime, outro que está instalado paralelamente assume seu papel. Temos redundância nas fontes de alimentação de todos os equipamentos servidores e storages, temos redundância nos switchs de rede e sempre trabalhamos com capacidade total dobrada, ou seja, nossos serviços nunca ultrapassam 50% da capacidade total de nossos servidores.

Mesmo assim, com todos estes cuidados, uma falha inesperada ainda afetou nossa infra-estrutura. A pane foi elétrica, em um equipamento que fornece a alimentação de energia aos nossos servidores. Detectamos que sem nenhum aviso, alguns equipamentos simplesmente caiam e voltavam. Então, em contato com um técnico responsável no Datacenter, identificamos esta falha no dia 31/10 as 17h15.

Correção da falha

Solicitamos ao parceiro do Datacenter que realizasse a troca do equipamento durante a noite, com máxima urgência porém, por não haver outro disponível naquele momento a troca teve de ser adiada para a manhã de hoje. Onde as 9h10 foi iniciada, novamente deixando todos os nossos serviços inoperantes e as 9h25 concluída. Após isso, nossos servidores ainda demoraram para subir por motivos de falta de sincronia com os storages, causada pela desconexão entre eles. 

Nossa equipe trabalhou das 9h25 até as 10h50 para recuperar todos os serviços e torna-los disponíveis o mais rápido possível.

Acreditamos que nossa infra-estrutura está 100% estável novamente. Mas, nos próximos dias ainda faremos uma revisão e reorganização completa junto ao Datacenter para garantirmos que em hipótese alguma esta falha retorne. Seguem nossas janelas de próximas manutenções previstas:

Janela #82: 2018-11-02 22h00 até 2018-11-03 07h00
Janela #83: 2018-11-03 22h00 até 2018-11-04 07h00.

Durante estes horários o sistema poderá ficar indisponível.

Encontrou sua resposta?