As 7h45 começamos a receber relatos de clientes onde agentes conectavam e após 15 segundos eram deslogados automaticamente pelo sistema, devido à queda do ramal.

A seguinte mensagem era exibida na tela do operador:
"Você foi desconectado do seu ramal. Clique em "Entrar na Campanha" para retornar.

Esta mensagem acontece pois quando o 3C Plus não recebe a mídia vinda do ramal do usuário por 15 segundos, este usuário é considerado como offline e deslogado pelo sistema.

Diagnóstico

Nosso time interrompeu todas as tarefas para dar atenção à este problema que parecia impactar cerca de 25% de nossos clientes. 

Trabalhamos na identificação da causa das falhas das 8h às 12h sem sucesso, em seguida pudemos perceber em contato com clientes que somente àqueles com sistemas de firewall nas empresas estavam sintomáticos.

Com isso, nosso time imediatamente percebeu o que houve. 

Causa

Como já comentado anteriormente a 3C Plus utiliza tecnologia Google Kubernetes Engine onde são gerenciados todos os recursos de infra-estrutura disponíveis. Uma parte destes recursos é a alocação de endereçamento de IP Público destinado às conexões de telefonia do sistema. 

Estes IPs estavam agrupados e fixados em configurações, a falha foi identificada neste ponto. Os serviços de mídia RTP acabaram subindo em endereços de IP diferentes do que fora previamente acordado em implantações com clientes.

Isso fez com que a mídia enviada do 3C Plus para o ramal do usuário ficasse presa nos sistemas de firewall de nossos clientes, visto que o IP origem/destino era desconhecido pelas regras.

Resolução

Às 12h05 nosso time pode reinicializar os serviços forçando-os à subirem com os endereços de IP corretos.

Recomendação

Nós atualizamos aqui a lista de IPs que precisam estar liberados. Recomendamos que todos sejam configurados em seu sistema firewall para que caso, em algum momento esta falha se repita, os demais IPs também serão aceitos e o tráfego não será barrado.

Sentimos muito pelo transtorno e informamos que estamos realizando melhorias em nossos processos para evitar que isto ocorra novamente.

Agradecemos pela parceria e compreensão,
Diogo Hartmann - CEO @ 3CPlus

Encontrou sua resposta?