Instabilidade na plataforma
Affected components

No components marked as affected

Updates

Write-up published

Read it here

Resolved

Intervalo de queda: 08/12/2014 10:08:00 até 08/12/2014 11:12:00

Sintoma: Intermitência e lentidão na utilização do portal.

Causa: Hoje pela manhã ocorreu uma intermitência no serviço de indexação/busca do catalogo da plataforma. Apesar de utilizarmos 3 clusters redundantes do serviço, uma falha no monitoramento causou momentos de indisponibilidade do serviço. As 8:14 o primeiro cluster apresentou problema (ainda não impactando no pleno funcionamento do serviço) o que causou um aumento de carga nos outros 2 clusters saudáveis. Com o aumento da carga (rampa) às 9:53 o segundo cluster também apresentou problema dirigindo a carga totalmente para apenas 1/3 da nossa infraestrutura. Neste momento, com apenas um único cluster saudável, a infraestrutura foi incapaz de servir toda a carga da manhã apresentando aumento de latência a partir das 10:08. Às 10:16 o serviço de busca foi restabelecido, porém houve outro problema desta vez no escalonamento dos servidores do Portal para atender a demanda do momento. O serviço foi totalmente restabelecido às 11:12.

Ação: - Foi configurado alarmes de latência para cada cluster individualmente. - Otimização periódica automática do tamanho do índice afim de reduzir o uso desnecessário recursos dos servidores. - Foi configurado um alarme automático disparado pelo balanceador de carga deste serviço. - Melhoria do log para investigar o motivo da falha no escalonamento das maquinas do portal após o a estabilização do serviço de busca.

Mon, Jul 30, 2018, 07:29 PM
3 years earlier...

Resolved

Não foram mais encontradas falhas durante o período de monitoramento.Mais informações no Postmortem

Mon, Dec 8, 2014, 01:37 PM
14m earlier...

Monitoring

A instabilidade foi causada por falhas no Indexador do Catalogo.A plataforma está estável e sob monitoramento.

Mon, Dec 8, 2014, 01:23 PM
18m earlier...

Investigating

A plataforma passa por instabilidade no momento, a equipe está investigando.

Mon, Dec 8, 2014, 01:04 PM