No components marked as affected
Write-up published
Resolved
Intervalo de queda: 08/12/2014 10:08:00 até 08/12/2014 11:12:00
Sintoma: Intermitência e lentidão na utilização do portal.
Causa: Hoje pela manhã ocorreu uma intermitência no serviço de indexação/busca do catalogo da plataforma. Apesar de utilizarmos 3 clusters redundantes do serviço, uma falha no monitoramento causou momentos de indisponibilidade do serviço. As 8:14 o primeiro cluster apresentou problema (ainda não impactando no pleno funcionamento do serviço) o que causou um aumento de carga nos outros 2 clusters saudáveis. Com o aumento da carga (rampa) às 9:53 o segundo cluster também apresentou problema dirigindo a carga totalmente para apenas 1/3 da nossa infraestrutura. Neste momento, com apenas um único cluster saudável, a infraestrutura foi incapaz de servir toda a carga da manhã apresentando aumento de latência a partir das 10:08. Às 10:16 o serviço de busca foi restabelecido, porém houve outro problema desta vez no escalonamento dos servidores do Portal para atender a demanda do momento. O serviço foi totalmente restabelecido às 11:12.
Ação: - Foi configurado alarmes de latência para cada cluster individualmente. - Otimização periódica automática do tamanho do índice afim de reduzir o uso desnecessário recursos dos servidores. - Foi configurado um alarme automático disparado pelo balanceador de carga deste serviço. - Melhoria do log para investigar o motivo da falha no escalonamento das maquinas do portal após o a estabilização do serviço de busca.
Resolved
Não foram mais encontradas falhas durante o período de monitoramento.Mais informações no Postmortem
Monitoring
A instabilidade foi causada por falhas no Indexador do Catalogo.A plataforma está estável e sob monitoramento.
Investigating
A plataforma passa por instabilidade no momento, a equipe está investigando.