No components marked as affected
Write-up published
Resolved
O incidente aconteceu porque ficamos sem acesso a um dos nossos repositórios de dados por volta de 23:30.
Rapidamente identificamos que se tratava de um problema de infraestrutura e não do comportamento lógico do sistema.
Temos vários repositórios diferentes para cada um dos serviços, e estamos guardando eles em dois datacenters diferentes, um dos datacenters teve um problema grave que o deixou indisponível causando a queda do no nosso serviço.
Trabalhamos passando diagnósticos dos nossos logs e monitoramentos para ajudar o datacenter a diagnosticar e restabelecer o serviço deles e consequentemente o nosso. Os serviços voltaram a operar normalmente por volta de 2:25.
Para diminuir a chance desse problema ocorrer já iniciamos a mudança de local desses repositórios que foram afetados e estamos levando eles para centralizar esse tipo de serviço no mesmo datacenter. Esse processo começou hoje e deve ser concluído até o dia 12/09.
Resolved
Os sistemas passaram a funcionar com todo seu comportamento normalizado.
Monitoring
O Sistema ainda possui instabilidades no acesso a informações do nosso datacenter. Continuamos em contato direto para sanar o problema.
Monitoring
O problema foi sanado pelo datacenter e os serviços voltaram a responder. Manteremos monitorando o comportamento dos ambientes por mais um tempo afim de garantir a resolução do problema.
Identified
Continuamos em contato com o datacenter aguardando a solução do problema. Estamos acompanhando todos os passos para garantir o menor tempo possível no restabelecimento dos serviços.
Identified
Identificamos a falha em nosso datacenter e nossa equipe está acompanhando as ações da equipe responsável.Esta indisponibilidade está afetando também a home e outras páginas das lojas, e não somente o carrinho.
Investigating
Este problema impede o carregamento do carrinho.
Investigating
Os servidores do checkout da plataforma versão SmartCheckout estão apresentando problemas e não estão respondendo desde 23:22 - a equipe está atuando no problema.