Instabilidade no Plataforma #3
Affected components

No components marked as affected

Updates

Write-up published

Read it here

Resolved

No dia 19/09/2014 (sexta-feira) a plataforma VTEX sofreu diversas instabilidades e quedas provenientes de três principais motivos distintos. Alguns destes motivos nos levaram a postergar esse anunciamento e não realizar esta notificação antes que ações preventivas e corretivas fossem realizadas, e um estudo minuscioso de todo impacto fosse realizado.

O primeiro grande problema que enfrentamos foi devido a uma falha do sistema operacional Windows Server, que passou a ser acentuada no início da manhã do dia 19/09/2014, momento em que enfrentamos o primeiro período de instabilidades.

Essa falha do sistema operacional provoca um aumento no processamento da cpu do servidor, e isso impactou diretamente nossa capacidade de escalonamento automático em várias partes do sistema. O primeiro ponto do sistema a sofrer por essa falha no dia 19/09/2014 foi nosso gerenciador de contas (License Manager). Com essa utilização indevida de recursos as máquinas que precisavam ser ligadas conforme a demanda foram iniciadas com elevado uso de processamento e inviabilizando o funcionamento adequado desse módulo e afetando o sistema como um todo.

Para mais detalhes sobre esse problema da windows server visite o seguinte link da microsoft http://support.microsoft.com/kb/2571181.

A correção desta falha foi disponibilizada pelo nosso datacenter, mas nos obrigou a substituir os servidores de todas as nossas aplicações. Iniciamos este processo de substituição no mesmo dia (19/09/2014).

Enquanto restabelecíamos os sistemas devido a falha do sistema operacional encontramos falhas na recuperação do nosso sistema de busca e indexação do catálogo de produtos, o que ocasionou em mais alguns momentos de instabilidades durante a sexta-feira. A falha no sistema de busca foi identificada no mesmo dia mas ações emergenciais foram necessárias para corrigir o problema detectado.

A equipe já estava trabalhando na correção do problema identificado no indexador do catálogo, mas acabamos sofrendo mais algumas instabilidades antes que as correções fossem aplicadas. Passamos a partir deste dia a mitigar o problema reduzindo a velocidade da indexação enquanto as correções fossem desenvolvidas.

Simultaneamente fomos notificados pelo nosso datacenter que eles aplicariam nos próximos dias uma atualização de segurança que traria impacto para grande parte dos nossos servidores. Apesar das informações dos nossos clientes estarem protegidas esta atualização era de extrema importância e inevitável. Para evitar interrupções não programadas em nossos serviços nos vimos obrigados a substituir novamente centenas de servidores, incluíndo alguns de missão crítica como bancos de dados e do próprio indexador.

A notificação oficial do nosso datacenter a respeito desta manutenção pode ser consultada no seguinte link: http://aws.amazon.com/pt/blogs/aws/ec2-maintenance-update/

As manutenções necessárias foram realizadas pela VTEX entre os dias 25/09 e 30/09 e foram notificadas aqui neste canal.

Mon, Jul 30, 2018, 07:29 PM
3 years earlier...

Resolved

O incidente foi resolvido por completo e melhores informações serão disponibilizadas no Post Mortem.

Fri, Sep 19, 2014, 09:41 PM
19m earlier...

Monitoring

As falhas encontradas foram sanadas e a plataforma estabilizada.A equipe está monitorando.

Fri, Sep 19, 2014, 09:22 PM
25m earlier...

Identified

A equipe continua com todos os esforços voltados para a resolução desde incidente.

Fri, Sep 19, 2014, 08:56 PM
40m earlier...

Identified

Durante o processo de normalização do ambiente foram encontradas falhas no catalogo de produtos bem como sistema de buscas.A equipe está empenhada ao máximo na resolução do problema.

Fri, Sep 19, 2014, 08:16 PM
1h earlier...

Monitoring

Após ultimas ações a plataforma se encontra estável e permanece sob monitoramento.

Fri, Sep 19, 2014, 07:04 PM
24m earlier...

Identified

A plataforma voltou a apresentar instabilidade.A equipe continua trabalhando na solução do problema.

Fri, Sep 19, 2014, 06:40 PM
1h earlier...

Monitoring

A plataforma se encontra novamente estável, e está sob monitoramento.

Fri, Sep 19, 2014, 05:29 PM
14m earlier...

Identified

Durante o período de monitoramento a plataforma voltou a apresentar instabilidade.

Fri, Sep 19, 2014, 05:14 PM
22m earlier...

Monitoring

A plataforma se encontra novamente estável, e está sob monitoramento.

Fri, Sep 19, 2014, 04:52 PM
20m earlier...

Identified

O ultimo incidente foi fechado incorretamente, e a instabilidade persiste.

Fri, Sep 19, 2014, 04:32 PM