Instabilidade na Plataforma
Affected components

No components marked as affected

Updates

Write-up published

Read it here

Resolved

No dia 19/09/2014 (sexta-feira) a plataforma VTEX sofreu diversas instabilidades e quedas provenientes de três principais motivos distintos. Alguns destes motivos nos levaram a postergar esse anunciamento e não realizar esta notificação antes que ações preventivas e corretivas fossem realizadas, e um estudo minuscioso de todo impacto fosse realizado.

O primeiro grande problema que enfrentamos foi devido a uma falha do sistema operacional Windows Server, que passou a ser acentuada no início da manhã do dia 19/09/2014, momento em que enfrentamos o primeiro período de instabilidades.

Essa falha do sistema operacional provoca um aumento no processamento da cpu do servidor, e isso impactou diretamente nossa capacidade de escalonamento automático em várias partes do sistema. O primeiro ponto do sistema a sofrer por essa falha no dia 19/09/2014 foi nosso gerenciador de contas (License Manager). Com essa utilização indevida de recursos as máquinas que precisavam ser ligadas conforme a demanda foram iniciadas com elevado uso de processamento e inviabilizando o funcionamento adequado desse módulo e afetando o sistema como um todo.

Para mais detalhes sobre esse problema da windows server visite o seguinte link da microsoft http://support.microsoft.com/kb/2571181.

A correção desta falha foi disponibilizada pelo nosso datacenter, mas nos obrigou a substituir os servidores de todas as nossas aplicações. Iniciamos este processo de substituição no mesmo dia (19/09/2014).

Enquanto restabelecíamos os sistemas devido a falha do sistema operacional encontramos falhas na recuperação do nosso sistema de busca e indexação do catálogo de produtos, o que ocasionou em mais alguns momentos de instabilidades durante a sexta-feira. A falha no sistema de busca foi identificada no mesmo dia mas ações emergenciais foram necessárias para corrigir o problema detectado.

A equipe já estava trabalhando na correção do problema identificado no indexador do catálogo, mas acabamos sofrendo mais algumas instabilidades antes que as correções fossem aplicadas. Passamos a partir deste dia a mitigar o problema reduzindo a velocidade da indexação enquanto as correções fossem desenvolvidas.

Simultaneamente fomos notificados pelo nosso datacenter que eles aplicariam nos próximos dias uma atualização de segurança que traria impacto para grande parte dos nossos servidores. Apesar das informações dos nossos clientes estarem protegidas esta atualização era de extrema importância e inevitável. Para evitar interrupções não programadas em nossos serviços nos vimos obrigados a substituir novamente centenas de servidores, incluíndo alguns de missão crítica como bancos de dados e do próprio indexador.

A notificação oficial do nosso datacenter a respeito desta manutenção pode ser consultada no seguinte link: http://aws.amazon.com/pt/blogs/aws/ec2-maintenance-update/

As manutenções necessárias foram realizadas pela VTEX entre os dias 25/09 e 30/09 e foram notificadas aqui neste canal.

Mon, Jul 30, 2018, 07:29 PM
3 years earlier...

Resolved

This incident has been resolved.

Tue, Sep 23, 2014, 09:06 PM
36m earlier...

Monitoring

A equipe agiu revertendo o cenário, segue o monitoramento. A instabilidade afetou a plataforma entre 17:17 e 17:28

Tue, Sep 23, 2014, 08:30 PM

Investigating

A plataforma está sofrendo uma instabilidade, a equipe está atuando.

Tue, Sep 23, 2014, 08:28 PM