[INFORMATIVO] - Sobre as instabilidades ocorridas na ultima sexta-feira (19/09/2014)
Affected components

No components marked as affected

Updates

Write-up published

Read it here

Resolved

Caro (a),

Gostaríamos de esclarecer algumas informações referentes às instabilidades apresentadas na plataforma recentemente. O fato de estarmos em busca de ações preventivas e corretivas para o ocorrido, nos levaram a postergar esta mensagem para que possamos, com mais segurança e tranquilidade, comentarmos os fatos agora.

No dia 19 de setembro deste ano, a plataforma VTEX passou por instabilidades.

A ocorrência teve como origem uma falha do sistema operacional Windows Server, que provocou um aumento no processamento da CPU do servidor, e isso impactou diretamente nossa capacidade de escalonamento automático dos servidores, em várias partes do sistema.

Com essa utilização indevida de recursos, os servidores, que precisavam ser ligados conforme a demanda, foram iniciados com elevado uso de processamento e inviabilizaram o funcionamento adequado do módulo Licence Manager, e afetando na sequência, a plataforma como um todo.

“Clique neste link para saber mais detalhes sobre este problema do Windows Server” http://support.microsoft.com/kb/2571181.

A correção desta falha foi disponibilizada pelo nosso datacenter, mas nos obrigou a substituir os servidores de todas as nossas aplicações, processo de substituição este, que iniciou no mesmo dia do ocorrido.

Enquanto restabelecíamos os servidores devido a falha do sistema operacional, encontramos falhas na recuperação do nosso módulo de busca e indexação do catálogo de produtos, o que ocasionou em mais alguns momentos de instabilidades durante o mesmo dia. Ações emergenciais foram necessárias para corrigir o problema detectado.

Simultaneamente fomos notificados pelo nosso datacenter que eles aplicariam nos próximos dias uma atualização de segurança que traria impacto para grande parte dos nossos servidores. Apesar das informações dos nossos clientes estarem protegidas, esta atualização era de extrema importância e indispensável. Para evitar interrupções não programadas em nossos serviços nos vimos obrigados a substituir novamente centenas de servidores, incluindo alguns de missão crítica como bancos de dados e do próprio indexador.

Clique aqui para ver a notificação oficial do nosso datacenter a respeito desta manutenção http://aws.amazon.com/pt/blogs/aws/ec2-maintenance-update/

A plataforma opera normalmente desde então e gostaríamos de nos desculpar por possíveis perdas ocorridas.

Apesar desse infeliz incidente, gostaríamos de reafirmar nosso compromisso com a estabilidade da plataforma. Sabemos o impacto que uma instabilidade da nossa solução gera para os nossos clientes.

Nosso modelo de negócio garante nossa rentabilidade de acordo com a performance dos nossos clientes e estaremos sempre focados em ações que mitiguem ou eliminem qualquer tipo de problema que possa comprometer suas vendas.

Situações como essa nos mostram que temos muito trabalho a fazer. Podem ter certeza que muitas lições foram aprendidas e aplicadas com este evento. Lições que contribuem para sermos uma empresa ainda melhor.

Para conhecimento, todas as manutenções necessárias foram realizadas pela VTEX entre os dias 25/09 e 30/09 e foram notificadas na nossa página de status para que pudessem acompanhar: http://status.vtex.com.br

Mon, Jul 30, 2018, 07:29 PM
3 years earlier...

Resolved

Na ultima sexta-feira sofremos com uma grande instabilidade em nossos sistemas gerando diferentes tipos de falhas em nossa aplicação.

Ainda estamos trabalhando em uma solução definitiva para o assunto, mas gostaríamos de informar que desde o ultimo Sábado (20/09) temos as causas dos problemas bem identificadas e a situação sob controle, impedindo que a plataforma tenha impactos negativos que durem mais de 10 minutos.

PS: No post-mortem deste incidente você poderá obter mais detalhes sobre o ocorrido.

Wed, Sep 24, 2014, 08:49 PM