About the platform’s intermittency
Affected components

No components marked as affected

Updates

Write-up published

Read it here

Resolved

About the platform’s intermittency

Unfortunately, we've experienced some stability issues in recent weeks. Since then, we've been working hard to take our services back to a state of normality. Our whole team is fully committed to the highest quality standards, which shows in the way we handle incidents like this.

As you know, VTEX is a complex solution, consisting of more than 50 different services. We keep close attention to the ones which have a direct impact on your store's health. You can check the majority of them in real time at healthcheck.vtex.com while seeing details of every incident here, at status.vtex.com.

The service that caused the instability is one of the biggest and most complexes we have, serving resources consumed by all the stores' shop windows and catalogs. We've developed emergency plans that allow stores to keep selling even if this service is struggling, like using cached data and other techniques. Nevertheless, in some rare cases, clients may find issues while browsing.

Our engineering team is working with a total focus on optimizing and solving any problems related to this service. On 09/21, we divided the service in two, to lower the complexity of the new versions to come. This move also makes monitoring more efficient. After making that change, none of the services presented unexpected behaviors. Note that yesterday's \(09/24\) incident was unrelated to the previous ones.

As soon as a definitive solution is ready, we'll release more information about what happened and the actions we performed to solve the issues.

-----

Sobre a intermitência da plataforma

Infelizmente, tivemos episódios de instabilidade nas últimas semanas e estamos trabalhando duro para voltar ao estado que consideramos ideal. O compromisso de todo o time com a alta qualidade dos nossos serviços é evidenciado pela transparência com que tratamos incidentes como esses.

A solução da VTEX é composta por mais de 50 serviços. A maioria dos que impactam diretamente na saúde da sua loja são monitorados em tempo real no healthcheck.vtex.com. E todos os incidentes são documentados aqui no status.vtex.com.

O serviço que gerou a instabilidade é um dos maiores e mais complexos que temos hoje. Ele fornece os recursos utilizados na vitrine das lojas e no catálogo de produtos. Temos planos de emergência que permitem às lojas continuarem vendendo quando esse serviço apresenta algum problema, como a utilização de dados de cache e outra técnicas. Ainda assim, em alguns cenários, a navegação dos clientes pode ser parcialmente prejudicada.

Nosso time de engenharia está completamente focado em otimizar e corrigir qualquer questão que envolva esse serviço. Fizemos uma mudança no dia 21/09, dividindo o serviço em dois para diminuir a complexidade de novas versões e, assim, melhorar o monitoramento. Ontem, 24/09, tivemos um incidente não relacionado ao problema anterior. Depois de realizada a mudança, nenhum dos dois serviços passou por novos incidentes.

Tão logo a solução definitiva fique pronta, publicaremos todos os detalhes dos últimos eventos e das ações que implementamos para solucionar esses acontecimentos.

-----

Sobre la intermitencia de la plataforma

Desafortunadamente, hemos tenido episodios de inestabilidad en las últimas semanas y estamos trabajando duro para volver al estado que consideramos ideal. El compromiso de todo el equipo con la alta calidad de nuestros servicios es evidenciado por la transparencia con que tratamos incidentes como esos.

La solución de VTEX se compone de más de 50 servicios. La mayoría de los que impactan directamente en la salud de su tienda son monitoreados en tiempo real en healthcheck.vtex.com, siempre con incidentes documentados aquí en status.vtex.com.

El servicio que generó la inestabilidad es uno de los mayores y más complejos que tenemos hoy. Proporciona los recursos utilizados en la vitrina de las tiendas y en el catálogo de productos. Tenemos planes de emergencia que permiten a las tiendas seguir vendiendo cuando este servicio presenta algún problema, como el uso de datos de caché y otras técnicas. Sin embargo, en algunos escenarios, la navegación de los clientes puede verse parcialmente perjudicada.

Nuestro equipo de ingeniería está completamente enfocado en optimizar y corregir cualquier cuestión relacionada con este servicio. Hemos hecho un cambio el día 21/09, dividiendo el servicio en dos para disminuir la complejidad de nuevas versiones y así mejorar el monitoreo. Ayer, 24/09, tuvimos un incidente no relacionado con el problema anterior. Después de realizar el cambio, ninguno de los dos servicios pasó por nuevos incidentes.

Tan pronto como la solución definitiva esté lista, publicaremos todos los detalles de los últimos eventos y de las acciones que implementamos para solucionar esos acontecimientos.

Tue, Sep 25, 2018, 09:52 PM

Resolved

This is a post-mortem about the WebStore module's recent stability issues. Read more in this status post.

Tue, Sep 25, 2018, 09:52 PM