A latência do workflow aumentou de forma inesperada no período (aparentemente consequência do aumento da nossa latência com um dos serviços da Amazon). Com isso, apesar da carga total não ter variado, os servidores estavam atendendo a uma quantidade muito maior de requests em paralelo. Isto fez com que o limite máximo de conexões entre os nossos servidores chegassem ao limite, gerando um efeito em cascata.
Para evitar que esse tipo de problema ocorra novamente, subimos nossa quantidade máxima de conexões simultâneas no ambiente do workflow.