Os sistemas começaram a receber um volume gigante de conexões. De imediato foi criada uma war room liderada pelo nosso time infra, apoiada pelo time de produto, e ainda com a participação das consultorias especializadas. Os especialistas da Azure no tema de Segurança de Informação foram envolvidos para verificação do tráfego. Ficou nesse momento claro que o problema se deveu exclusivamente ao aumento gigantesco do volume de acessos num espaço de tempo muito curto, totalmente imprevisível e fora de todos os piores cenários de alta disponibilidade projetados. Essa situação demandou uma revisão urgente para implantar uma evolução forçada de todo o ambiente, e os times estão trabalhando para concluir essa implantação. Foi aberto um chamado urgente para o time de engenharia da Azure e é expectável que o time faça um parecer sobre a causa raiz do problema e esse time irá também apoiar na implantação do plano de ação que está a ser executado. Períodos de Incidente: 13:15-13:35 - Sintoma: Pico de Conexões - Ação: Reset de Banco de Dados (20 minutos) 15:20- 16:45 -Sintoma: Pico de Conexões - Ação: Auto Scaling de PgBouncer (1:25hs) 19:20- 22:00 -Sintoma: Pico de Conexões - Ação: Bloqueio de Connection no Banco de Dados (2:40hs) 00:00-5:45 - Preventivo/Ação Final: Dump/Restore de Banco de Dados (5:45hs)