Tech4Humans Status - Plataforma de Atendimento Humano

Plataforma de Atendimento Humano - Tech4Humans

Incident Report for Tech4Humans

Resolved

Os sistemas começaram a receber um volume gigante de conexões.
De imediato foi criada uma war room liderada pelo nosso time infra, apoiada pelo time de produto, e ainda com a participação das consultorias especializadas. Os especialistas da Azure no tema de Segurança de Informação foram envolvidos para verificação do tráfego.
Ficou nesse momento claro que o problema se deveu exclusivamente ao aumento gigantesco do volume de acessos num espaço de tempo muito curto, totalmente imprevisível e fora de todos os piores cenários de alta disponibilidade projetados. Essa situação demandou uma revisão urgente para implantar uma evolução forçada de todo o ambiente, e os times estão trabalhando para concluir essa implantação.
Foi aberto um chamado urgente para o time de engenharia da Azure e é expectável que o time faça um parecer sobre a causa raiz do problema e esse time irá também apoiar na implantação do plano de ação que está a ser executado.
Períodos de Incidente:
13:15-13:35 - Sintoma: Pico de Conexões - Ação: Reset de Banco de Dados (20 minutos)
15:20- 16:45 -Sintoma: Pico de Conexões - Ação: Auto Scaling de PgBouncer (1:25hs)
19:20- 22:00 -Sintoma: Pico de Conexões - Ação: Bloqueio de Connection no Banco de Dados (2:40hs)
00:00-5:45 - Preventivo/Ação Final: Dump/Restore de Banco de Dados (5:45hs)

Posted Apr 25, 2022 - 13:15 GMT-03:00