Manutenção programada Azure PostgreSQL
Incident Report for Tech4Humans
Postmortem

O Plano de ação a partir do incidente passa por ações de acompanhamento de retornos sobre engenheiros da fabricante (Microsoft) e também de ações a partir de melhorias no ambiente para situações análogas.

  1. Acompanhamento da Azure sobre a Manutenção Programada e o que alterou na arquitetura de forma aos PostgreSQL não performaram da mesma forma - Estimativa de Retorno até 22/12/2022.

  1. Migração da Infraestrutura de Banco de Dados para CSP Azure Ingram. Por recomendação da Azure foi solicitado a migração da subscrição que está os Bancos de Dados de forma a ter um SLA de resposta do suporte enriquecido com novo formato Microsoft Azure de atendimento via Ingram.

    1. Plano de Migração - 30/12/2022
    2. Completude da Migração - Estimativa até 01/02/2023 (Avaliar com clientes melhor momento)

  1. Alteração da arquitetura atual para aumentar a resiliência da plataforma para planos de DR. Como principal objetivo a promoção de bancos de dados réplicas para Master em regiões isoladas.

    1. Apresentação da Arquitetura - Anexo deste documento
    2. Períodos de Esclarecimento de Clientes - 22/12/2022 a 04/01/2023
    3. Implantação -  - Estimativa até 15/01/2023

Apresentação para clientes da arquitetura de contingência desenvolvida pelo time de Engenharia Tech4h junto com engenheiros Azure para casos de criticidade alta onde DR possa levar tempo elevado. - Clientes podem sugerir datas para apresentação.

Posted Dec 24, 2022 - 18:34 GMT-03:00

Resolved
Durante o período de 12/12, às 19h, até 13/12, às 10h, nosso time de engenharia e infraestrutura de nuvem estava monitorando o ambiente, esperando detectar os momentos de reinício dos bancos e acompanhando seu uptime.
Após as 10:30 da manhã do dia 13/12, foi identificado um comportamento anormal. Nosso time de nuvem foi acionado e foi identificado um atraso entre os servidores master e suas réplicas, o que causou lentidão de 1 a 5 minutos na atualização de informações e troca de mensagens em nossas aplicações.
Diante deste cenário, mantivemos nosso time de suporte pronto para atender nossos clientes e também reduzimos o tempo entre as atualizações em nossa sala de guerra para que nossos clientes tenham o maior número de informações e de forma mais ágil possível sobre as ações que estão sendo tomadas.
A seguir, é possível verificar os informativos passados aos clientes na sala de guerra.

13/12 - 13:41 - Delay em banco de dados de 3 min reportado.
13/12 - 13:52 - War room criada no Teams com analista Microsoft presente
13/12 - 14:03 - Suporte MS capturou screenshot do problema e está analisando.
13/12 - 14:32 - Solicitada presença de um representante da MS em war room para atualização
13/12 - 14:40 - Atendente da MS em sala de war room, investigação em andamento
13/12 - 14:54 - Investigação segue em andamento pela MS
13/12 - 15:09 - Delay reduzindo em gráficos de monitoramento
13/12 - 15:19 - Delay zerado, iniciado testes na aplicação
13/12 - 15:19 - Aumento de delay capturado, em nova investigação com a MS
13/12 - 15:50 - Status report - Escalado ao nível máximo na MS para correção ou rollback
13/12 - 16:10 - Gráficos iniciaram queda significativa
13/12 - 17:02 - Aguardando report dos testes
13/12 - 18:25 - Operação 100% após testes
Posted Dec 13, 2022 - 13:00 GMT-03:00