Manutenção Planejada Azure PostgreSQL

Incident Report for Tech4Humans

Resolved

Laudo Preliminar do Incidente - Azure PostgreSQL - Queda de Banco de Dados e delay em réplica (Manutenção Planejada JLDX-JS0)
O que aconteceu?
Durante o dia 07 de Outubro de 2022 entre 15:15 (BRT) e 23:00 (BRT) foi identificado comportamento anormal nos bancos de dados PostgreSQL Azure. Suposto era acontecer no intervalo dos dias 07 de Outubro de 2022 às 18:00 (BRT) até 08 de Outubro às 9:00 (BRT) uma instabilidade em cada Banco de Dados por volta dos 120 segundos, conforme manutenção planejada pela Azure de número: JLDX-JS0. Porém o cenário identificado no dia 07 de Outubro de 2022 foi de uma instabilidade diferente do anunciado em seu comunicado:
"This notification is for upcoming planned maintenance to your Azure Database for PostgreSQL instance(s) in East US. This is scheduled to occur between 21:00 UTC on 07 Oct 2022 (17:00 Eastern Standard Time on 07 Oct 2022) and 12:00 UTC on 08 Oct 2022 (08:00 Eastern Standard Time on 08 Oct 2022). During planned maintenance on your Azure Database for PostgreSQL instance(s), there can be database server restarts or failovers, which might lead to brief (60-120 seconds) unavailability of the database servers for end users. The entire planned maintenance event including each server restarts is carefully monitored by the engineering team. "
Durante o dia 07 de Outubro de 2022 pudemos observar 3 momentos:
Entre 15:15 (BRT) - 16:00 (BRT) - Foi identificado um restart de grande parte das máquinas com duração de 10 minutos e para o retorno foi necessário a atuação do time de Infraestrutura da Tech4humans para eliminar as conexões represadas de tentativas de acesso no intervalo de baixa.
Entre 18:00 (BRT) - 18:15 (BRT) - Duas máquinas que não haviam sido resetadas no intervalo anterior sofreram o mesmo restart e então com aproximadamente 10 minutos retornaram à normalidade, não foi necessário atuação do time da Tech4humans pois o volume de tráfego neste intervalo foi baixo e então o servidor deu a vazão às conectividades represadas.
Entre 20:00 (BRT) - 23:00 (BRT) - Não foi visto indisponibilidade ou restarts mas foi identificado um delay entre os servidores master e suas réplicas causando desta forma em nossas aplicações uma experiência de demora de 15 a 20 segundos para atualização de informações e trocas de mensagens.

O que deu errado e por quê?
Ainda de forma preliminar pois não recebemos todas as informações da Microsoft a Tech4humans, identifica 3 erros na manutenção planejada:
A Manutenção Planejada ocorreu antes do prazo informado em comunicados e com isso os times de sustentação e operações dos nossos clientes não estavam preparadas para ações de contornos.
Os informes da Microsoft diziam que não seria necessário atividades dos clientes e que a manutenção deixaria os servidores sem conectividade por 120 segundos, e a experiência encontrada no dia 07 de Outubro de 2022 foi muito superior, além de ter sido necessário no primeiro momento uma atuação do nosso time para retorno da aplicação visto que tínhamos acessos acontecendo naquele momento pois conforme mencionado no item 1 não estava previsto no determinado horário.
A Manutenção Planejada não informou que durante a manutenção teríamos problemas de replicação de dados em servidores secundários. E segundo dados obtidos pelo suporte em momentos de incidente foi possível identificar que a Microsoft fez alterações de certificados dentro desta manutenção e com isso seria quase que provável que tal situação pudesse ocorrer.
As causas destes pontos ainda serão respondidas pela Microsoft através do RCA solicitado, o prazo via contrato da Microsoft é de RCA em até 14 dias porém a Tech4humans já solicitou uma prévia de PIR
Como respondemos?
Durante todo o período de manutenção da Tech4humans esteve em salas de guerra para entender os cenários dos clientes, e em momento inicial pode atuar para normalizar, no segundo incidente não foi necessário atuação pelo rápido retorno. E posteriormente a partir das 20:00 (BRT) esteve acompanhando os clientes porém o cenário identificado não havia atuação possível pois o Lag entre as maquinas deveria só ser resolvido com o final da manutenção.
A Tech4humans também atuou junto a Microsoft para verificar se todos os problemas estavam ligados a Manutenção Planejada ou se existia outra instabilidade em nossos ambientes ou aplicação, e foi confirmado pela Microsoft que o ocorrido fazia parte da manutenção.

O impacto foi apenas na Tech4humans?
Não, pudemos acompanhar que outros players que possuem soluções críticas tiveram incidentes no mesmo intervalo, e com informes muito semelhantes aos encontrados na solução da Tech4humans.

Quais os próximos passos?
Devido ao grande impacto e a informações de manutenção erradas a Tech4humans através da autorização de sua administração entrará com uma notificação a Microsoft requerendo explicações detalhadas sobre o ocorrido, e o porque as comunicações não foram claras aos seus clientes. Além do descumprimento de SLA por parte da Microsoft, vimos um descumprimento às cláusulas de continuidade de negócios previstas no serviço do PostgreSQL.

Posted Oct 07, 2022 - 17:00 GMT-03:00